主题模型--LSA,PLSA,LDA

预备知识:SVD分解

主题模型历史

Papadimitriou、Raghavan、Tamaki和Vempala在1998年发表的一篇论文中提出了潜在语义索引。1999年,Thomas Hofmann又在此基础上,提出了概率性潜在语义索引(Probabilistic Latent Semantic Indexing,简称PLSI)。
隐含狄利克雷分配LDA可能是最常见的主题模型,是一般化的PLSA,由Blei, David M.、吴恩达和Jordan, Michael I于2003年提出。LDA允许文档拥有多种主题。其它主体模型一般是在LDA基础上改进的。例如Pachinko分布在LDA度量词语关联之上,还加入了主题的关联度。
主题模型--LSA,PLSA,LDA_第1张图片

1 SVD与语义相关性

参考文档:SVD分解在文本分类中的应用

可以用一个大矩阵A来描述这一百万篇文章和五十万词的关联性。
这个矩阵中,每一行对应一篇文章,每一列对应一个词。

矩阵X是对词进行分类的结果,每一列表示一类主题,其中的每个非零元素表示一个主题与一篇文章的相关性,数值越大越相关。
X的每一行代表一篇文章,每一列代表一个主题,里边的数值代表文章与主题的相关程度

矩阵B则表示文章主题和语义类/词类之间的相关性。

矩阵Y中的每一列表示100个语义类/词类,每个语义类/词类与500,000个词的相关性。
Y的每一行代表一个语义类,每一列代表一个词,里边的数值代表词与语义类的相关程度。例如对于第一个词,它和第一个语义类相关,与第二个语义类无关;第二个词则相反

因此,我们只要对关联矩阵A进行一次奇异值分解,就可以同时完成了近义词分类和文章的分类。(同时得到每类文章和每类词的相关性)。
主题模型--LSA,PLSA,LDA_第2张图片

2. LSA

主题模型 LSA

3. PLSA–频率学派

主题模型 PLSA

4. LDA

主题模型 LDA

Topic models主要可以分为四大类:

1.无监督无层次结构, 主要有:
(1)PLSA(Hofmann 1999),
(2) LDA(Blei et al., 2003),
(3)Correlated Topic Model (Blei and Lafferty, 2006 )
(4) PAM(Li and McCallum, ICML 2006),
CTM 主要是为了克服标准LDA模型不能建模话题在文档中出现的相关性的缺点,将LDA中文档话题分布服从的Dirichlet分布改为Logistic正态分 布。例如CTM论文中举的一个例子是在Science杂志语料中,一篇遗传学文章很可能也跟健康和疾病有关,但是却不大可能跟射线天文学有关。
因为Logistic正态分布不再是Multinomial分布的共轭分布,因此模型的解变得更加复杂。对此,作者使用的方法是,在变分推理的过程中,继续使用Taylor展开式以简化似然函数下界的复杂性。
07年CTM详细版本:CTM2007
CTM的变分推导细节见另一个学者的文档:Variational EM Algorithms for Correlated Topic Models

  1. 无监督有层次结构, 主要有:
    HLDA(Blei NIPS 2003),
    HDP(Teh et al., 2005):标准LDA模型中话题的个数K需要已知,然而很多时候确定K的大小是一件困难的事情。HDP能够根据数据自动确定K的大小。
    HPAM(Mimno et al., ICML 2007)
  1. 有监督无层次结构, 主要有:
    S-LDA( Blei et al., 2007),
    Disc-LDA,
    MM-LDA,
    Author-Model,
    Labeled LDA(Ramage et al., 2009),
    PLDA(Wang et al., 2009) 等
  2. 有监督有层次结构, 主要有:
    hLLDA(Petinot et al., ACL 2011),
    HSLDA(Hierarchically Supervised Latent Dirichlet Allocation, Perotte et al., NIPS 2012)

4.除上述集中类型的话题模型外,还有一些半监督的话题模型,主要有:
Semi-LDA(Wang et al. 2007), SSHLDA(Semi-Supervised Hierarchical Topic Model, Mao EMNLP 2012)

另一些LDA变种主要是为了描述一些链接信息而作的扩展:
Link LDA (2004)
Topic-Link LDA(Liu et al., ICML 2009)
RTM (Chang and Blei, AISTATS 2009): Relational topic models: 文档之间有连接关系,即对一个文档网络建模。使用一个响应变量来表示文档之间的关系。
Author-topic model(Rosen-Zvi et al., UAI 2004): 将文档作者也考虑进去
DTM(Blei and Lafferty, ICML 2006) Dynamic Topic Models,话题随时间的演变
STM(Pathak, et al., KDD workshop 2008)Social Topic Models for Community Extraction
Social-Network Analysis Using Topic Model SIGIR2012

参考:
https://blog.csdn.net/pipisorry/article/details/42560693

你可能感兴趣的:(自然语言处理,深度学习,自然语言处理,机器学习)