原文地址:http://hi.baidu.com/ouyanggaoyan/item/5b5c01d4c518871cd78ed0d7#713670-tsina-1-29064-128ff9f28d958dae738be418601ffbcd
Topic models主要可以分为四大类:
1.无监督无层次结构, 主要有:
(1)PLSA(Hofmann 1999),
(2) LDA(Blei et al., 2003),
(3)Correlated Topic Model (Blei and Lafferty, 2006 )
CTM主要是为了克服标准LDA模型不能建模话题在文档中出现的相关性的缺点,将LDA中文档话题分布服从的Dirichlet分布改为Logistic正态分布。例如CTM论文中举的一个例子是在Science杂志语料中,一篇遗传学文章很可能也跟健康和疾病有关,但是却不大可能跟射线天文学有关。
因为Logistic正态分布不再是Multinomial分布的共轭分布,因此模型的解变得更加复杂。对此,作者使用的方法是,在变分推理的过程中,继续使用Taylor展开式以简化似然函数下界的复杂性。
图X Correlated Topic Model 模型的图形表示
07年CTM详细版本:CTM2007
CTM的变分推导细节见另一个学者的文档:Variational EM Algorithms for Correlated Topic Models
(4) PAM(Li and McCallum, ICML 2006),
Concept Topic Model等
2. 无监督有层次结构, 主要有:
HLDA(Blei NIPS 2003),
HDP(Teh et al., 2005):标准LDA模型中话题的个数K需要已知,然而很多时候确定K的大小是一件困难的事情。HDP能够根据数据自动确定K的大小。
HPAM(Mimno et al., ICML 2007)
3. 有监督无层次结构, 主要有: S-LDA( Blei et al., 2007), Disc-LDA, MM-LDA, Author-Model, Labeled LDA(Ramage et al., 2009), PLDA(Wang et al., 2009) 等
4. 有监督有层次结构, 主要有: hLLDA(Petinot et al., ACL 2011), HSLDA(Hierarchically Supervised Latent Dirichlet Allocation, Perotte et al., NIPS 2012)
除上述集中类型的话题模型外,还有一些半监督的话题模型,主要有:
Semi-LDA(Wang et al. 2007), SSHLDA(Semi-Supervised Hierarchical Topic Model, Mao EMNLP 2012)
另一些LDA变种主要是为了描述一些链接信息而作的扩展:
Link LDA (2004)
Topic-Link LDA(Liu et al., ICML 2009)
RTM (Chang and Blei, AISTATS 2009): Relational topic models: 文档之间有连接关系,即对一个文档网络建模。使用一个响应变量来表示文档之间的关系。
Author-topic model(Rosen-Zvi et al., UAI 2004): 将文档作者也考虑进去
DTM(Blei and Lafferty, ICML 2006) Dynamic Topic Models,话题随时间的演变
STM(Pathak, et al., KDD workshop 2008)Social Topic Models for Community Extraction