LDA主题模型

待整理

假设文档是由n个词组成的,且不考虑词之间的关系,假设我们的词典有V个词语,v1,v2,...vv,那么最简单的文本生成方法是:

图片.png

每次从词典库中随机挑出一个词语,直到n个词挑完。

这里假设文档的生成服从多项式分布

图片.png
图片.png
图片.png

比较

PLSA与基于kl散度的NMF是等价的,同时也是一种特殊的LDA模型。也有论文讨论了LDA模型与PLSA的近似关系。

[3]. On the equivalence between Non-negative Matrix Factorization and
Probabilistic Latent Semantic Indexing
[4]. The Relationships Among Various Nonnegative Matrix Factorization ethods for Clustering

你可能感兴趣的:(LDA主题模型)