主题模型对比:LSA、pLSA、LDA

LSA

潜语义模型,通过矩阵分解SVD的方式将词和文档映射到潜在语义空间

应用:计算相似度,可以进行 1)词汇/文档分类  2)检索

缺点:1)尽管LSA的U和V矩阵每一列可以看作一个话题,但是无法解释。 2)svg计算量大

 

pLSA

pLSA通过一个生成模型给LSA赋予概率上的解释。每篇文档看成是话题上的概率分布,每一个话题代表不同单词的概率分布。每写一个词,先以一定的概率选取主题,再以一定的概率选取词,每篇文档通过这样一个两层的概率分布生成。

缺点:1)参数随着文档和单词个数递增,容易引发过拟合  2)pLSA无法给训练集之外的文档分配文档-主题权重 

求解方法:EM

1.E步 求解P(z|w,d) 的后验概率

2.M步 求解关于参数p(z|d), p(w|z)的联合概率对数似然函数期望的极大值,更新E

 

LDA

LDA给文档-主题的概率分布和主题-词的概率分布引入了先验信息。

求解方法:MAP/Gibbs Sampling

  • 1. 对语料库中的每篇文档中的每个词w,随机的赋予一个topic编号z
  • 2. 重新扫描语料库,对每个词w,使用Gibbs Sampling公式对其采样,求出它的topic,在语料中更新
  • 3. 重复步骤2,直到Gibbs Sampling收敛
  • 4. 统计语料库的topic-word共现频率矩阵,该矩阵就是LDA的模型;

 Gibbs Sampling 收敛之后,统计每篇文档中的 topic 的频率分布,我们就可以计算每一个 p(topic|doc) 概率,根据topic-word频率矩阵,我们可以计算每一个p(word|topic)概率。

 

主题模型的缺点

词袋模型,不考虑词在文章中的位置,丢失了位置信息

 

参考:

[1]一文详解LDAhttps://zhuanlan.zhihu.com/p/31470216 

[2]LSA,pLSA原理及其代码实现 https://www.cnblogs.com/bentuwuying/p/6219970.html

[3]浅谈话题模型:LSA、PLSA、LDAhttps://www.jiqizhixin.com/articles/2019-06-12-8

[4]Blei, David M,Ng, Andrew Y,Jordan, Michael  Latent Dirichlet Allocation 

你可能感兴趣的:(算法,机器学习)