pLSA与LDA对比:
LDA就是在pLSA的基础上加层贝叶斯框架,即LDA就是pLSA的贝叶斯版本。
pLSA与LDA对比: LDA加入超参 ,认为参数是随机变量,EM不再适用于求参过程
-
pLSA与LDA对比:
-
双Dirichlet-Multinomial共轭结构
→→表示生成文档中的所有词对应的主题,显然 → 对应的是Dirichlet 分布,→ 对应的是 Multinomial 分布,所以整体是一个 Dirichlet-Multinomial 共轭结构。
类似的,→→容易看出, 此时→对应的是 Dirichlet 分布,→ 对应的是 Multinomial 分布, 所以整体也是一个Dirichlet-Multinomial 共轭结构。
Gibbs Sampling求参数:假定文档已经产生,反推其主题分布
给定一个文档集合,是可以观察到的已知变量,和是根据经验给定的先验参数,其他的变量 z,和都是未知的隐含变量,需要根据观察到的变量来学习估计的。根据LDA的图模型,可以写出所有变量的联合分布:
排除当前词的主题分配,即根据其他词的主题分配和观察到的单词来计算当前词主题的概率公式为:
-
求参数:
-
LDA不完全随机:选不同的,Dirichlet 分布会偏向不同的主题分布