LDA模型分析(三):LDA建模与求参

pLSA与LDA对比:

LDA就是在pLSA的基础上加层贝叶斯框架,即LDA就是pLSA的贝叶斯版本。

image.png

image.png

pLSA与LDA对比: LDA加入超参 ,认为参数是随机变量,EM不再适用于求参过程
image.png

  • pLSA与LDA对比:


    image.png
  • 双Dirichlet-Multinomial共轭结构


    image.png

    →→表示生成文档中的所有词对应的主题,显然 → 对应的是Dirichlet 分布,→ 对应的是 Multinomial 分布,所以整体是一个 Dirichlet-Multinomial 共轭结构。


    image.png

    类似的,→→容易看出, 此时→对应的是 Dirichlet 分布,→ 对应的是 Multinomial 分布, 所以整体也是一个Dirichlet-Multinomial 共轭结构。

Gibbs Sampling求参数:假定文档已经产生,反推其主题分布

给定一个文档集合,是可以观察到的已知变量,和是根据经验给定的先验参数,其他的变量 z,和都是未知的隐含变量,需要根据观察到的变量来学习估计的。根据LDA的图模型,可以写出所有变量的联合分布:


image.png

image.png

排除当前词的主题分配,即根据其他词的主题分配和观察到的单词来计算当前词主题的概率公式为:


image.png

image.png
  • 求参数:


    image.png
  • LDA不完全随机:选不同的,Dirichlet 分布会偏向不同的主题分布


    image.png

小白学习 无关利益

你可能感兴趣的:(LDA模型分析(三):LDA建模与求参)