LDA文本建模(3)——pLSA模型和LDA模型

统计文本建模的问题就是:追问这些观察到的语料库中的词序列是如何生成的。


1)LDA文本建模(1-2)里应该明白的结论

  • beta分布是二项式分布的共轭先验概率分布:
    •  对于非负实数,我们有如下关系

------------------(1)

    其中对应的是二项分布的计数。针对于这种观测到的数据符合二项分布,参数的先验分布和后验分布都是Beta分布的情况,就是Beta-Binomial 共轭。

  • 狄利克雷分布(Dirichlet分布)是多项式分布的共轭先验概率分布:
    •  把从整数集合延拓到实数集合,从而得到更一般的表达式如下:

------------------(2)

    针对于这种观测到的数据符合多项分布,参数的先验分布和后验分布都是Dirichlet 分布的情况,就是 Dirichlet-Multinomial 共轭。  ”

  • 频率派和贝叶斯派思考问题的模式:
频率派 把需要推断的参数θ看做是固定的未知常数,即概率 虽然是未知的,但最起码是确定的一个值。同时,样本X 是随机的,所以频率派重点研究样本空间,大部分的概率计算都是针对样本X 的分布;
贝叶斯派 的观点则截然相反,他们认为待估计的 参数是随机变量,服从一定的分布 ,而样本X 是固定的,由于样本是固定的,所以他们重点研究的是参数 的分布。他们的思维模式是: 先验分布  + 样本信息    后验分布   。上述思考模式意味着,新观察到的样本信息将修正人们以前对事物的认知。


2)LDA模型的基础模型:Unigram model、mixture of unigrams model,以及跟LDA最为接近的pLSA模型

统计文本建模的问题就是:追问这些观察到的语料库中的词序列是如何生成的。



2.1)Unigram Model:

LDA文本建模(3)——pLSA模型和LDA模型_第1张图片

假设:

和抛硬币的Binomial不同,抛V个面骰子的实验应该对应Mulitnomial,

则:

LDA文本建模(3)——pLSA模型和LDA模型_第2张图片

LDA文本建模(3)——pLSA模型和LDA模型_第3张图片




LDA文本建模(3)——pLSA模型和LDA模型_第4张图片

形象的理解是:


 上图中的表示在文本中观察到的第n个词,n∈[1,N]表示该文本中一共有N个单词。加上方框表示重复,即一共有N个这样的随机变量。其中,p和α是隐含未知变量:

  • p是词服从的Multinomial分布的参数
  • α是Dirichlet分布(即Multinomial分布的先验分布)的参数。

    一般α由经验事先给定,p由观察到的文本中出现的词学习得到,表示文本中出现每个词的概率。


辛运的是,我们已知公式(2):------------------(2),



另外,公式(23)中的Delta表示:

LDA文本建模(3)——pLSA模型和LDA模型_第5张图片


LDA文本建模(3)——pLSA模型和LDA模型_第6张图片


2.2)Mixture of unigrams model

该模型假设一篇文档只由一个主题生成。
该模型的生成过程是:给某个文档先选择一个主题 ,再根据该主题生成文档,该文档中的所有词都来自一个主题。
假设主题有 ,生成文档 的概率为:
    其图模型为(图中被涂色的w表示可观测变量,未被涂色的z表示未知的隐变量,N表示一篇文档中总共N个单词,M表示M篇文档):

2.3)pLSA(Probabilistic Latent Semantic Analysis)模型


在上面的Mixture of unigrams model中,我们假定一篇文档只由一个主题生成,可实际中,一篇文章往往有多个主题,只是这多个主题各自在文档中出现的概率大小不一样。比如介绍一个国家的文档中,往往会分别从教育、经济、交通等多个主题进行介绍。那么在pLSA中,文档是怎样被生成的呢


图形化表示为:

LDA文本建模(3)——pLSA模型和LDA模型_第7张图片


蛋疼:这边的p(z)是由上帝投骰子选择的,而Mixture of unigrams model中的p(z)居然没介绍是怎么来的。。。


3)LDA(Latent Dirichlet Allocation)模型

3.1)LDA简介


LDA文本建模(3)——pLSA模型和LDA模型_第8张图片


LDA文本建模(3)——pLSA模型和LDA模型_第9张图片

上面概率图可以分解为以下两个物理过程:




对于第一个物理过程:

LDA文本建模(3)——pLSA模型和LDA模型_第10张图片

对于第二个物理过程:

LDA文本建模(3)——pLSA模型和LDA模型_第11张图片


3.2)LDA参数估计

LDA文本建模(3)——pLSA模型和LDA模型_第12张图片


3.3)LDA模型的训练和推理


LDA文本建模(3)——pLSA模型和LDA模型_第13张图片

LDA文本建模(3)——pLSA模型和LDA模型_第14张图片

你可能感兴趣的:(LDA文本建模(3)——pLSA模型和LDA模型)