主题模型分析模型——pLSA

基于概率统计的pLSA模型(probabilistic Latent Semantic Analysis,概率隐语义分析),增加了主题模型,形成简单的贝叶斯网络,可以使用EM算法学习模型参数。

pLSA应用与信息检索、过滤、自然语言处理等领域,pLSA考虑到词分布和主题分布,使用EM算法来学习参数。pLSA可以看做概率化的矩阵分解。

 

主题模型分析模型——pLSA_第1张图片

D代表文档,Z代表主题(隐含类别),W代表单词;

P(di)表示文档di的出现概率,

表示文档di中主题zk出现的概率,

表示给定主题zk的前提下单词wj出现的概率。

每个文档在所有主题上服从多项分布;每个主题在所有词项上服从多项分布。

整个文档的生成过程是这样的:

主题模型分析模型——pLSA_第2张图片

观察数据为对,主题zk是隐含变量。

的联合分布为

主题模型分析模型——pLSA_第3张图片

分别对应了两组多项分布,而计算每个文档的主题分布,就是该模型的任务目标。

 

以下为极大似然估计:wj在di中出现的次数表示为n(di,wj)

主题模型分析模型——pLSA_第4张图片

目标函数分析

观察数据为对,主题Zk是隐含变量。

目标函数

未知变量/自变量

使用逐次逼近的办法

假定已知,求隐含变量zk的后验概率;

在(di,wj,zk)已知的前提下,求关于参数的似然函数期望极大值,得到最优解。带入上一步,从而循环迭代。

 

求隐含变量主题Zk的后验概率

(1)假定已知,求隐含变量Zk的后验概率

主题模型分析模型——pLSA_第5张图片

(2)在(di,wj,zk)已知的前提下,求关于参数的似然函数期望极大值,得到最优解。带入上一步,从而循环迭代。

(3)EM算法整体框架

主题模型分析模型——pLSA_第6张图片

(4)关于参数的似然函数期望

主题模型分析模型——pLSA_第7张图片

完成目标函数的建立

关于参数的函数E,并且,带有概率加和为1的约束条件:

主题模型分析模型——pLSA_第8张图片

这是只有等式约束的求极值问题,使用Lagrange乘子法解决。

主题模型分析模型——pLSA_第9张图片

主题模型分析模型——pLSA_第10张图片

 

 

 

 

 

 

 

 

 

 

你可能感兴趣的:(机器学习算法)