06 主题模型 - pLSA又称pLSI - 基于概率的潜在语义分析模型

02 主题模型 - SVD矩阵分解、LSA模型
03 主题模型 - LSA案例
04 主题模型 - NMF
05 主题模型 - 坐标轴下降法

pLSA 的另一个名称是Probabilistic Latent Semantic Indexing(pLSI)，基于概率的潜在语义分析模型。
pLSA和LSA用到的东西一模一样。参考：《 LSA，pLSA原理及其代码实现》

假定在一篇文档d中，主题用c来表示，词语用w来表示，则有下列公式：

06 主题模型 - pLSA又称pLSI - 基于概率的潜在语义分析模型_第1张图片

和LSA一样用到这个式子

p(w,d) 是文挡和词语联合发生的概率。
根据贝叶斯网络推导出：d→c→w <=> d→w; 所以 p(w|d,c) <=> p(w|c) ;
以上算是巩固一下PLS算法的思想。

在PLA中，根据一篇文档去抽出一篇主题的时候，从概率角度来说，我们没有考虑先验条件。在PLA中，我们认为所有主题出现的概率都是一个确定的数字。即我们现在文章中，苹果公司主题文章出现概率是0.3，NBA主题是0.5，其他分类出现的概率是0.2。所有分类出现的概率总和是1。也就是说：我们人为给定了文档后出现的概率分布。

但是我们没有考虑到先验条件的情况，比如：苹果公司发布新的手机了。NBA休赛期到了。
在这种先验条件下，之前提到的苹果公司主题、NBA主题这些文章出现的概率应该会相应得发生变化：
苹果公司主题出现概率 ↑；NBA主题出现概率 ↓

仔细分析p(w,d)的完整生成过程：
p(w,d) 是文挡和词语联合发生的概率。
我们先从文档集合中选择第m个文档，即 p(d_m)
再从主题集合中选择第k个主题，即p(c_k)
再从词语集合中选择第n个词语，即p(w_n)
p(w,d) = p(d_m) × p(c_k | d_m) × p(w_n | c_k)
这是一个完整的生成过程，而事实上，我们只能看到 p(w,d)，观测不到c_k的值。

所以我们想建立一个似然函数。

对数似然

p(d_m)抽到第m篇文档中的情况，p(d_m，W_n)且抽到第n个词的概率，考虑从第1个文档到第m个文档，以及每个文档中第1个到第n个词的联合出现的情况。
再分别乘以这些词出现的次数。最后计算出的值就是我们建立的似然函数的值。

因为pLSA本质上是基于词袋法或TF-IDF，我们是基于词与词之间是否独立的，但是没有考虑词与词之间出现的先后顺序。 这是词袋法和TF-IDF的核心假设。由于词与词之间是互相独立的，我们才能求每篇文章中每个词出现的联合概率，最终生成这样的似然函数。

因为通过似然函数暴露了隐含变量c_k，所以之后的求解思路是然后通过EM算法进行求解。最终得到了我们想得的隐含变量的值，帮助我们求得主题分类。

pLSA的不足：

1、概率模型不够完备，在文档层面上没有提供一个完善的概率模型。使得pLSA无法成为一个好的模型。我们只能在确定了文档的概率分布后才能对模型进行随机抽样。

2、随着文档和词语个数的增加，模型的复杂度也会增加得很快。

07 主题模型 - 知识补充 - 概率知识、二项\多项\Beta\Dirichlet分布

06 主题模型 - pLSA又称pLSI - 基于概率的潜在语义分析模型

你可能感兴趣的:(06 主题模型 - pLSA又称pLSI - 基于概率的潜在语义分析模型)