概率潜在语义分析(PLSA)

概率潜在语义分析(Probabilistic Latent Semantic Analysis,PLSA)是一种利用概率生成模型对文本集合进行话题分析的无监督学习方法。模型最大特点是用隐变量表示话题。整个模型表示文本生成话题,话题生成单词。假设每个文本由一个话题分布决定,每个话题由一个单词分布决定。
概率潜在语义分析(PLSA)_第1张图片
直观上,语义相近的单词和语义相近的文本会被聚到相同的“软类别”,话题表示的就是这样的“软类别”。图中三个框框各自表示一个话题。

1、生成模型

概率潜在语义分析(PLSA)_第2张图片
概率潜在语义分析(PLSA)_第3张图片
概率潜在语义分析(PLSA)_第4张图片

2、共现模型

概率潜在语义分析(PLSA)_第5张图片
概率潜在语义分析(PLSA)_第6张图片
在这里插入图片描述

3、PLSA参数估计的EM算法

概率潜在语义分析(PLSA)_第7张图片

你可能感兴趣的:(统计学习方法)