LDA文本主题模型

按照wiki上的介绍,LDA由Blei, David M.、Ng, Andrew Y.、Jordan于2003年提出,是一种主题模型,它可以将文档集 中每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取出它们的主题(分布)出来后,便可以根据主题(分布)进行主题聚类或文本分类。同时,它是一种典型的词袋模型,即一篇文档是由一组词构成,词与词之间没有先后顺序的关系。此外,一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。

然后以一定的概率选取上述某个主题,再以一定的概率选取那个主题下的某个单词,不断的重复这两步,最终生成如下图所示的一篇文章(其中不同颜色的词语分别对应上图中不同主题下的词):

而当我们看到一篇文章后,往往喜欢推测这篇文章是如何生成的,我们可能会认为作者先确定这篇文章的几个主题,然后围绕这几个主题遣词造句,表达成文。LDA就是要干这事:根据给定的一篇文档,推测其主题分布。

模型运行方式:

假定给了几个主题a、b、c、d

通过学习的方式,获取每个主题topic对应的词语

然后以一定的概率选取上述的某个主题

再以一定的概率选取那个主题下的某个单词

不断重复这两部,最终生成一篇文章

LDA:给定一篇文档推测其主题分布

LDA模型的生成方式

狄利克雷分布

中取样生成文档i的主题分布

主题的多项式分布

中取样生成文档i第 j 个词的主题

狄利克雷分布

中取样生成主题,对应的词语分布

从词语的多项式分布中采样最终生成此偶遇

LDA文本主题模型_第1张图片

你可能感兴趣的:(LDA文本主题模型)