LDA漫游系列(一)-引言

之前两次面试都问到了LDA算法,这个算法是著名的基于概率模型的主题模型算法,有必要认真的了解一下。

LDA的全称是Latent Dirichlet Allocation的简称,是Blei等人于2003奶奶提出的基于概率模型的主题模型算法,LDA是一种非监督机器学习技术,可以用来识别大规模文档集或语料哭肿的潜在隐藏的主题信息。该方法假设每个词是由背后的一个潜在隐藏的主题中抽取出来。

对于语料库中的每篇文档,LDA定义了如下的生成过程:
1、对每一篇文档,从主题分布中抽取一个主题。
2、从上述被抽到的主题所对应的单词分布中抽取一个单词。
3、重复上述过程直至便利文档中的每一个单词。

LDA认为每篇文章是由多个主题mix混合而成的,而每个主题可以由多个词的概率表征,所以整个程序的输入和输出如下所示:

类型 意义
输入 分词后的文章集(通常为一篇文章一行),主题数K,超参数α 和 β
输出 1、每篇文章的各个词被置顶的主题编号 2、每篇文章的主题概率分布3、每个主题下的词概率分布. 4、程序中词语word的id映射表. 5、每个主题下从高到低topn特征词

你可能感兴趣的:(LDA漫游系列(一)-引言)