「NLP主题分析」LDA隐含狄利克雷分布(Latent Dirichlet Allocation)
是基于贝叶斯思想的无监督的聚类算法,广泛用于文本聚类,文本分析,文本关键词等场景。LDA主题模型主要用于推测文档的主题分布,可以将文档集中每篇文档的主题以概率分布的形式给出根据主题进行主题聚类或文本分类。LDA主题模型不关心文档中单词的顺序,通常使用词袋特征(bag-of-wordfeature)来代表文档。-先了解LDA的生成模型,LDA认为一篇文章是怎么形成的呢?LDA模型认为主题可以由一个词