LDA模型构建与可视化

正在学习人工智能自然语言处理,学校布置的作业分享出来

文章目录

  • 1. 原理
  • 2. 代码实现
    • 2.1.导入的包
    • 2.2.分词去停用词
    • 2.3.Tfidf
    • 2.4.计算困惑度
    • 2.5.LDA模型构建
    • 2.6.主题与分词
      • 2.6.1.权重值
      • 2.6.2.每个主题前25个词
  • 3.可视化

1. 原理

(参考相关博客与教材)
隐含狄利克雷分布(Latent Dirichlet Allocation,LDA),是一种主题模型(topic model),典型的词袋模型,即它认为一篇文档是由一组词构成的一个集合,词与词之间没有顺序以及先后的关系。一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。它可以将文档集中每篇文档的主题按照概率分布的形式给出,对文章进行主题归纳,属于无监督学习。
需要区分的是,另外一种经典的降维方法线性判别分析

你可能感兴趣的:(人工智能,python,nlp)