主题模型

主题模型简介

  1. 主题模型一般包括三个过程:生成过程训练过程以及在线推断。生成过程定义了模型的假设以及具体的物理含义。训练过程定义了怎么由训练数据得出模型。在线推断定义怎样应用模型。

  2. 一般来说,主题模型是一种生成模型。生成模型可以理解为给定模型可以生成训练样本。

主题模型三个过程

  • 生成过程,如下图所示

    主题模型 图中包含两个主题,每个主题有自己的关键词(在词表的分布)。

     有三个文档,每个文档有自己的主题向量。(1.0,0)、(0.5,0.5),(0,1.0),文档中每个词的生成过程就是以一定的概率从主题中挑词。主题向量也就是文档中有对应的概率的词是对应主题的。

    doc / topics
    doc1
    doc2
    doc3
    topic1
    1.0
    0.5
    0.0
    topic2
    0.0
    0.5
    1.0


  • 如何从海量文档中自动的从训练文档中归纳出主题模型,也就是得到每个主题在词表上的具体分布。主题模型(训练过程中产生每个训练文档的主题向量)

  • 有了主题模型之后,给定新文档可以通过在线推断,给出文档的主题向量。主题模型


你可能感兴趣的:(机器学习,自然语言处理)