LDA之我见

      本文纯粹出于个人理解,公式纯手打难免有误,不对的地方请指出。

      LDA认为一个语料库中的某个文档w又一系列的主题z生成的,而这一系列的主题是潜在的不可见的,其实就是个混合模型:


     在贝叶斯的理论框架之下,将z的参数也当作变量:


     那么概率模型雏形就出来了,LDA是一个典型“词带”的模型,即对文档词w作条件独立假设:


     其中


     那么对于整个语料库D:


     到这里,整个LDA的模型就已经构建结束,模型的训练和大部分混合模型类似,采用EM去估计:


       在计算z的后验分布时候,会发现这个计算量随着w的数量呈指数增长,因此为了缩减计算量,用一个近似分布来逼近这个真实的后验分布,比如拉普拉斯近似,或者变分推断的方法(详见,另一篇变分推断)。

     

你可能感兴趣的:(LDA之我见)