无监督第五节:LDA (Latent Dirichlet Allocation算法细节)(主题模型)
1.算法实现LDA是生成式概率模型。基本的观点是一个文档由多个隐主题生成,每个主题是由单词的分布式表达。LDA假设在语料库D中每个文档的生成过程如下:选择N∼Poisson(ξ).选择θ∼Dir(α).对于每个N单词:(a)选择一个主题∼Multinomial(θ).(b)选择单词from,基于主题的多项式分布.1.1一些简化的假设:1.主题数量k已知2.单词的概率由参数控制1.2狄利克雷分布的形