数学之路(3)-机器学习(3)-机器学习算法-LDA(Latent Dirichlet Allocation)主题模型算法

数学之路(3)-机器学习(3)-机器学习算法-LDA(Latent Dirichlet Allocation)主题模型算法_第1张图片

主题模型算法的计算公式基于条件概率:

p(w|d) = p(w|t)*p(t|d)

  • 对每个D中的文档d,对应到不同topic的概率θd < pt1,..., ptk >,其中,pti表示d对应T中第i个topic的概率。计算方法是直观的,pti=nti/n,其中nti表示d中对应第i个topic的词的数目,n是d中所有词的总数。
  • 对每个T中的topic t,生成不同单词的概率φt < pw1,..., pwm >,其中,pwi表示t生成VOC中第i个单词的概率。计算方法同样很直观,pwi=Nwi/N,其中Nwi表示对应到topic t的VOC中第i个单词的数目,N表示所有对应到topic t的单词总数。
从算法上看主题模型算法没有涉及到主题词库如何生成。


你可能感兴趣的:(算法,数学,人工智能,概率)