LDA模型分析(二):pLSA建模与求参

pLSA建模与求参

  • pLSA
    LSA(隐性语义分析)的目的是要从文本中发现隐含的语义维度-即“Topic”或者“Concept”。尽管基于SVD的LSA取得了一定的成功,但是其缺乏严谨的数理统计基础,而且SVD分解非常耗时。Hofmann在SIGIR'99上提出了基于概率统计的PLSA模型,并且用EM算法学习模型参数。PLSA的概率图模型如下


    image.png

    pLSA是一种词袋方法:


    LDA模型分析(二):pLSA建模与求参_第1张图片
    image.png
  • 几个定义:


    LDA模型分析(二):pLSA建模与求参_第2张图片
    image.png
  • pLSA建模目标:根据文档反推其主题分布


    LDA模型分析(二):pLSA建模与求参_第3张图片
    image.png

    图中被涂色的d、w表示可观测变量,未被涂色的z表示未知的隐变量,N表示一篇文档中总共N个单词,M表示M篇文档。
    已知:


    image.png

    问题:
    LDA模型分析(二):pLSA建模与求参_第4张图片
    image.png
  • pLSA求参数:EM算法
    基本思想是:


    image.png

    image.png

    关键:找到()的一个下界,然后maxmize这个下界,逼近求解的似然函数()。


    LDA模型分析(二):pLSA建模与求参_第5张图片
    image.png
  • pLSA求参数:两未知参数矩阵化


    LDA模型分析(二):pLSA建模与求参_第6张图片
    image.png
  • pLSA求参数:两未知参数


    LDA模型分析(二):pLSA建模与求参_第7张图片
    image.png
  • pLSA求参数:E-step


    LDA模型分析(二):pLSA建模与求参_第8张图片
    image.png

    假定参数已知,计算此时引变量的后验概率。

  • pLSA求参数:M-step


    LDA模型分析(二):pLSA建模与求参_第9张图片
    image.png

    带入隐变量的后验概率,最大化样本分布的对数似然函数,求解相应的参数。

小白学习 无关利益

你可能感兴趣的:(LDA模型分析(二):pLSA建模与求参)