统计学习方法—概率潜在语义分析

统计学习方法—概率潜在语义分析

  • 概率潜在语义分析
    • 概率潜在语义分析模型
      • 生成模型
      • 共现模型
    • 概率潜在语义分析的算法

概率潜在语义分析

  概率潜在语义分析(probabilistic latent semantic analysis, PLSI),是一种利用概率生成模型对文本集合进行话题分析的无监督学习方法。模型的最大特点使用隐变量表示话题;整个模型表示文本生成话题,话题生成单词,从而得到单词-文本共现数据的过程;假设每个文本由一个话题分布决定,每个话题由一个单词分布决定。

概率潜在语义分析模型

  在前述的单词-文本矩阵的基础下,文本数据基于如下的概率模型产生(共现模型):首先有话题的概率分布,然后有话题给定条件下文本的条件概率分布,以及话题给定条件下单词的条件概率分布。
  概率潜在语义分析就是发现由隐变量表示的话题,即潜在语义。

生成模型

  • 简单例子:
    假设有:
    单词集合 W = { w 1 , w 2 , ⋯   , w M } W=\{w_1, w_2,\cdots, w_M\} W={w1,w2,,wM}
    文本集合 D = { d 1 , d 2 , ⋯   , d N } D=\{d_1,d_2,\cdots,d_N\} D={d1,d2,,dN}
    话题集合 Z = { z 1 , z 2 , ⋯   , c K } Z=\{z_1,z_2,\cdots,c_K\} Z={z1,z2,,cK}
    随机变量 w w w取值于单词集合;随机变量 d d d取值于文本集合;随机变量 z z z取值于话题集合。
    概率分布 P ( d ) P(d) P(d)、条件概率分步 p ( z ∣ d ) p(z|d) p(zd)、条件概率分布 P ( w ∣ z ) P(w|z) P(wz);也就是说一个文本的内容由其相关话题决定,一个话题的内容由其相关单词决定

其中单词变量 w w w和文本变量 d d d都是观测变量,话题变量 z z z是隐变量。
从数据的生成过程中可推出,单词文本矩阵 T T T(单词-文本共现数据)的生成概率为所有单词-文本对(w,d)的生成概率的乘积,
P ( T ) = Π ( w , d ) P ( w , d ) n ( w , d ) (1) P(T)=\Pi_{(w,d)}P(w,d)^{n(w,d)} \tag{1} P(T)=Π(w,d)P(w,d)n(w,d)(1)
这里 n ( w , d ) n(w,d) n(w,d)表示 ( w , d ) (w,d) (w,d)的出现次数,单词-文本对出现的总次数是 N × L N\times L N×L

单词-文本对的生成概率可表示为:
P = ( w , d ) = P ( d ) p ( w ∣ d ) = P ( d ) Σ z P ( w , z ∣ d ) = P ( d ) Σ z P ( z ∣ d ) P ( w ∣ z ) (2) P=(w,d)=P(d)p(w|d) \\ =P(d)\Sigma_zP(w,z|d)\\ =P(d)\Sigma_zP(z|d)P(w|z) \tag{2} P=(w,d)=P(d)p(wd)=P(d)ΣzP(w,zd)=P(d)ΣzP(zd)P(wz)(2)

生成模型假设在话题 z z z给定条件下,单词 w w w与文本 d d d条件独立,即
P ( w , z ∣ d ) = P ( z ∣ d ) P ( w ∣ z ) (3) P(w,z|d)=P(z|d)P(w|z) \tag{3} P(w,zd)=P(zd)P(wz)(3)

共现模型

可定义与以上的生成模型等价的共现模型。
每个单词-文本对 ( w , d ) (w,d) (w,d)的概率由下式决定:
P ( w , d ) = Σ z ∈ Z P ( z ) P ( w ∣ z ) P ( d ∣ z ) (4) P(w,d)=\Sigma_{z\in Z}P(z)P(w|z)P(d|z) \tag{4} P(w,d)=ΣzZP(z)P(wz)P(dz)(4)

虽然生成模型和共现模型在概率公式意义上是等价的,但是拥有不同的性质。

  • 生成模型刻画文本-单词共现数据生成的过程,式(2)中单词变量 w w w与文本变量 d d d是非对称的,也称为非对称模型。
  • 共现模型描述文本-单词共现数据拥有的模式,式(4)中单词变量 w w w与文本变量 d d d是对称的,也称为对称模型。

概率潜在语义分析的算法

概率潜在语义分析模型是含有隐变量的模型,其学习通常使用EM算法

你可能感兴趣的:(统计学习方法,机器学习,算法)