概率潜在语义分析(probabilistic latent semantic analysis, PLSI),是一种利用概率生成模型对文本集合进行话题分析的无监督学习方法。模型的最大特点使用隐变量表示话题;整个模型表示文本生成话题,话题生成单词,从而得到单词-文本共现数据的过程;假设每个文本由一个话题分布决定,每个话题由一个单词分布决定。
在前述的单词-文本矩阵的基础下,文本数据基于如下的概率模型产生(共现模型):首先有话题的概率分布,然后有话题给定条件下文本的条件概率分布,以及话题给定条件下单词的条件概率分布。
概率潜在语义分析就是发现由隐变量表示的话题,即潜在语义。
其中单词变量 w w w和文本变量 d d d都是观测变量,话题变量 z z z是隐变量。
从数据的生成过程中可推出,单词文本矩阵 T T T(单词-文本共现数据)的生成概率为所有单词-文本对(w,d)的生成概率的乘积,
P ( T ) = Π ( w , d ) P ( w , d ) n ( w , d ) (1) P(T)=\Pi_{(w,d)}P(w,d)^{n(w,d)} \tag{1} P(T)=Π(w,d)P(w,d)n(w,d)(1)
这里 n ( w , d ) n(w,d) n(w,d)表示 ( w , d ) (w,d) (w,d)的出现次数,单词-文本对出现的总次数是 N × L N\times L N×L。
单词-文本对的生成概率可表示为:
P = ( w , d ) = P ( d ) p ( w ∣ d ) = P ( d ) Σ z P ( w , z ∣ d ) = P ( d ) Σ z P ( z ∣ d ) P ( w ∣ z ) (2) P=(w,d)=P(d)p(w|d) \\ =P(d)\Sigma_zP(w,z|d)\\ =P(d)\Sigma_zP(z|d)P(w|z) \tag{2} P=(w,d)=P(d)p(w∣d)=P(d)ΣzP(w,z∣d)=P(d)ΣzP(z∣d)P(w∣z)(2)
生成模型假设在话题 z z z给定条件下,单词 w w w与文本 d d d条件独立,即
P ( w , z ∣ d ) = P ( z ∣ d ) P ( w ∣ z ) (3) P(w,z|d)=P(z|d)P(w|z) \tag{3} P(w,z∣d)=P(z∣d)P(w∣z)(3)
可定义与以上的生成模型等价的共现模型。
每个单词-文本对 ( w , d ) (w,d) (w,d)的概率由下式决定:
P ( w , d ) = Σ z ∈ Z P ( z ) P ( w ∣ z ) P ( d ∣ z ) (4) P(w,d)=\Sigma_{z\in Z}P(z)P(w|z)P(d|z) \tag{4} P(w,d)=Σz∈ZP(z)P(w∣z)P(d∣z)(4)
虽然生成模型和共现模型在概率公式意义上是等价的,但是拥有不同的性质。
概率潜在语义分析模型是含有隐变量的模型,其学习通常使用EM算法。