概率潜在语义分析
概率潜在语义分析是利用概率生成模型对文本集合进行话题分析的方法
概率潜在语义分析受潜在语义分析的启发提出两者可以通过矩阵分解关联起来
给定一个文本集合,通过概率潜在语义分析,可以得到各个文本生成话题的条件概率分布,以及各个话题生成单词的条件概率分布
概率潜在语义分析的模型有生成模型,以及等价的共现模型
其学习策略是观测数据的极大似然估计,其学习算法是EM算法
生成模型表示文本生成话题,话题生成单词从而得到单词文本共现数据的过程
假设每个文本由一个话题分布决定,每个话题由一个单词分布决定
单词变量 w w w与文本变量 d d d是观测变量话题变量 z z z是隐变量
生成模型的定义如下
P ( T ) = ∏ ( w , d ) P ( w , d ) n ( w , d ) P ( T ) = \prod _ { ( w , d ) } P ( w , d ) ^ { n ( w , d ) } P(T)=(w,d)∏P(w,d)n(w,d)
P ( w , d ) = P ( d ) P ( w ∣ d ) = P ( d ) ∑ α P ( z ∣ d ) P ( w ∣ z ) P ( w , d ) = P ( d ) P ( w | d ) = P ( d ) \sum _ { \alpha } P ( z | d ) P ( w | z ) P(w,d)=P(d)P(w∣d)=P(d)α∑P(z∣d)P(w∣z)
共现模型描述文本单词共现数据拥有的模式
共现模型的定义如下
P ( T ) = ∏ ( w , d ) P ( w , d ) n ( w , d ) P ( T ) = \prod _ { ( w , d ) } P ( w , d ) ^ { n ( w , d ) } P(T)=(w,d)∏P(w,d)n(w,d)
P ( w , d ) = ∑ z ∈ Z P ( z ) P ( w ∣ z ) P ( d ∣ z ) P ( w , d ) = \sum _ { z \in Z } P ( z ) P ( w | z ) P ( d | z ) P(w,d)=z∈Z∑P(z)P(w∣z)P(d∣z)
概率潜在语义分析的模型的参数个数是 O ( M ⋅ K + N ⋅ K ) O ( M \cdot K + N \cdot K ) O(M⋅K+N⋅K)
现实中 K ≪ M K \ll M K≪M
所以概率潜在语义分析通过话题对数据进行了更简洁地表示,实现了数据压缩
模型中的概率分布 P ( w ∣ d ) P ( w | d ) P(w∣d)可以由参数空间中的单纯形表示
M M M维参数空间中,单词单纯形表示所有可能的文本的分布,在其中的话题单纯形表示在 K K K个话题定义下的所有可能的文本的分布
话题单纯形是单词单纯形的子集,表示潜在语义空间
概率潜在语义分析的学习通常采用EM算法通过迭代学习模型的参数
P ( w ∣ z ) P ( w | z ) P(w∣z) 和 P ( z ∣ d ) P ( z| d ) P(z∣d),而 P ( d ) P(d) P(d)可直接统计得出
概率潜在语义分析(probabilistic latent semantic analysis, PLSA)
也称概率潜在语义索引(probabilistic latent semantic indexing, PLSI)
是一种利用概率生成模型对文本集合进行话题分析的无监督学习方法
模型最大特点是用隐变量表示话题,整个模型表示文本生成话题,话题生成单词,从而得到单词-文本共现数据的过程
假设每个文本由一个话题分布决定,每个话题由一个单词分布决定
生成模型
假设有单词集合 $W = $ { w 1 , w 2 , . . . , w M w_{1}, w_{2}, ..., w_{M} w1,w2,...,wM}
其中M是单词个数;文本(指标)集合 D D D= { d 1 , d 2 , . . . , d N d_{1}, d_{2}, ..., d_{N} d1,d2,...,dN}, 其中 N N N是文本个数
话题集合 Z Z Z = { z 1 , z 2 , . . . , z K z_{1}, z_{2}, ..., z_{K} z1,z2,...,zK},其中 K K K是预先设定的话题个数
随机变量 w w w 取值于单词集合;随机变量 d d d 取值于文本集合,随机变量 z z z 取值于话题集合
概率分布 P ( d ) P(d) P(d)、条件概率分布 P ( z ∣ d ) P(z|d) P(z∣d)、条件概率分布 P ( w ∣ z ) P(w|z) P(w∣z) 皆属于多项分布
其中 P ( d ) P(d) P(d) 表示生成文本 d d d 的概率, P ( z ∣ d ) P(z|d) P(z∣d) 表示文本 d d d 生成话题 z z z 的概率, P ( w ∣ z ) P(w|z) P(w∣z) 表示话题 z z z 生成单词 w w w 的概率
每个文本 d d d 拥有自己的话题概率分布 P ( z ∣ d ) P(z|d) P(z∣d),每个话题 z z z 拥有自己的单词概率分布 P ( w ∣ z ) P(w|z) P(w∣z)
也就是说一个文本的内容由其相关话题决定,一个话题的内容由其相关单词决定
生成模型通过以下步骤生成文本·单词共现数据:
注意这里为叙述方便,假设文本都是等长的,现实中不需要这个假设
生成模型中, 单词变量 w w w 与文本变量 d d d 是观测变量, 话题变量 z z z 是隐变量
也就是说模型生成的是单词-话题-文本三元组合 ( w , z , d w, z ,d w,z,d)的集合, 但观测到的单词-文本二元组 ( w , d w, d w,d)的集合
观测数据表示为单词-文本矩阵 T T T的形式,矩阵 T T T 的行表示单词,列表示文本, 元素表示单词-文本对( w , d w, d w,d)的出现次数
从数据的生成过程可以推出,文本-单词共现数据 T T T的生成概率为所有单词-文本对( w , d w,d w,d)的生成概率的乘积
P ( T ) = ∏ w , d P ( w , d ) n ( w , d ) P(T) = \prod_{w,d}P(w,d)^{n(w,d)} P(T)=∏w,dP(w,d)n(w,d)
这里 n ( w , d ) n(w,d) n(w,d) 表示 ( w , d w,d w,d)的出现次数,单词-文本对出现的总次数是 N ∗ L N*L N∗L
每个单词-文本对( w , d w,d w,d)的生成概率由一下公式决定:
P ( w , d ) = P ( d ) P ( w ∣ d ) P(w,d) = P(d)P(w|d) P(w,d)=P(d)P(w∣d)
= P ( d ) ∑ z P ( w , z ∣ d ) = P(d)\sum_{z}P(w,z|d) =P(d)∑zP(w,z∣d)
= P ( d ) ∑ z P ( z ∣ d ) P ( w ∣ z ) =P(d)\sum_{z}P(z|d)P(w|z) =P(d)∑zP(z∣d)P(w∣z)"
共现模型
P ( w , d ) = ∑ z ∈ Z P ( z ) P ( w ∣ z ) P ( d ∣ z ) P(w,d) = \sum_{z\in Z}P(z)P(w|z)P(d|z) P(w,d)=∑z∈ZP(z)P(w∣z)P(d∣z)"
虽然生成模型与共现模型在概率公式意义上是等价的,但是拥有不同的性质
生成模型刻画文本-单词共现数据生成的过程,共现模型描述文本-单词共现数据拥有的模式
如果直接定义单词与文本的共现概率 P ( w , d ) P(w,d) P(w,d), 模型参数的个数是 O ( M ∗ N ) O(M*N) O(M∗N), 其中 M M M 是单词数, N N N 是文本数
概率潜在语义分析的生成模型和共现模型的参数个数是 O ( M ∗ K + N ∗ K ) O(M*K + N*K) O(M∗K+N∗K), 其中 K K K 是话题数
现实中 K < < M K<
所以概率潜在语义分析通过话题对数据进行了更简洁的表示,减少了学习过程中过拟合的可能性
概率潜在语义模型参数估计的EM算法
输入
设单词集合为 $W = KaTeX parse error: Expected '}', got 'EOF' at end of input: {w_{1}, w_{2},…, w_{M}$}
文本集合为 D = D= D={ d 1 , d 2 , . . . , d N d_{1}, d_{2},..., d_{N} d1,d2,...,dN}
话题集合为 Z = Z= Z={ z 1 , z 2 , . . . , z K z_{1}, z_{2},..., z_{K} z1,z2,...,zK}
共现数据 { n ( w i , d j ) } , i = 1 , 2 , . . . , M , j = 1 , 2 , . . . , N ; \left \{ n(w_{i}, d_{j}) \right \}, i = 1,2,..., M, j = 1,2,...,N; {n(wi,dj)},i=1,2,...,M,j=1,2,...,N;
输出
P ( w i ∣ z k ) P(w_{i}|z_{k}) P(wi∣zk) 和 P ( z k ∣ d j ) P(z_{k}|d_{j}) P(zk∣dj).
设置参数 P ( w i ∣ z k ) P(w_{i}|z_{k}) P(wi∣zk) 和 P ( z k ∣ d j ) P(z_{k}|d_{j}) P(zk∣dj) 的初始值
迭代执行以下E步,M步,直到收敛为止。
E E E步:
P ( z k ∣ w i , d j ) = P ( w i ∣ z k ) P ( z k ∣ d j ) ∑ k = 1 K P ( w i ∣ z k ) P ( z k ∣ d j ) P(z_{k}|w_{i},d_{j})=\frac{P(w_{i}|z_{k})P(z_{k}|d_{j})}{\sum_{k=1}^{K}P(w_{i}|z_{k})P(z_{k}|d_{j})} P(zk∣wi,dj)=∑k=1KP(wi∣zk)P(zk∣dj)P(wi∣zk)P(zk∣dj)
M M M步:
P ( w i ∣ z k ) = ∑ j = 1 N n ( w i , d j ) P ( z k ∣ w i , d j ) ∑ m = 1 M ∑ j = 1 N n ( w m , d j ) P ( z k ∣ w m , d j ) P(w_{i}|z_{k})=\frac{\sum_{j=1}^{N}n(w_{i},d_{j})P(z_{k}|w_{i},d_{j})}{\sum_{m=1}^{M}\sum_{j=1}^{N}n(w_{m},d_{j})P(z_{k}|w_{m},d_{j})} P(wi∣zk)=∑m=1M∑j=1Nn(wm,dj)P(zk∣wm,dj)∑j=1Nn(wi,dj)P(zk∣wi,dj)
P ( z k ∣ d j ) = ∑ i = 1 M n ( w i , d j ) P ( z k ∣ w i , d j ) n ( d j ) P(z_{k}|d_{j}) = \frac{\sum_{i=1}^{M}n(w_{i},d_{j})P(z_{k}|w_{i},d_{j})}{n(d_{j})} P(zk∣dj)=n(dj)∑i=1Mn(wi,dj)P(zk∣wi,dj)
class PLSA:
def __init__(self, K, max_iter):
self.K = K
self.max_iter = max_iter
def fit(self, X):
n_d, n_w = X.shape
# P(z|w,d)
p_z_dw = np.zeros((n_d, n_w, self.K))
# P(z|d)
p_z_d = np.random.rand(n_d, self.K)
# P(w|z)
p_w_z = np.random.rand(self.K, n_w)
for i_iter in range(self.max_iter):
# E step
for di in range(n_d):
for wi in range(n_w):
sum_zk = np.zeros((self.K))
for zi in range(self.K):
sum_zk[zi] = p_z_d[di, zi] * p_w_z[zi, wi]
sum1 = np.sum(sum_zk)
if sum1 == 0:
sum1 = 1
for zi in range(self.K):
p_z_dw[di, wi, zi] = sum_zk[zi] / sum1
# M step
# update P(z|d)
for di in range(n_d):
for zi in range(self.K):
sum1 = 0.
sum2 = 0.
for wi in range(n_w):
sum1 = sum1 + X[di, wi] * p_z_dw[di, wi, zi]
sum2 = sum2 + X[di, wi]
if sum2 == 0:
sum2 = 1
p_z_d[di, zi] = sum1 / sum2
# update P(w|z)
for zi in range(self.K):
sum2 = np.zeros((n_w))
for wi in range(n_w):
for di in range(n_d):
sum2[wi] = sum2[wi] + X[di, wi] * p_z_dw[di, wi, zi]
sum1 = np.sum(sum2)
if sum1 == 0:
sum1 = 1
for wi in range(n_w):
p_w_z[zi, wi] = sum2[wi] / sum1
return p_w_z, p_z_d