概率生成模型
对文本集合进行话题分析的无监督学习方法文本生成话题
,话题生成单词
,从而得到单词-文本
共现数据的过程概率潜在语义分析 模型有生成模型
,以及等价的共现模型
概率潜在语义分析
,就能够发现每个文本的话题,以及每个话题的单词
文本-单词
共现数据 T T T 的生成概率为 P ( T ) = ∏ ( w , d ) P ( w , d ) n ( w , d ) P(T) = \prod\limits_{(w,d)} P(w,d)^{n(w,d)} P(T)=(w,d)∏P(w,d)n(w,d)
P ( w , d ) = P ( d ) P ( w ∣ d ) = P ( d ) ∑ z P ( w , z ∣ d ) = P ( d ) ∑ z P ( z ∣ d ) P ( w ∣ z ) P(w,d) = P(d)P(w|d) = P(d)\sum\limits_z P(w,z|d) = P(d)\sum\limits_z P(z|d)P(w|z) P(w,d)=P(d)P(w∣d)=P(d)z∑P(w,z∣d)=P(d)z∑P(z∣d)P(w∣z)
文本-单词
共现数据 T T T 的生成概率为 P ( T ) = ∏ ( w , d ) P ( w , d ) n ( w , d ) P(T) = \prod\limits_{(w,d)} P(w,d)^{n(w,d)} P(T)=(w,d)∏P(w,d)n(w,d)
P ( w , d ) = ∑ z ∈ Z P ( z ) P ( w ∣ z ) P ( d ∣ z ) P(w,d) = \sum\limits_{z\in Z} P(z)P(w|z)P(d|z) P(w,d)=z∈Z∑P(z)P(w∣z)P(d∣z)
文本数据基于如下的概率模型产生(共现模型):
概率潜在语义分析
通过话题对数据进行了更简洁地表示,减少了学习过程中过拟合的可能性
概率潜在语义分析模型是含有隐变量的模型,其学习通常使用 EM算法。
模型参数估计的EM算法:
输入:单词集合 W = { w 1 , w 2 , . . . , w M } W=\{w_1,w_2,...,w_M\} W={w1,w2,...,wM},文本集合 D = { d 1 , d 2 , . . . , d N } D=\{d_1,d_2,...,d_N\} D={d1,d2,...,dN},话题集合 Z = { z 1 , z 2 , . . . , z K } Z=\{z_1,z_2,...,z_K\} Z={z1,z2,...,zK},共现数据 { n ( w i , d j ) } , i = 1 , 2 , . . . , M ; j = 1 , 2 , . . . , N \{n(w_i,d_j)\},i=1,2,...,M; j=1,2,...,N {n(wi,dj)},i=1,2,...,M;j=1,2,...,N
输出: P ( w i ∣ z k ) P(w_i|z_k) P(wi∣zk), P ( z k ∣ d j ) P(z_k|d_j) P(zk∣dj)
给定文本集合,通过概率潜在语义分析
,可以得到 各个文本生成话题
的条件概率分布,以及各个话题生成单词
的条件概率分布