Gibbs 采样

1,Gibbs抽样:对P(z),z是向量,按照Gibbs描述的步骤,可以抽取z(1),z(2),...z(n)这n个样本,Gibbs保证这n个样本的分布服从P(z)。

 

z(0)=(z1,z2,...,zn)

Repeat

for i = 1 to n

    从p(zi|z1,z2,...,zi,zi+1,...,zn)中抽取zi

得到z(t)=(z1,z2,...,zn)

 

2,上面描述了一个一般的Gibbs抽样过程,假设重复N次,将得到z(1),z(2),...,z(N)个样本。抽样有一个收敛到目标分布的过程(burn-in),假设需要a次,那么可以认为z(a),z(a+1),...,z(N)都是从P(z)中抽取出来的。Gibbs抽样中相邻两次得到的样本是相关的,因此通常每隔b次才抽样一次,来消除这种相关性。在实际中a和b通常采取预设置的方法比如几千设为a,几十或者几百设为b,因为二者没有很好的理论设置方法。

 

3,假设通过Gibbs抽样我们得到了M个服从P(z)分布的样本,可以用来做什么?

1)可以求期望:直接求样本平均即可

2)可以求函数期望:将样本做相关的函数变换得到新的样本集,求平均即可

3)直接利用样本本身,求相关的统计量

这三种操作在P(z)本身比较复杂但是p(zi|z1,z2,...,zi,zi+1,...,zn)容易求解的时候十分有用。

 

4,在LDA中我们关注三个参数z,theta和phi。其中z是语料中每一个word对应的隐变量(主题),theta是语料中每一个文档的主题分布,phi是每一个主题的term分布。其实只要求得z,其他两个可以通过简单的似然估计得到。于是需要将LDA的概率公式P(w,z,theta,phi | alpha,beta)通过积分的方法把theta和phi积掉,剩下P(w,z | alpha,beta)。然后求解P(z|w,alpha,beta) = P(w,z | alpha,beta) / P(w | alpha,beta),由于分母要对K的n次方个项求和因此直接求不可行(其中K是主题数,n是词汇表的长度)。Gibbs抽样就是要完成对P(z|w,alpha,beta)的抽样,利用抽样结果通过简单的似然估计求得theta和phi。

 

5,理解上述过程之后可以参考以下两个代码,理解Gibbs解LDA的具体实现

http://www.arbylon.net/projects/LdaGibbsSampler.java


你可能感兴趣的:(Gibbs 采样)