概率图算法-EM算法

1.引言

EM算法,也就是期望最大算法,分为E步和M步,作为一种算法,和模型当然有着本质的区别,类似于梯度下降算法,去求解模型的参数。EM算法多用于概率图生成模型,像HMM,GMM。。。之前的文章里就有EM算法去求解HMM的learning问题。EM算法又可以进一步细分为广义EM和狭义EM。研究EM算法,就要从EM算法收敛性的证明,EM公式的推导这几个方面来看。

2.EM算法收敛性

为什么要去证算法的收敛性,就是要证明EM公式可以去取的一个最大值,并且得到一个对应的\Theta。这样,就能为接下来EM公式的推导做铺垫。其收敛性证明主要用到了KL函数的性质,即相对熵函数大于等于0,主要证明过程如下所示:

概率图算法-EM算法_第1张图片

3.EM算法公式的推导

EM算法的公式和两个函数的关系十分密切,KL函数和ELBO函数。,即logp(x|\Theta)=ELBO+KL。而KL函数是大于等于0的。故logp(x|\Theta\geqELBO,ELBO成为了概率求解的一个下界,并且随着下界的增大,logp(x|\Theta)也会随着增大,使得\Theta随着ELBO增大而不断变化,由此就可以得到EM的公式,其中会利用到jesen不等式(利用了凹函数的性质)。详细推导过程如下图所示:

4.广义EM算法

EM算法在解决概率图生成模型时,可以去求解模型的参数。然而在面对较为复杂的模型的时候,普通的EM算法在E步时就已经无法求出。这是就要去寻找一种更为通用的EM公式,用梯度上升,坐标上升,蒙特卡洛,变分推断的方法求解优化问题(E步和M步),而不是之前狭义EM的方式,像VBEM(变分贝叶斯EM),MCEM(蒙特卡洛EM),VEM(变分EM)。

你可能感兴趣的:(机器学习,em,算法,机器学习,人工智能,nlp)