EM算法系列(六)-EM算法的导出

整理自李航老师的《统计学习方法》一书

在前面的几讲中我们介绍了EM算法的一些基础知识以及两个小故事,我们了解了EM算法的基本原理,不过我们并没有详细介绍EM算法的推导过程,这一讲我们就来主要介绍一下EM算法的导出。

我们面对一个含有隐变量的概率模型,目标是极大化观测数据(不完全数据)Y关于参数θ的对数似然函数,即极大化:


EM算法系列(六)-EM算法的导出_第1张图片

这一式子的极大化是非常困难的,因为式中有未观测数据并包含和的对数。
EM算法是通过迭代逐步近似极大化L(θ)的,为此,我们首先要判断是否每次迭代都能增加L(θ)的值,考虑两次迭代的差值:


考虑到我们之前的Jenson不等式,对于log函数来说,它的二次导数小于0,所以是凹函数,我们有E[f(X)]<=f(E[X]),因此,下面的式子是成立的:


EM算法系列(六)-EM算法的导出_第2张图片

上面的式子为什么成立呢?其实是一个很简单的转换,但是自己搞了半天才弄懂,如果大家懂了可以跳过这里,如果不懂可以看我写在纸上的推导:


EM算法系列(六)-EM算法的导出_第3张图片

好了,回到正题,我们令:

则:



另外,我们可以看到:

因此,任何可以使B增大的θ,都可以使L(θ)增大,因此,在每一步,我们的目标是:

接下来:
EM算法系列(六)-EM算法的导出_第4张图片

上式就代表EM算法的一次迭代,即求Q函数及其极大化,EM算法是通过不断求解下界的解答话逼近求解对数似然函数极大化的算法。

上面式子的第一步是去除了对于求解θ而言是常数的项,第二步将边缘分布变为了联合分布,最终得到了我们的Q函数。
书中还通过图示的方法来直观的解释EM算法:


EM算法系列(六)-EM算法的导出_第5张图片

你可能感兴趣的:(EM算法系列(六)-EM算法的导出)