EM算法详细推导

EM算法详细推导

  • EM算法简介
    • 1.EM算法简介
  • EM算法推导
    • 2.EM算法推导
  • EM算法举例
    • 3.EM算法举例
  • EM算法收敛性证明
    • 4.EM算法收敛性证明
  • 一点小思考
    • 5.一点小思考
  • 参考文献

EM算法简介

1.EM算法简介

概率模型有时既含有观测变量,又含有隐变量或潜在变量。如果概率模型的变量都是观测变量,那么给定观测数据,直接根据极大似然估计求解模型参数。EM算法是一种迭代算法,用于含有隐变量的概率模型参数的极大似然估计或者极大后验概率估计。EM算法的每次迭代由两步组成:E步,求期望;M步,求极大值。EM算法用于对观测数据的极大似然估计的近似实现。
EM算法:

输入:观测变量数据Y,隐变量数据Z,联合分布P(Y,Z|θ),条件分布P(Z|Y,θ);
输出:模型参数θ
(1)选择初始参数,开始迭代
(2)E步:记为第i次迭代参数θ的估计值,在第i+1次迭代的E步,计算
Alt
(3)M步:求使Q极大化的θ,确定第i+1次迭代的参数估计值
(4)重复2和3步,直到收敛

EM算法推导

2.EM算法推导

对于一个含有隐变量的概率模型,目标是极大化观测数据Y关于参数θ的对数似然函数,即极大化
Alt
EM算法就是通过迭代逐步近似极大化L(θ)的。假设在第i次迭代后θ的估计值是θi。我们希望新估计值θ能使L(θ)增加。即L(θ)>L(θi),并逐步达到极大值。为此,考虑两者的差:
EM算法详细推导_第1张图片
根据jensen不等式得到其下界:
EM算法详细推导_第2张图片

Alt

alt
即函数B是L的一个下界,alt
任何使得B增大的θ,也可以使L(θ)增大。为了使L(θ)有尽可能大的增长,选择θ(i+1)使B达到极大,即
alt
注意:其实在这里同时可以证明P(Y|θi)的收敛性,因其有上界,同时
EM算法详细推导_第3张图片
则收敛。
比较经典的图
EM算法详细推导_第4张图片

EM算法举例

3.EM算法举例

李航老师书中三硬币模型,这里针对书中省略的推导过程做一补充
首先我们的目标是对Q(θ,θi)找到其极大化
alt
先找出完全数据的对数似然函数logP(Y,Z|θ)
EM算法详细推导_第5张图片
EM算法详细推导_第6张图片

EM算法收敛性证明

4.EM算法收敛性证明

定理1:设P(Y|θ)为观测数据的似然函数,θi为EM算法得到的参数估计序列,P(Y|θi)为对应的似然函数序列,则P(Y|θi)是单调递增的,即
alt
在EM算法推导中提到了收敛性的证明方法,另一种证明方法参考李航老师书中所示.

一点小思考

5.一点小思考

EM算法收敛性其实包含两个方面,其一是P(Y|θi)的收敛,其二是θ在迭代过程中的收敛,《统计学习方法》中只是证明了前者的收敛,对于后者的收敛,我会查阅相关文献列出证明方法。

参考文献

[1] 李航.《统计学习方法》

你可能感兴趣的:(机器学习)