机器学习:《统计学习方法》笔记(三)—— EM算法

参考:《统计学习方法》——李航;

摘要

介绍了EM算法的推导过程、步骤及在三硬币模型中的应用等内容。

正文

1. 什么地方要用EM算法

EM算法主要用于含有隐含变量的模型参数估计问题。如果概率模型的变量都是观测变量,那么给定数据,可以直接用极大似然估计或极大后验估计。当概率模型含有隐含变量时,就需要用EM算法来估计参数了。EM算法就是含有隐含变量的概率模型参数的极大似然估计或极大后验估计。

2. EM算法的推导

给定观测数据Y,目标是极大化观测数据(不完全数据)Y关于参数\theta的对数似然函数,即

L(\theta)=\log P(Y|\theta)=\log \sum_{Z}P(Y,Z|\theta)=\log \left \{ \sum_Z P(Y|Z,\theta) P(Z|\theta)\right \}

 P(Y|\theta)表示在模型参数为\theta时,观测数据Y的概率分布。

 \begin{align*} P(Y|\theta)&=\sum_Z P(Y,Z|\theta)=\sum_Z P(Z|\theta)P(Y|Z,\theta)\\ &=\pi p^y(1-p)^{1-y}+(1-\pi)q^y(1-q)^{1-y} \end{align*}

EM算法通过逐步迭代来逐步近似极大化L(\theta)。假设第i次迭代后\theta的估计值为\theta^{(i)}。下一轮的估计值\theta要使L(\theta)> L(\theta^{(i)} )。故

L(\theta)-L(\theta^{(i)} )=\log \left \{ \sum_Z P(Y|Z,\theta)P(Z|\theta) \right \}-\log P(Y|\theta^{(i)} )

利用Jensen不等式得到下界:

\begin{align*} L(\theta)-L(\theta^{(i)} ) &=\log \left\{ \sum_Z P(Y|Z,\theta^{(i)} ) \frac{P(Y|Z,\theta) P(Z|\theta)}{P(Y|Z,\theta^{(i)} )} \right \} - \log P(Y|\theta^{(i)} ) \\ &\geq \sum_Z P(Z|Y,\theta^{(i)} )\log \frac{P(Y|Z,\theta) P(Z|\theta)}{P(Z|Y,\theta^{(i)})} - \log P(Y|\theta^{(i)})\\ &= \sum_Z P(Z|Y,\theta^{(i)} )\log \frac{P(Y|Z,\theta) P(Z|\theta)}{P(Z|Y,\theta^{(i)})} - \sum_ZP(Z|Y,\theta^{(i)} ) \log P(Y|\theta^{(i)}) \\ &= \sum_Z P(Z|Y,\theta^{(i)} )\log \frac{P(Y|Z,\theta) P(Z|\theta)}{P(Z|Y,\theta^{(i)}) P(Y|\theta^{(i)})} \\ \end{align*}

B(\theta, \theta^{(i)})=L(\theta^{(i)})+\sum_Z P(Z|Y,\theta^{(i)} )\log \frac{P(Y|Z,\theta) P(Z|\theta)}{P(Z|Y,\theta^{(i)}) P(Y|\theta^{(i)})}

B(\theta, \theta^{(i)})L(\theta)的一个下界。任何可使B(\theta, \theta^{(i)})增大的\theta,都可以使L(\theta)增加。选择能使当前B(\theta, \theta^{(i)})极大的\theta^{(i+1)}作为新的\theta值。

\begin{align*} \theta^{(i+1)} &=\arg \max (L(\theta^{(i)})+\sum_Z P(Z|Y,\theta^{(i)} )\log \frac{P(Y|Z,\theta) P(Z|\theta)}{P(Z|Y,\theta^{(i)}) P(Y|\theta^{(i)})}) \\ &=\arg \max (\sum_Z P(Z|Y,\theta^{(i)}))\log (P(Y|Z,\theta)P(Z|\theta))\\ &=\arg \max (\sum_Z P(Z|Y,\theta^{(i)})\log(P(Y,Z|\theta))) \\ &=\arg \max Q(\theta, \theta^{(i)}) \end{align*}

所以EM算法就是通过迭代不断求Q函数,并将之极大化,直至收敛。下图为EM算法的直观解释,B(\theta, \theta^{(i)})L(\theta)的一个下界。

机器学习:《统计学习方法》笔记(三)—— EM算法_第1张图片

图中,在\theta^{(i)}处两个函数的函数值相等,当前迭代中,要找到\theta^{(i+1)}使B(\theta, \theta^{(i)})极大化。EM算法在点\theta^{(i+1)}处重新计算Q函数,进行下次迭代。笔者认为这时B(\theta, \theta^{(i)})的图像发生变化,不再是上图。

从图中可以看出,EM算法不能保证全局最优。

3. EM算法的步骤

分为E步和M步,即求Q函数,极大化Q函数。

输入:观测数据Y,隐变量数据Z,联合分布P(Y,Z|\theta),条件分布P(Z|Y,\theta)

输出:模型参数\theta

第一步:选取参数\theta的初始值\theta^{(0)}=(\pi^{(0)},p^{(0)},q^{(0)});(注:模型为p(y|\theta)=\pi p^y(1-p)^{1-y}+(1-\pi)q^y(1-q)^{1-y}

第二步(E步):假设第i迭代后,模型代参数为\theta^{(i)},在第i+1次迭代的E步,计算

\begin{align*} Q(\theta, \theta^{(i)}) &= E_Z [\log P(Y,Z|\theta)|Y,\theta^{(i)}]\\ &=\sum_Z P(Z|Y,\theta^{(i)}) \log P(Y,Z|\theta) \end{align*}

P(Z|Y,\theta^{(i)})是给定观测数据Y和当前的参数估计\theta^{(i)}下隐变量数据Z的条件概率分布;

第三步(M步):极大化Q函数,求出\theta^{(i+1)}=\arg \max Q(\theta, \theta^{(i)})

第四步:重复E步,M步直到收敛。

停止迭代的条件:\left \| \theta^{(i+1)}-\theta^{(i)} \right \| <\varepsilon_1 或\left \| Q(\theta^{(i+1)}, \theta^{(i)})-Q(\theta^{(i)},\theta^{(i)}) \right \|<\varepsilon_2

4. EM算法的收敛性

EM算法的收敛性是指EM算法得到的估计序列是否收敛,主要由两个定理来证明 。

定理一:P(Y|\theta)为观测数据的似然函数,\theta^{(i)}(i=1,2,...)是EM算法得到的参数估计序列,P(Y|\theta^{(i)})是对应的似然函数序列,则P(Y|\theta^{(i)})是单调递增的。

定理二:L(\theta)=\log P(Y|\theta)是观测数据的对数似然函数,\theta^{(i)}(i=1,2,...)是EM算法得到的参数估计序列,L(\theta^{(i)})是对应的对数似然函数序列。如果P(Y|\theta)有上界,则L(\theta^{(i)})=\log P(Y|\theta^{(i)})收敛到某一值L^*;在函数Q(\theta, {\theta}')L(\theta)满足一定条件下,EM算法得到的参数估计序列\theta^{(i)}(i=1,2,...)的收敛值\theta^*L(\theta)的稳定点。

这里不再展开讨论。

5. 三硬币模型的EM算法

问题:有三枚硬币(ABC)正面向上的概率分别为\pi,p和q。进行如下试验——先掷A,如果A正面向上则掷B,如果A反面向上则掷C。如此独立地重复做n次试验;记录B和C的结果,正面向上记为1,反面向上记为0。观测结果为:1,1,0,0,1,0,...。

若只能观测到结果,不能观测到掷硬币过程,即每一次的观测结果(1或0)由B或C中的哪枚硬币掷出的是未知的。如此情况下估计三枚硬币正面向上的概率\pi,p和q。观测数据表示为Y=(Y_1,Y_2,...,Y_n)^T,未观测数据表示为Z=(Z_1,Z_2,...,Z_n)^T

一次实验得到的概率为

P(y|\theta)=\pi p^y(1-p)^{(1-y)}+(1-\pi)q^y(1-q)^{(1-y)}

y是观测变量,结果为1或0;

所以三硬币模型可以写作:

机器学习:《统计学习方法》笔记(三)—— EM算法_第2张图片

机器学习:《统计学习方法》笔记(三)—— EM算法_第3张图片

\hat{\theta}=\arg \max_\theta \log P(Y|\theta)

EM算法先对参数选初始值\theta^{(0)}=(\pi^{(0)},p^{(0)},q^{(0)}),再迭代直至收敛;设第i次迭代的估计值为\theta^{(i)}=(\pi^{(i)},p^{(i)},q^{(i)})

在第i+1次,E步的计算为,计算数据y_j来自硬币B的概率

\mu^{(i+1)}=\frac{\pi^{(i)}(p^{(i)})(1-p^{(i)})^{(1-y_i)}}{\pi^{(i)}(p^{(i)})(1-p^{(i)})^{(1-y_i)}+(1-\pi^{(i)})(q^{(i)})(1-q^{(i)})^{(1-y_i)}}

M步计算模型参数的新估计值

\pi^{(i+1)}=\frac{1}{n}\sum_{j=1}^{n}\mu_j^{(i+1)}

p^{(i+1)}=\frac{\sum_{j=1}^{n}\mu_{j}^{(i+1)}y_{j}}{\sum_{j=1}^{n}\mu_{j}^{(i+1)}}

q^{(i+1)}=\frac{\sum_{j=1}^{n}(1-\mu_j^{i+1})y_j}{\sum_{j=1}^{n}(1-\mu_j^{i+1})}


注1:本博客只作笔者笔记用途,仅供参考用,若有侵权行为请留言联系,笔者会在第一时间回复。

注2:码字不易,若转载请注明出处。

 

 

你可能感兴趣的:(机器学习,机器学习理论及应用)