学习目标:
讲 EM 算法主要是为了后面的 HMM 做准备。
EM 算法(Expectation-Maximization algorithm,期望最大化算法)是一种迭代算法,用于在概率模型中寻找最大似然估计或最大后验估计,特别适用于模型中存在隐变量的情况。
EM 算法是一个基础算法,是很多机器学习领域算法的基础,比如隐式马尔科夫算法(HMM)等。EM 算法是一种迭代优化策略,由于它的计算方法中每一次迭代都分两步,所以算法被称为EM 算法:
EM 算法受到缺失思想影响,最初是为了解决数据缺失情况下的参数估计问题,其算法基础和收敛有效性等问题在 Dempster、Laird 和 Rubin 三人于 1977 年所做的文章《Maximum Likelihood from Incomplete Data via the EM Algorithm》中给出了详细的阐述。其基本思想是:
EM 算法计算流程:
学习目标:
想清晰的了解 EM 算法,我们需要知道一个基础知识:“极大似然估计”。
极大似然估计(Maximum Likelihood Estimation,MLE),通俗理解来说,就是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值!换句话说,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。
假如我们需要调查学校的男生和女生的身高分布,我们抽取 100 个男生和 100 个女生,将他们按照性别划分为两组。然后,统计抽样得到 100 个男生的身高数据和 100 个女生的身高数据。
如果我们知道他们的身高服从正态分布,但是这个分布的均值 μ \mu μ 和方差 σ 2 \sigma^2 σ2 是不知道,这两个参数就是我们需要估计的。
问题:我们知道样本所服从的概率分布模型和一些样本,我们需要求解该模型的参数。
我们已知的条件有两个:
我们需要求解模型的参数。即,根据已知条件,通过极大似然估计,求出未知参数。
总的来说,极大似然估计就是用来估计模型参数的统计学方法。
问题数学化:
这个概率反映了在概率密度函数的参数是 θ \theta θ 时,得到 X X X 这组样本的概率。
我们需要找到一个参数 θ \theta θ,使得抽到 X X X 这组样本的概率最大,也就是说需要其对应的似然函数 L ( θ ) L(\theta) L(θ) 最大。
满足条件的 θ \theta θ 叫做 θ \theta θ 的最大似然估计值,记为: θ ^ = a r g m a x L ( θ ) \hat{\theta} = \mathrm{argmax} \ L(\theta) θ^=argmax L(θ)
第一步:首先写出似然函数
L ( θ ) = L ( x 1 , x 2 , . . . , x n ; θ ) = ∏ i = 1 n p ( x i ; θ ) , θ ∈ Θ L(\theta) = L(x_1, x_2, ..., x_n; \theta) = \prod_{i=1}^n p(x_i; \theta), \theta \in \Theta L(θ)=L(x1,x2,...,xn;θ)=i=1∏np(xi;θ),θ∈Θ
第二步:对 似然函数 取对数
l ( θ ) = ln L ( θ ) = ln ∏ i = 1 n p ( x i ; θ ) = ∑ i = 1 n ln p ( x i ; θ ) l(\theta) = \ln L(\theta) = \ln{\prod_{i=1}^n p(x_i; \theta)} = \sum_{i=1}^n \ln{p(x_i; \theta)} l(θ)=lnL(θ)=lni=1∏np(xi;θ)=i=1∑nlnp(xi;θ)
第三步:对上式求导,并令导数为 0,得到似然方程
第四步:求解似然方程,得到的参数值即为我们要求的
多数情况下,我们是根据已知条件来推算结果,而极大似然估计是已知结果,寻求使该结果出现的可能性最大的条件,以此作为估计值。
Q:为什么要对似然函数取对数?
A:【文间跳转】极大似然函数取对数的原因
我们目前有 100 个男生和 100 个女生的身高,但是我们不知道这 200 个数据中哪个是男生的身高,哪个是女生的身高,即抽取得到的每个样本都不知道是从哪个分布中抽取的。
这个时候,对于每个样本,就有两个未知量需要估计:
具体问题如下图所示:
对于具体的身高问题使用 EM 算法求解步骤如下:
步骤一 · 初始化参数:先初始化男生身高的正态分布的参数,如均值 μ = 1.65 \mu=1.65 μ=1.65,方差 σ 2 = 0.15 \sigma^2 =0.15 σ2=0.15;
步骤二 · 计算分布:计算每一个人更可能属于男生分布或者女生分布;
步骤三 · 重新估计参数:通过分为男生的 n n n 个人来重新估计男生身高分布的参数(最大似然估计),女生分布也按照相同的方式估计出来,更新分布;
步骤四 · 迭代:这时候两个分布的概率也变了,然后重复步骤一至三,直到参数不发生变化为止。
输入:
算法步骤:
步骤一 · 初始化参数:随机初始化模型参数 θ \theta θ 的初值 θ 0 \theta_0 θ0。
步骤二 · 计算分布: j = 1 , 2 , . . . , J j = 1, 2,..., J j=1,2,...,J 开始 EM 算法迭代:
输出:模型参数 θ \theta θ。
学习目标:
假设现在有两枚硬币 1 和 2,随机抛掷后正面朝上概率分别为 P 1 P_1 P1, P 2 P_2 P2。为了估计这两个概率,做实验,每次取一枚硬币,连掷 5 下,记录下结果,如下表所示:
硬币 | 结果 | 统计 |
---|---|---|
1 | 正正反正反 | 3 正 2 反 |
2 | 反反正正反 | 2 正 3 反 |
1 | 正反反反反 | 1 正 4 反 |
2 | 正反反正正 | 3 正 2 反 |
1 | 反正正反反 | 2 正 3 反 |
可以很容易地估计出 P 1 P_1 P1 和 P 2 P_2 P2,如下:
P 1 = 3 + 1 + 2 15 = 1.4 P 2 = 2 + 3 10 = 0.5 \begin{aligned} & P_1 = \frac{3+1+2}{15} = 1.4\\ & P_2 = \frac{2+3}{10} = 0.5 \end{aligned} P1=153+1+2=1.4P2=102+3=0.5
到这里,一切似乎很美好,下面我们加大难度。
还是上面的问题,现在我们抹去每轮投掷时使用的硬币标记,如下:
硬币 | 结果 | 统计 |
---|---|---|
Unknown(未知) | 正正反正反 | 3 正 2 反 |
Unknown(未知) | 反反正正反 | 2 正 3 反 |
Unknown(未知) | 正反反反反 | 1 正 4 反 |
Unknown(未知) | 正反反正正 | 3 正 2 反 |
Unknown(未知) | 反正正反反 | 2 正 3 反 |
好了,现在我们的目标没变,还是估计 P 1 P_1 P1 和 P 2 P_2 P2,要怎么做呢?
显然,此时我们多了一个隐变量 z z z,可以把它认为是一个 5 维的向量 ( z 1 , z 2 , z 3 , z 4 , z 5 ) (z_1,z_2,z_3,z_4,z_5) (z1,z2,z3,z4,z5),代表每次投掷时所使用的硬币,比如 z 1 z_1 z1,就代表第一轮投掷时使用的硬币是 1 还是 2。但是,这个变量 z z z 不知道,就无法去估计 P 1 P_1 P1 和 P 2 P_2 P2。所以,我们必须先估计出 z z z,然后才能进一步估计 P 1 P_1 P1 和 P 2 P_2 P2。
但要估计 z z z,我们又得知道 P 1 P_1 P1 和 P 2 P_2 P2,这样我们才能用最大似然概率法则去估计 z z z,这不是鸡生蛋和蛋生鸡的问题吗,如何破?
答案就是先随机初始化一个 P 1 P_1 P1 和 P 2 P_2 P2,用它来估计 z z z,然后基于 z z z,还是按照最大似然概率法则去估计新的 P 1 P_1 P1 和 P 2 P_2 P2,如果新的 P 1 P_1 P1 和 P 2 P_2 P2 和我们初始化的 P 1 P_1 P1 和 P 2 P_2 P2 一样,请问这说明了什么?这说明我们初始化的 P 1 P_1 P1 和 P 2 P_2 P2 是一个相当靠谱的估计(已经收敛了,不需要再进行估计了)!
就是说,我们初始化的 P 1 P_1 P1 和 P 2 P_2 P2,按照最大似然概率就可以估计出 z z z,然后基于 z z z,按照最大似然概率可以反过来估计出 P 1 P_1 P1 和 P 2 P_2 P2。当与我们初始化的 P 1 P_1 P1 和 P 2 P_2 P2 一样时,说明 P 1 P_1 P1 和 P 2 P_2 P2 很有可能就是真实的值。这里面包含了两个交互的最大似然估计。
如果新估计出来的 P 1 P_1 P1 和 P 2 P_2 P2 和我们初始化的值差别很大,怎么办呢?也很简单,就是继续用新的 P 1 P_1 P1 和 P 2 P_2 P2 迭代,直至收敛。
以上就是 EM 算法的初级版。
我们不妨这样,先随便给 P 1 P_1 P1 和 P 2 P_2 P2 赋一个值,比如:
P 1 = 0.2 P 2 = 0.7 P_1 = 0.2\\ P_2 = 0.7 P1=0.2P2=0.7
然后,我们看看第一轮抛掷最可能是哪个硬币。
然后依次求出其他 4 轮中的相应概率。做成表格如下:
轮数 | 若是硬币 1 | 若是硬币 2 | 最大概率 |
---|---|---|---|
1(3 正 2 反) | 0.00512 | 0.03087 | 硬币 2 |
2(2 正 3 反) | 0.02048 | 0.01323 | 硬币 1 |
3(1 正 4 反) | 0.08192 | 0.00567 | 硬币 1 |
4(3 正 2 反) | 0.00512 | 0.03087 | 硬币 2 |
5(2 正 3 反) | 0.02048 | 0.01323 | 硬币 1 |
按照最大似然法则:
我们就把上面的值作为 z z z 的估计值。然后按照最大似然概率法则来估计新的 P 1 P_1 P1 和 P 2 P_2 P2。
P 1 = 2 + 1 + 2 15 = 0.33 P 2 = 3 + 3 10 = 0.6 \begin{aligned} & P_1 = \frac{2 + 1 + 2}{15} = 0.33\\ & P_2 = \frac{3 + 3}{10} = 0.6 \end{aligned} P1=152+1+2=0.33P2=103+3=0.6
设想我们是全知的神,知道每轮抛掷时的硬币就是如本文第001部分标示的那样。那么, P 1 P_1 P1 和 P 2 P_2 P2 的最大似然估计就是 0.4 和 0.5(下文中将这两个值称为 P 1 P_1 P1 和 P 2 P_2 P2 的真实值)。那么对比下我们初始化的 P 1 P_1 P1 和 P 2 P_2 P2 和新估计出的 P 1 P_1 P1 和 P 2 P_2 P2:
初始化的 P 1 P_1 P1 | 估计出的 P 1 P_1 P1 | 真实的 P 1 P_1 P1 |
---|---|---|
0.2 | 0.33 | 0.4 |
初始化的 P 2 P_2 P2 | 估计出的 P 2 P_2 P2 | 真实的 P 2 P_2 P2 |
0.7 | 0.6 | 0.5 |
通过表中数据我们知道,估计的 P 1 P_1 P1 和 P 2 P_2 P2 相比于它们的初始值,更接近它们的真实值了!
我们继续按照上面的思路,用估计出的 P 1 P_1 P1 和 P 2 P_2 P2 再来估计 z z z,再用 z z z 来估计新的 P 1 P_1 P1 和 P 2 P_2 P2,反复迭代下去,就可以最终得到 P 1 = 0.4 P_1=0.4 P1=0.4 和 P 2 = 0.5 P_2=0.5 P2=0.5。此时无论怎样迭代, P 1 P_1 P1 和 P 2 P_2 P2 的值都会保持 0.4 和 0.5 不变。于是乎,我们就找到了 P 1 P_1 P1 和 P 2 P_2 P2 的最大似然估计。
但这里有两个问题:
只会接近,但不一定能达到!
我们思考下,上面的方法还有没有改进的余地?
我们是用最大似然概率法则估计出的 z z z 值,然后再用 z z z 值按照最大似然概率法则估计新的 P 1 P_1 P1 和 P 2 P_2 P2。也就是说,我们使用了一个最可能的 z z z 值,而不是所有可能的 z z z 值。
如果考虑所有可能的 z z z 值,对每一个 z z z 值都估计出一个新的 P 1 P_1 P1 和 P 2 P_2 P2,将每一个 z z z 值概率大小作为权重,将所有新的 P 1 P_1 P1 和 P 2 P_2 P2 分别加权相加,这样的 P 1 P_1 P1 和 P 2 P_2 P2 应该会更好一些。
那么,所有的 z z z 值有多少个呢?
显然,有 2 5 = 32 2^5 = 32 25=32 种,那么需要我们进行 32 次估值?
答案是并不需要,我们可以用期望来简化运算。
轮数 | 若是硬币 1 | 若是硬币 2 |
---|---|---|
1(3 正 2 反) | 0.00512 | 0.03087 |
2(2 正 3 反) | 0.02048 | 0.01323 |
3(1 正 4 反) | 0.08192 | 0.00567 |
4(3 正 2 反) | 0.00512 | 0.03087 |
5(2 正 3 反) | 0.02048 | 0.01323 |
在 EM 算法初始版中,我们直接根据概率大小确定使用了哪枚硬币,如 0.00512 < 0.03087,我们认为使用了硬币 2。显然这样过于草率了,也不太科学。因此我们可以使用一个更加科学的方式,比如我们确定使用哪枚硬币的概率。
利用上面这个表,我们可以算出每轮抛掷中使用硬币 1 或者使用硬币 2 的概率。
比如第 1 轮,使用硬币 1 的概率是:
z 使用硬币 1 = 0.00512 0.00512 + 0.03087 = 0.14 z 使用硬币 2 = 1 − 0.14 = 0.86 \begin{aligned} & z_{使用硬币1} = \frac{0.00512}{0.00512 + 0.03087} = 0.14\\ & z_{使用硬币2} = 1 - 0.14 = 0.86 \end{aligned} z使用硬币1=0.00512+0.030870.00512=0.14z使用硬币2=1−0.14=0.86
因此我们可以算出其他 4 轮的概率,如下表所示:
轮数 | z i = 硬币 1 z_i=硬币 1 zi=硬币1 | z i = 硬币 2 z_i=硬币 2 zi=硬币2 |
---|---|---|
1(3 正 2 反) | 0.14 | 0.86 |
2(2 正 3 反) | 0.61 | 0.39 |
3(1 正 4 反) | 0.94 | 0.06 |
4(3 正 2 反) | 0.14 | 0.86 |
5(2 正 3 反) | 0.61 | 0.39 |
上表中的右两列表示期望值。看第一行,0.86 表示从期望的角度看,这轮抛掷使用硬币 2 的概率是 0.86。相比于前面的方法,我们按照最大似然概率,直接将第 1 轮估计为用的硬币 2。此时的我们更加谨慎,我们只说,有 0.14 的概率是硬币 1,有 0.86 的概率是硬币 2,不再是非此即彼。这样我们在估计 P 1 P_1 P1 或者 P 2 P_2 P2 时,就可以用上全部的数据,而不是部分的数据,显然这样会更好一些。
这一步,我们实际上是估计出了 z z z 的概率分布,这步被称作 E 步。
结合下表:
硬币 | 结果 | 统计 |
---|---|---|
Unknown(未知) | 正正反正反 | 3 正 2 反 |
Unknown(未知) | 反反正正反 | 2 正 3 反 |
Unknown(未知) | 正反反反反 | 1 正 4 反 |
Unknown(未知) | 正反反正正 | 3 正 2 反 |
Unknown(未知) | 反正正反反 | 2 正 3 反 |
我们按照期望最大似然概率的法则来估计新的 P 1 P_1 P1 和 P 2 P_2 P2:
以 P 1 P_1 P1 估计为例,第 1 轮的 3 正 2 反相当于:
0.14 × 3 = 0.42 ⇒ 正 0.14 × 2 = 0.28 ⇒ 反 0.14 \times 3 = 0.42 \Rightarrow 正\\ 0.14 \times 2 = 0.28 \Rightarrow 反 0.14×3=0.42⇒正0.14×2=0.28⇒反
依次算出其他四轮,列表如下:
轮数 | 正面 | 反面 |
---|---|---|
1(3 正 2 反) | 0.14 × 3 = 0.42 0.14 \times 3 = 0.42 0.14×3=0.42 | 0.14 × 2 = 0.28 0.14 \times 2 = 0.28 0.14×2=0.28 |
2(2 正 3 反) | 0.61 × 2 = 1.22 0.61 \times 2 = 1.22 0.61×2=1.22 | 0.61 × 3 = 1.83 0.61 \times 3 = 1.83 0.61×3=1.83 |
3(1 正 4 反) | 0.94 × 1 = 0.94 0.94 \times 1 = 0.94 0.94×1=0.94 | 0.94 × 4 = 3.76 0.94 \times 4 = 3.76 0.94×4=3.76 |
4(3 正 2 反) | 0.14 × 3 = 0.42 0.14 \times 3 = 0.42 0.14×3=0.42 | 0.14 × 2 = 0.28 0.14 \times 2 = 0.28 0.14×2=0.28 |
5(2 正 3 反) | 0.61 × 2 = 1.22 0.61 \times 2 = 1.22 0.61×2=1.22 | 0.61 × 3 = 1.83 0.61 \times 3 = 1.83 0.61×3=1.83 |
总计 | 4.22 | 7.98 |
此时我们就知道更加科学的 P 1 P_1 P1:
P 1 = 4.22 4.22 + 7.98 = 0.35 P_1 = \frac{4.22}{4.22 + 7.98} = 0.35 P1=4.22+7.984.22=0.35
可以看到,改变了 z z z 值的估计方法后,新估计出的 P 1 P_1 P1 要更加接近 0.4(初级版计算得到的是 0.33)。原因就是我们使用了所有抛掷的数据,而不是之前只使用了部分的数据。
这步中,我们根据 E 步中求出的 z z z 的概率分布,依据最大似然概率法则去估计 P 1 P_1 P1 和 P 2 P_2 P2,被称作 M 步。
小结:
在计算一个独立同分布数据集的联合概率时,如:
X = x 1 , x 2 , . . . , x n X = {x_1, x_2,..., x_n} X=x1,x2,...,xn
其联合概率是每个数据点概率的连乘:
p ( X ∣ Θ ) = ∏ i = 1 N p ( x i ∣ Θ ) p(X | \Theta) = \prod_{i=1}^Np(x_i | \Theta) p(X∣Θ)=i=1∏Np(xi∣Θ)
两边取对数则可以将连乘化为连加:
ln p ( X ∣ Θ ) = ∑ i = 1 N ln p ( x i ∣ Θ ) \ln p(X | \Theta) = \sum_{i = 1}^N \ln p(x_i | \Theta) lnp(X∣Θ)=i=1∑Nlnp(xi∣Θ)
让乘法变成加法,从而减少了计算量。
同时,如果概率中含有指数项,如高斯分布,能把指数项也化为求和形式,进一步减少计算量。另外,在对联合概率求导时,和的形式会比积的形式更方便。
其实可能更重要的一点是,因为概率值都在 [ 0 , 1 ] [0,1] [0,1] 之间,因此,概率的连乘将会变成一个很小的值,可能会引起浮点数下溢,尤其是当数据集很大的时候,联合概率会趋向于 0,非常不利于之后的计算。
p ( x ∣ Θ 1 ) > p ( x ∣ Θ 2 ) ⇔ ln p ( x ∣ Θ 1 ) > ln p ( x ∣ Θ 2 ) p(x | \Theta_1) > p(x | \Theta_2) \Leftrightarrow \ln p(x | \Theta_1) > \ln p(x|\Theta_2) p(x∣Θ1)>p(x∣Θ2)⇔lnp(x∣Θ1)>lnp(x∣Θ2)
因为相同的单调性,它确保了概率的最大对数值出现在与原始概率函数相同的点上。因此,可以用更简单的对数似然来代替原来的似然。
同时,如果概率中含有指数项,如高斯分布,能把指数项也化为求和形式,进一步减少计算量。另外,在对联合概率求导时,和的形式会比积的形式更方便。