当有部分数据缺失或者无法观察到时,EM算法提供了一个高效的迭代程序用来计算这些数据的最大似然估计。在每一步迭代分为两个步骤:期望(Expectation)步骤和最大化(Maximization)步骤,因此称为EM算法。
假设全部数据Z是由可观测到的样本X={X1, X2,……, Xn}和不可观测到的样本Z={Z1, Z2,……, Zn}组成的,则Y = X∪Z。EM算法通过搜寻使全部数据的似然函数Log(L(Z; h))的期望值最大来寻找极大似然估计,注意此处的h不是一个变量,而是多个变量组成的参数集合。此期望值是在Z所遵循的概率分布上计算,此分布由未知参数h确定。然而Z所遵循的分布是未知的。EM算法使用其当前的假设h`代替实际参数h,例如:给出假设均值u等,以估计Z的分布。
Q( h`| h) = E [ ln P(Y|h`) | h, X ]
EM算法重复以下两个步骤直至收敛。
步骤1:估计(E)步骤:使用当前假设h和观察到的数据X来估计Y上的概率分布以计算Q( h` | h )。
Q( h` | h ) ←E[ ln P(Y|h`) | h, X ]
步骤2:最大化(M)步骤:将假设h替换为使Q函数最大化的假设h`:
h ←argmaxQ( h` | h )
#coding:gbk
import math
import copy
import numpy as np
import matplotlib.pyplot as plt
isdebug = False
# 指定k个高斯分布参数,这里指定k=2。注意2个高斯分布具有相同均方差Sigma,分别为Mu1,Mu2。
def ini_data(Sigma,Mu1,Mu2,k,N):
global X #X产生的数据 ,k维向量
global Mu #初始均值
global Expectations
X = np.zeros((1,N))
Mu = np.random.random(2) #随机产生一个初始均值。
Expectations = np.zeros((N,k)) #k个高斯分布,100个二维向量组成的矩阵。
for i in range(0,N):
if np.random.random(1) > 0.5:
#随机从均值为Mu1,Mu2的分布中取样。
X[0,i] = np.random.normal()*Sigma + Mu1
else:
X[0,i] = np.random.normal()*Sigma + Mu2
if isdebug:
print("***********")
print(u"初始观测数据X:")
print(X)
# EM算法:步骤1,计算E[zij]
def e_step(Sigma,k,N):
#求期望。sigma协方差,k高斯混合模型数,N数据个数。
global Expectations #N个k维向量
global Mu
global X
for i in range(0,N):
Denom = 0
for j in range(0,k):
Denom += math.exp((-1/(2*(float(Sigma**2))))*(float(X[0,i]-Mu[j]))**2)
#Denom 分母项 Mu(j)第j个高斯分布的均值。
for j in range(0,k):
Numer = math.exp((-1/(2*(float(Sigma**2))))*(float(X[0,i]-Mu[j]))**2) #分子项
Expectations[i,j] = Numer / Denom #期望,计算出每一个高斯分布所占的期望,即该高斯分布以多大比例形成这个样本
#if isdebug:
#print("***********")
#print(u"隐藏变量E(Z):")
#print(Expectations)
# EM算法:步骤2,求最大化E[zij]的参数Mu
def m_step(k,N):
#最大化
global Expectations #期望值
global X #数据
for j in range(0,k):
#遍历k个高斯混合模型数据
Numer = 0 #分子项
Denom = 0 #分母项
for i in range(0,N):
Numer += Expectations[i,j]*X[0,i] # 每一个高斯分布的期望*该样本的值。
Denom += Expectations[i,j] #第j个高斯分布的总期望值作为分母
Mu[j] = Numer / Denom #第j个高斯分布新的均值,
# 算法迭代iter_num次,或达到精度Epsilon停止迭代
def run(Sigma,Mu1,Mu2,k,N,iter_num,Epsilon):
ini_data(Sigma,Mu1,Mu2,k,N)
print(X)
print(u"初始
for i in range(iter_num):
Old_Mu = copy.deepcopy(Mu) #算法之前的MU
e_step(Sigma,k,N)
m_step(k,N)
print(i,Mu) #经过EM算法之后的MU,
if sum(abs(Mu-Old_Mu)) < Epsilon:
break
if __name__ == '__main__':
run(6,40,20,2,100,100,0.001)
plt.hist(X[0,:],50)
plt.show()
本代码用于模拟k=2个正态分布的均值估计。其中ini_data(Sigma,Mu1,Mu2,k,N)函数用于生成训练样本,此训练样本时从两个高斯分布中随机生成的,其中高斯分布a均值Mu1=40、均方差Sigma=6,高斯分布b均值Mu2=20、均方差Sigma=6,生成的样本分布如下图所示。由于本问题中实现无法直接冲样本数据中获知两个高斯分布参数,因此需要使用EM算法估算出具体Mu1、Mu2取值。
图 1 样本数据分布
在图1的样本数据下,在第11步时,迭代终止,EM估计结果为:
Mu=[ 40.55261688 19.34252468]