EM算法和混合高斯模型(二)

EM算法和混合高斯模型(二)_第1张图片

在EM算法和混合高斯模型(一)中我们推了解了EM算法并对其进行了简单的推导。EM算法用处很多,在隐马尔可夫(HMM)和混合高斯模型(GMM)中都有重要的应用。本文将简要介绍EM算法在混合高斯模型中的应用。


高斯混合模型

顾名思义,高斯混合模型是指某一群体中含有多个高斯分布,具有如下形式的概率分布模型:

EM算法和混合高斯模型(二)_第2张图片

αk可看作是不同第k个高斯分布的权重,代表一个数据属于第k个高斯分布的概率。

高斯混合模型参数估计的EM算法

假设观测数据y1,y2, ... ...,yn由高斯混合模型生成,则y的分布符合下面高斯混合模型的概率密度分布:

其中,θ=(α1, α2, ... ..., αk; θ1, θ2, ... ... ,θk)。现在,我们使用EM算法来估计高斯混合模型的参数θ。

我们可以设想这些数据的生成过程:数据yj首先依据各个分布的权重αk选择第k个高斯分布, 然后依据第k个高斯分布的概率分布φ(y|θk)生成数据yj。数据yj是已知的,反映观测数据yj来自哪个分布k是未知的,k=1, 2, ... ... , K, 以隐变量γjk表示,其定义如下:

EM算法和混合高斯模型(二)_第3张图片
γjk是0-1随机变量。值得注意的是这里我们假设已经知道了有K个分布了,以及在E步中我们会先初始化各个分布的参数值。

有了观测数据yj及未观测数据γjk,那么完全数据是:

于是,可以写出,完全数据的似然函数:
EM算法和混合高斯模型(二)_第4张图片
那么,完全数据的对数似然函数为:

E步,确定Q函数

EM算法和混合高斯模型(二)_第5张图片

M步
EM算法和混合高斯模型(二)_第6张图片
EM算法和混合高斯模型(二)_第7张图片

高斯混合模型参数估计的EM算法如下:
EM算法和混合高斯模型(二)_第8张图片

参考:
《统计学习方法》李航

你可能感兴趣的:(EM算法和混合高斯模型(二))