详解高斯混合模型与EM算法

详解高斯混合模型与EM算法

  • 详解高斯混合模型与EM算法
    • 高斯混合模型
      • 单高斯模型(Gaussian single model, GSM)
        • 一维高斯分布
        • 多维高斯分布
      • 混合高斯模型(Gaussian mixture model, GMM)
        • 混合高斯模型产生的原因
        • 直观理解高斯混合模型
          • 一维混合高斯模型
          • 二维空间3个高斯模型混合
    • 极大似然估计(Maximum Likehood Estimate, MLE)(最大化对数似然函数)
    • EM算法(最大化Q函数)
      • EM算法与极大似然估计分别适用于什么问题
        • 尝试用极大似然估计的方法来解GMM模型
        • 极大似然估计与EM算法适用问题分析
      • EM算法
        • 算法步骤
          • 第一步
          • 第二步 E-step
          • 第三步 M-step
          • 第四步
          • 第五步
        • 一个例子梳理EM算法的整个过程
    • 总结

详解高斯混合模型与EM算法

高斯混合模型

单高斯模型(Gaussian single model, GSM)

一维高斯分布

高斯模型是一种常用的变量分布模型,一维高斯分布的概率密度函数如下:
详解高斯混合模型与EM算法_第1张图片

多维高斯分布

详解高斯混合模型与EM算法_第2张图片

在这里插入图片描述

混合高斯模型(Gaussian mixture model, GMM)

混合高斯模型产生的原因

先来看一组数据。
详解高斯混合模型与EM算法_第3张图片
如果我们假设这组数据是由某个高斯分布产生的,利用极大似然估计(后文还会提及)对这个高斯分布做参数估计,得到一个最佳的高斯分布模型如下。

一般来讲越靠近椭圆的中心样本出现的概率越大,这是由概率密度函数决定的,但是这个高斯分布的椭圆中心的样本量却极少。显然样本服从单高斯分布的假设并不合理。单高斯模型无法产生这样的样本。

实际上,这是用两个不同的高斯分布模型产生的数据
详解高斯混合模型与EM算法_第4张图片
它通过求解两个高斯模型,并通过一定的权重将两个高斯模型融合成一个模型,即最终的混合高斯模型。这个混合高斯模型可以产生这样的样本。

更一般化的描述为:假设混合高斯模型由K个高斯模型组成(即数据包含K个类),则GMM的概率密度函数如下:
在这里插入图片描述
在这里插入图片描述高斯混合模型本质
是融合几个单高斯模型,来使得模型更加复杂,从而产生更复杂的样本。理论上,如果某个混合高斯模型融合的高斯模型个数足够多,它们之间的权重设定得足够合理,这个混合模型可以拟合任意分布的样本。

直观理解高斯混合模型

一维混合高斯模型


二维空间3个高斯模型混合

详解高斯混合模型与EM算法_第5张图片

详解高斯混合模型与EM算法_第6张图片

极大似然估计(Maximum Likehood Estimate, MLE)(最大化对数似然函数)

首先直观化地解释一下最大化对数似然函数要解决的是什么问题。
在这里插入图片描述

那怎么找到这个合适的高斯分布呢(在图8中的表示就是1~4哪个分布较为合适)?这时候似然函数就闪亮登场了。

 所以最大化似然函数的意义就是:通过使得样本集的联合概率最大来对参数进行估计,从而选择最佳的分布模型。
 对于图8产生的样本用最大化似然函数的方法,最终可以得到序号1对应的高斯分布模型是最佳的模型。

EM算法(最大化Q函数)

EM算法与极大似然估计分别适用于什么问题

尝试用极大似然估计的方法来解GMM模型



详解高斯混合模型与EM算法_第7张图片

极大似然估计与EM算法适用问题分析

详解高斯混合模型与EM算法_第8张图片
详解高斯混合模型与EM算法_第9张图片
总结:
 如果我们已经清楚了某个变量服从的高斯分布,而且通过采样得到了这个变量的样本数据,想求高斯分布的参数,这时候极大似然估计可以胜任这个任务;而如果我们要求解的是一个混合模型,只知道混合模型中各个类的分布模型(譬如都是高斯分布)和对应的采样数据,而不知道这些采样数据分别来源于哪一类(隐变量),那这时候就可以借鉴EM算法。EM算法可以用于解决数据缺失的参数估计问题(隐变量的存在实际上就是数据缺失问题,缺失了各个样本来源于哪一类的记录)。

EM算法

EM算法(Expectation-Maximization algorithm)分两步,第一步先求出要估计参数的粗略值,第二步使用第一步的值最大化似然函数。因此要先求出GMM的似然函数。
详解高斯混合模型与EM算法_第10张图片

详解高斯混合模型与EM算法_第11张图片
详解高斯混合模型与EM算法_第12张图片

算法步骤

第一步

在这里插入图片描述

第二步 E-step

详解高斯混合模型与EM算法_第13张图片

第三步 M-step

详解高斯混合模型与EM算法_第14张图片

第四步

详解高斯混合模型与EM算法_第15张图片

第五步

检查参数是否收敛或对数似然函数是否收敛,若不收敛,则返回第2步。

一个例子梳理EM算法的整个过程

在这里插入图片描述

总结

详解高斯混合模型与EM算法_第16张图片
详解高斯混合模型与EM算法_第17张图片

你可能感兴趣的:(机器学习)