高斯混合模型

高斯混合模型假设每个簇的数据都是符合高斯分布(正太分布)的,当前数据呈现的分布就是各个簇的高斯分布叠加在一起的结果。用多个高斯分布函数的线性组合对数据分布进行拟合。理论上,高斯混合模型可以拟合出任意类型的分布。

1、核心思想

当我们研究各类数据时,假设同一类的数据符合高斯分布;当数据事实上有多个类,或者我们希望将数据划分为一些簇时,可以假设不同簇中的样本各自符合不同的高斯分布,由此得到的聚类算法称为高斯混合模型。

假设数据可以看作从多个高斯分布中生成出来的,在该假设下,每个单独的分模型都是标准高斯模型,其均值和方差是呆估计参数,每个分模型还有一个权重(生成数据的概率)。

2、生成式模型

数据的生成过程:

  • 两个一维标准高斯分布模型 N(0,1) 和 N(5,1) ,其权重分别是 0.7 和 0.3。
  • 那么生成第一个数据点时,按照权重比例,随机选择一个分布,比如选择第一个高斯分布,接着从 N(0,1) 中生成一个点,如 -0.5,便是第一个数据点。在生成第二个数据点时,随机选择到第二个高斯分布 N(5,1),生成第二个点 4.7。
  • 如此循环执行,便生成了所有的数据点。

3、EM 算法求解

首先,初始随机选择各参数的值。然后,重复下述两步,直到收敛。

  • E 步骤:根据当前参数,计算每个点由某个分模型生成的概率
  • M 步骤:使用 E 步骤估计出的概率,来改进每个分模型的均值、方差、权重。

参考链接

https://www.cnblogs.com/mindpuzzle/archive/2013/04/24/3036447.html
https://www.jianshu.com/p/006453a29d5f

你可能感兴趣的:(高斯混合模型)