4 聚类 - 高斯混合聚类

背景

协方差与相关系数
协方差描述两变量变化的相似度,相关系数除去了变量变化幅度的影响

  • 高斯混合模型
    多个高斯分布混合得到的结果

  • 高斯混合分析步骤

  1. 初始化高斯分布, 设置均值与标准差, 通常可以取数据本身的平均值, 也可以使用k-means来进行分类。下图为随机设置
s1.png
  1. 软聚类数据, 也成为期望步骤(E步骤)。计算每个点对每个高斯分布的隶属度
2.png
  1. 重新估计数据, 也称为最大化步骤(M步骤)
    计算均值
    3.png

计算方差


3-1.png
  1. 评估对数似然估计来检查收敛, 如果不收敛, 重复2~4步骤


sklearn 示例

from sklean import datasets, mixture
X = datasets.iris().data[:,10]
gmm = mixture.GaussianMixture(n_components = 3)
gmm.fit()
clustering = gmm.predict(X)

优点

  • 提供软聚类, 一个点可以属于多个聚类
  • 聚类形状灵活,聚类可以包含聚类

缺点

  • 初始化值敏感
  • 可能会局部收敛
  • 收敛速度慢

各聚类算法轮廓系数比较

ss.png

你可能感兴趣的:(4 聚类 - 高斯混合聚类)