高斯混合聚类

本文参考B站 up【張振兴】和B站 up【致敬大神】

高斯混合聚类_第1张图片

高斯混合聚类_第2张图片

 1.理解高斯混合模型

这里有一个班级的两门课成绩,分别是物理和生物。我们发现这次生物题比较简单,全班分数都挺高,而物理题比较难,全班成绩都低 。

高斯混合聚类_第3张图片

我们把数据绘制成柱状图,通过柱状图我们发现他们都遵循高斯分布,尽管均值方差不同,但都是高斯分布。

高斯混合聚类_第4张图片

假如对数据集做高斯混合聚类处理,数据叠加到一起是这样的。它是一个模型,但并不是一个高斯分布,它是两个子集的合并,但合并之后并不是高斯分布 。

高斯混合聚类_第5张图片

它是两个没有标签的高斯分布。

高斯混合聚类_第6张图片

经过计算机的高斯混合聚类,我们得到了这样的结果。

高斯混合聚类_第7张图片

因此,高斯混合分布本身并不是高斯模型,而是两个高斯模型的混合物,哪个点更可能属于哪一个高斯模型,它就被分到哪一个类中,这就是高斯混合模型的最简单的例子。

高斯混合聚类_第8张图片

2.步骤

1. 初始化 高斯混合成分的个数 k ,假设高斯混合分布模型参数 α(高斯混合系数) μ (均值) , Σ(协方差矩阵)

2. 分别计算每个样本点的 后验概率 (该样本点属于每一个高斯模型的概率);

3. 迭代 α μ , Σ;

高斯混合聚类_第9张图片

4. 重复第二步直到收敛。

3. 例题详解(P210)

1. 初始化

2. 计算后验概率 \gamma

以 \gamma _{11} 为例,计算过程如下:

计算所有样本的后验概率,将得到如下数据。每行数据代表该样本属于三个不同分布的概率。

如第一行数据代表,样本 x_{1} 属于 \mu _{1}\Sigma _{1} 分布的概率为 0.2187515,属于 \mu _{2}\Sigma _{2} 分布的概率是0.40437245,属于 \mu _{3}\Sigma _{3} 分布的概率为 0.37687605

高斯混合聚类_第10张图片

3. 更新参数

1. \alpha ^{'}\alpha ^{'}相当于概率的均值,因此\alpha ^{'}更新为每列均值。

2. u^{'}u^{'}相当于x的均值。

以计算 \mu _{0} 为例: 

[1] 用数据集数据 × \gamma 的第一列。

高斯混合聚类_第11张图片

[2] 对结果按列求和得  (1)

[3] 对 \gamma_{[1]} 求和得 (2)

[4] \mu _{0} = (1) / (2) 即

3.  \sum

把 \gamma_{[1]}\mu _{0} 代入公式,计算可得 \sum0 = 

你可能感兴趣的:(聚类,算法,机器学习)