高斯混合聚类

高斯混合聚类将高斯分布、贝叶斯公式、极大似然法(EM)估计的思路混合在这一种方法中。高斯混合聚类是从概率的角度对样本进行聚类的,而且这个概率是连续概率。

基础概念

  1. 先验概率:指根据以往经验和分析得到的概率。
  2. 类条件概率:指已知一个条件下,结果发生的概率。
  3. 后验概率:判断结果的发生是由哪个原因引起的概率。
  4. 一元高斯函数:

多元高斯分布:对n维样本空间 X中的随机向量x,若x服从高斯分布,其概率密度函数为:

上面的一元正态公式其实就是当n = 1 的时候的特殊化

其中μ是n维均值向量,\sum是n*n的协方差矩阵。由9.28式可看出,高斯分布完全由均值向量\mu和协方差矩阵\sum这两个参数决定。为了明确显示高斯分布与相应参数的依赖关系,将概率密度函数记为\rho \left ( x\mid \mu ,\sum \right )

二元高斯曲线:高斯混合聚类_第1张图片

现在用西瓜例子来理解一下贝叶斯公式

事件A:随机从坏瓜、一般瓜和好瓜三类中选一类。( P(A i)是三个常数,i=3);

事件B:随机在一类瓜中选一个含糖量为某值、密度为某值的瓜。(P(B j ) 是二维高斯曲线,j=3)

1.乘法公式:在自然界中随机选择一个瓜(事件A B ), P(AB) = P(A)P(B|A) = P(B)P(A|B),操作是选一个类再在这个类里选一个瓜。或者先随机决定要选的瓜的含糖量和密度数值,再随机决定要去哪类瓜里找

2.全概率公式:事先写下我想要的“dream瓜”的含糖量和密度数值(事 件 B ),随机选一个瓜,选中瓜的刚好是我的dream瓜的概率: P ( B ) = P ( A 1 ) P ( B ∣ A 1 ) + P ( A 2 ) P ( B ∣ A 2 ) + … + P ( A n ) P ( B ∣ A n ) ​。将这个数值已确定的瓜是来自坏瓜、一般瓜、好瓜的概率分别相加。

 3.贝叶斯公式:随机抽个瓜,假如我抽到了一个含量糖为某值、密度为某值的瓜,这个瓜是来自第i ii类瓜的概率?在第i ii类中抽到这个数值的瓜的概率除以从各类中抽到这个数值的瓜的概率之和。

我们可定义高斯混合分布:

我们已知样本集30个瓜的含量糖、密度的值。先重点研究其中一个编号为x 的样本瓜x,P m ( x ) 是指我们在自然界中随机选一个瓜,选中的恰好是这个样本瓜x 的概率。

1.首先,当i =1,比如这里是指坏瓜类,那么这时坏瓜的高斯曲线已知已确定了(μ 1、Σ 1 已确定)。根据这个确定高斯曲线可以得到样本瓜x 在坏瓜类中存在的概率p(x∣μ 1,Σ 1 )。

2.然后,p(x∣μ 1,Σ 1 )与 α i ​  相乘的结果就是从坏瓜类中抽中样本瓜x xx的概率。

3.最后,分别计算i =1(从坏瓜类中抽)、i=2(从一般瓜类中抽)和i =3(从好瓜类中抽)的情况下抽到样本瓜x 的概率,将这三种情况下的概率相加,得到的P m ( x ) 即是在自然界中抽一个瓜正好抽中样本瓜x 的概率。

后验分布:假如已知μ 、 Σ ,现在我们已经拿到了一个瓜,已知这个瓜的含糖量和密度数值,但不知道这个瓜来自哪个类,怎么办?我们可以将这个瓜的含糖量和密度数值分别代入3类瓜的高斯分布曲线,在哪类瓜中的概率高,即说明这个瓜来自哪类瓜的可能性最大。

高斯混合聚类_第2张图片

如何划分簇:从原型聚类的角度来看,高斯混合聚类是采用概率模型(高斯分布)对原型进行刻画, 簇划分则由原型对应后验概率确定。

高斯混合聚类_第3张图片

 

 

你可能感兴趣的:(聚类,机器学习,人工智能,聚类)