[置顶] 高斯判别分析与高斯混合分布之庖丁解牛(第一集)

数学是科学的皇后

                            ——“数学王子”高斯


正态分布的历史:

谈及正态分布的历史,不得不提两位数学家,第一位,Abraham de Moivre(法国裔英国籍数学家 1667.05.26---1754.11.27  中文翻译:德莫佛),在1733年,首次提出了正态分布;

第二位是“数学王子”,约翰·卡尔·弗里德里希·高斯(1777.04.30--1855.02.23),德国著名数学家、物理学家、天文学家,首先把正态分布应用于天文学的研究,高斯的这项工作对后世的影响极大,故正态分布又称高斯分布。


二维空间中的高斯分布公式:


二维空间中的可视化(举例三个高斯分布。我们发现方差越大,曲线越“矮胖”;在期望值附近出现的点的几率很大):

[置顶] 高斯判别分析与高斯混合分布之庖丁解牛(第一集)_第1张图片

D维空间中高斯分布公式:

                                                              

三维空间中的可视化:

[置顶] 高斯判别分析与高斯混合分布之庖丁解牛(第一集)_第2张图片


高斯判别分析模型(有监督学习):


假设离散的随机变量满足以下概率分布:

随机变量满足条件概率密度函数:


联合概率密度函数:


已经数据集


取样于该联合概率密度函数。


在二维空间中上述联合概率密度函数数据采样可视化(举例取N=3),其中,分别代表三个协方差:



[置顶] 高斯判别分析与高斯混合分布之庖丁解牛(第一集)_第3张图片




下面通过最大似然估计来估计未知参数

似然函数:

最大化似然函数,和最大化似然函数的对数是等价的,所以我们最大化以下函数:


首先对上面的函数针对求导,并令导数为零,结果为:

再次对上面函数最大化,针对,因为满足条件

所以,变成了一个有等式约束的最优化问题,首先构造lagrange函数,

然后对lagrange函数针对求导,令导数等于零,

在上面的等式两边同乘以


然后两边求和,既得:

因为


所以得到:

所以:

最后对似然函数的对数针对求导(对矩阵函数,针对矩阵怎么求导及求导法则,没学明白,以后再补)只给出结果:



________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________

混合高斯分布:

问题的提出:

[置顶] 高斯判别分析与高斯混合分布之庖丁解牛(第一集)_第4张图片

我们看到上面的数据,一个高斯分布很难拟合的好,最好用三个高斯分布去拟合。根据这个问题我们提出高斯混合模型的公式:

其中:

用概率密度函数的定义,很容易验证上述模型是概率密度函数。

对于该模型的训练,就是用伟大的EM(期望最大值化)算法,对该算法对高斯混合分布模型的训练,下一集接着讨论!

你可能感兴趣的:(em,最大似然估计,高斯混合分布,高斯判别分析,期望最大值化)