作者:CHEONG
公众号:AI机器学习与知识图谱
研究方向:自然语言处理与知识图谱
前言:机器学习系列文章常含有大量公式,若需获取本文全部的手书版原稿资料,扫码关注公众号【AI机器学习与知识图谱】,回复: 高斯分布第一讲 即可获取。
原创不易,转载请告知并注明出处!扫码关注公众号,定期发布知识图谱,自然语言处理、机器学习等知识,添加微信号【17865190919】进讨论群,加好友时备注来自CSDN。
二话不说咱先抛出一个问题:数据集Data X服从高斯分布,如何推导X的均值和方差
欲解答上述问题,先对问题进行拆解:
1、何为高斯分布,高斯分布概率密度函数是什么
2、用什么方法推导:最大似然估计法,那最大似然估计是什么
3、如何推导,最大似然估计法推导高斯分布均值和方差的过程
那接下来我们就先对上面四个问题一个一个来看吧。
下面先说明一元高斯分布,标准一元正态分布以及多元高斯分布之间的关系以及其概率密度函数分别是什么,而对于边缘高斯分布,条件高斯分布以及混合高斯分布之后再单独细讲。
如果数据集x服从均值为u,方差为 σ \sigma σ的一元高斯分布,其概率密度函数为
(1)如果 x ∼ N ( u , σ 2 ) x \sim N(u, \sigma^2) x∼N(u,σ2)且a和b是实数时,那么
(2)如果 x ∼ N ( u x , σ x 2 ) x \sim N(u_x, \sigma^2_x) x∼N(ux,σx2)与 y ∼ N ( u y , σ y 2 ) y \sim N(u_y, \sigma^2_y) y∼N(uy,σy2)是统计独立的正态随机变量,那么
这里先介绍一种简单的情况,那就是多元维度之间相互独立时,若各变量之间相互独立,则联合概率密度函数等于各自概率密度的乘积。
如果 X = ( x 1 , x 2 , . . . , x d ) T X=(x_1, x_2, ..., x_d)^T X=(x1,x2,...,xd)T,且各维度之间相互独立,则X的概率密度函数为
上式中 Σ \Sigma Σ是协方差矩阵,由于变量各个维度之间不相关,因此协方差矩阵只有对角线的位置有值,因此推导出多元高斯分布的概率密度函数为:
先从下图中的例子泛泛的理解一下最大似然估计的思想:
通俗来说,最大似然估计法,就是利用已知的样本结果信息,反推最大可能(最大概率)产生这个结果的模型参数值,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即模型已定,参数未知。
最大似然估计一个重要前提假设是:数据样本之间是独立同分布的。在用最大似然估计解高斯分布参数前,先看一般情况,现考虑有一个数据集D,服从一定的概率分布,用最大似然估计来推导该数据集的参数向量 Θ \Theta Θ,记已知的样本集为:
似然函数,即联合概率密度函数:
联合概率密度函数 p ( D ∣ Θ ) p(D|\Theta) p(D∣Θ)称为相对于数据集D的参数 Θ \Theta Θ的似然函数,先再就是要求满足似然函数最大的参数值,也就是求使得该组样本出现的概率最大的 Θ \Theta Θ值
现在知道了最大似然估计的用法,接下来便用最大似然估计来求解高斯分布的参数,即均值和方差。
先有一批数据集Data X服从高斯分布,样本之间独立同分布:
用最大似然估计求解参数 Θ \Theta Θ,则对数似然函数为:
其中 p ( x i ∣ Θ ) p(x_i|\Theta) p(xi∣Θ)即是高斯分布的概率密度函数
因此均值为
至此我们通过最大似然估计求导得出了均值u,接下来用同样的方法求解方差
因此可以求得参数方差为
至此我们已经通过最大似然估计求得了高斯分布的均值和方差