二维正态分布的最大似然估计_机器学习系列(二)多元正态分布

一元正态分布回顾

如果随机变量

服从均值为

方差为

的正态分布 (Univariate normal distribution),

,则其概率密度函数为:

整个分布可以仅用均值及方差来刻画

如果变量之间不相关,则它们相互独立

经典统计检验通常基于正态分布假设

正态分布可以模拟大量自然现象

多元正态分布

多元正态分布密度函数

类比于一元情况,若

维随机变量

服从均值向量为

和协方差矩阵为

的多元正态分布 (Multivariate normal distribution), 记为

,则密度函数为

时,

equation?tex=%5Cboldsymbol%7B%5Cmu%7D%3D%5Cleft%28%5Cbegin%7Barray%7D%7Bc%7D+%5Cmu_%7B1%7D+%5C%5C+%5Cmu_%7B2%7D+%5Cend%7Barray%7D%5Cright%29%2C+%5Cmathbf%7B%5CSigma%7D%3D%5Cleft%28%5Cbegin%7Barray%7D%7Bcc%7D+%5Csigma_%7B1%7D%5E%7B2%7D+%26+%5Crho_%7B12%7D+%5Csigma_%7B1%7D+%5Csigma_%7B2%7D+%5C%5C+%5Crho_%7B12%7D+%5Csigma_%7B1%7D+%5Csigma_%7B2%7D+%26+%5Csigma_%7B2%7D%5E%7B2%7D+%5Cend%7Barray%7D%5Cright%29%5C%5C

所以随机向量

服从二元正态分布 (Bivariate normal distribution):

,其密度函数为:

equation?tex=%5Cbegin%7Baligned%7D+f%5Cleft%28y_%7B1%7D%2C+y_%7B2%7D%5Cright%29%3D%26+%5Cfrac%7B1%7D%7B2+%5Cpi+%5Csigma_%7B1%7D+%5Csigma_%7B2%7D+%5Csqrt%7B%5Cleft%281-%5Crho_%7B12%7D%5E%7B2%7D%5Cright%29%7D%7D+%5Ctimes+%5C%5C+%26+%5Cexp+%5Cleft%5C%7B-%5Cfrac%7B%5Cleft%28%5Cfrac%7By_%7B1%7D-%5Cmu_%7B1%7D%7D%7B%5Csigma_%7B1%7D%7D%5Cright%29%5E%7B2%7D%2B%5Cleft%28%5Cfrac%7By_%7B2%7D-%5Cmu_%7B2%7D%7D%7B%5Csigma_%7B2%7D%7D%5Cright%29%5E%7B2%7D-2+%5Crho_%7B12%7D%5Cleft%28%5Cfrac%7By_%7B1%7D-%5Cmu_%7B1%7D%7D%7B%5Csigma_%7B1%7D%7D%5Cright%29%5Cleft%28%5Cfrac%7By_%7B2%7D-%5Cmu_%7B2%7D%7D%7B%5Csigma_%7B2%7D%7D%5Cright%29%7D%7B2%5Cleft%281-%5Crho_%7B12%7D%5E%7B2%7D%5Cright%29%7D%5Cright%5C%7D+%5Cend%7Baligned%7D

概率密度等高线

由于多元正态分布的密度函数为

其概率密度等高线可表示为:

为一常数。

根据矩阵谱分解(Spectral decomposition):

这里的

是协方差矩阵

的(正交)特征值-特征向量对。从而

概率密度等高线:

,可写为:

每条等高线都是以

为中心、以

为轴长的椭球。 这里的

, 是协方差矩阵

的特征值-特征向量。

二元正态分布概率密度等高线

同理,二元正态分布的概率密度等高线可以简化为 :

equation?tex=%7B%5Cleft%28%5Cfrac%7By_%7B1%7D-%5Cmu_%7B1%7D%7D%7B%5Csigma_%7B1%7D%7D%5Cright%29%5E%7B2%7D%2B%5Cleft%28%5Cfrac%7By_%7B2%7D-%5Cmu_%7B2%7D%7D%7B%5Csigma_%7B2%7D%7D%5Cright%29%5E%7B2%7D-2+%5Crho_%7B12%7D%5Cleft%28%5Cfrac%7By_%7B1%7D-%5Cmu_%7B1%7D%7D%7B%5Csigma_%7B1%7D%7D%5Cright%29%5Cleft%28%5Cfrac%7By_%7B2%7D-%5Cmu_%7B2%7D%7D%7B%5Csigma_%7B2%7D%7D%5Cright%29%7D%3Dc_1%5E2%5C%5C

考虑

时的情况:

线性组合

向量

的线性组合的正态性:

• 假设

是一个常数向量,

相反地,如果所有的

的线性组合都服从一元正态分布,则

一定 是多元正态分布。即:

如果对于所有的

,有

,则

• 假设

是一个

且秩为

的常数矩阵,

维常数向 量,如果

分割

变量

的分割的正态性:

假设

以第

个元素为界进行分割如下:

equation?tex=%5Cmathbf%7By%7D%3D%5Cleft%28%5Cbegin%7Barray%7D%7Bc%7D+%5Cmathbf%7By%7D_%7B1%7D+%5C%5C+%5Cmathbf%7By%7D_%7B2%7D+%5Cend%7Barray%7D%5Cright%29%2C+%5Cquad+%5Cboldsymbol%7B%5Cmu%7D%3D%5Cleft%28%5Cbegin%7Barray%7D%7Bc%7D+%5Cboldsymbol%7B%5Cmu%7D_%7B1%7D+%5C%5C+%5Cboldsymbol%7B%5Cmu%7D_%7B2%7D+%5Cend%7Barray%7D%5Cright%29%2C+%5Cquad+%5Cboldsymbol%7B%5CSigma%7D%3D%5Cleft%28%5Cbegin%7Barray%7D%7Bcc%7D+%5Cboldsymbol%7B%5CSigma%7D_%7B11%7D+%26+%5Cboldsymbol%7B%5CSigma%7D_%7B12%7D+%5C%5C+%5Cboldsymbol%7B%5CSigma%7D_%7B21%7D+%26+%5Cboldsymbol%7B%5CSigma%7D_%7B22%7D+%5Cend%7Barray%7D%5Cright%29%5C%5C

这里

的,

的如果

, 则

特别地,

的第

个元素 服从一元正态分布:

正态向量 y的子向量的分布

假设

并且

。则对于其子向量y1和y2,

equation?tex=%5Cmathbf%7By%7D_%7B1%7D+%7C+%5Cmathbf%7By%7D_%7B2%7D+%5Csim+N_%7Br%7D%5Cleft%28%5Cboldsymbol%7B%5Cmu%7D_%7B1%7D%2B%5Cmathbf%7B%5CSigma%7D_%7B12%7D+%5Cmathbf%7B%5CSigma%7D_%7B22%7D%5E%7B-1%7D%5Cleft%28%5Cmathbf%7By%7D_%7B2%7D-%5Cboldsymbol%7B%5Cmu%7D_%7B2%7D%5Cright%29%2C+%5Cmathbf%7B%5CSigma%7D_%7B11%7D-%5Cmathbf%7B%5CSigma%7D_%7B12%7D+%5Cmathbf%7B%5CSigma%7D_%7B22%7D%5E%7B-1%7D+%5Cmathbf%7B%5CSigma%7D_%7B21%7D%5Cright%29%5C%5C

:回归系数矩阵

是关于

的线性方程,同时

不依赖

独立性

的子向量的独立性:

现考虑先前对

的分割,

1、假设

,则

独立,当且仅当

2、假设

, 则

独立,当且仅当

3、如果

, 且

相互独立,

equation?tex=%5Cleft%28%5Cbegin%7Barray%7D%7Bl%7D+%5Cmathbf%7By%7D_%7B1%7D+%5C%5C+%5Cmathbf%7By%7D_%7B2%7D+%5Cend%7Barray%7D%5Cright%29+%5Csim+N_%7Bp%2Bq%7D%5Cleft%5B%5Cleft%28%5Cbegin%7Barray%7D%7Bc%7D+%5Cboldsymbol%7B%5Cmu%7D_%7B1%7D+%5C%5C+%5Cboldsymbol%7B%5Cmu%7D_%7B2%7D+%5Cend%7Barray%7D%5Cright%29%2C%5Cleft%28%5Cbegin%7Barray%7D%7Bcc%7D+%5Cboldsymbol%7B%5CSigma%7D_%7B11%7D+%26+%5Cmathbf%7BO%7D+%5C%5C+%5Cmathbf%7BO%7D+%26+%5Cboldsymbol%7B%5CSigma%7D_%7B22%7D+%5Cend%7Barray%7D%5Cright%29%5Cright%5D%5C%5C

求和与差

两个多元正态向量的和与差:

现考虑两个

维多元向量

如果

并且

相互独立,

则:

标准化向量

标准化多元正态向量:

对于任意以

为均值、

为协方差矩阵的向量

,我们可得到其标准化的向量

,以

为均值向量,以

为协方差矩阵.

对于任意以

为均值、

为协方差矩阵的向量

,其标准化的向量

,可以通过以下两个途径获得:

1、

这里

矩阵的 Cholesky 分解中的非奇异上三角阵,即:

.

2、

这里的

的 谱分解 (Spectral decomposition) 中的对称平方根矩阵,即:

根据矩阵谱分解:

经过标准化之后,

为均值向量,以

为协方差矩阵; 如果

,则

.

二次型

多元正态向量的二次型:

考虑前文所说的标准正态向量

。根据卡方分布的定义,

就构成了一个

随机变量。

由于

因此:

如果

多元正态极大似然函数

当总体服从多元正态分布时,对

的估计通常基于已观测向量

来最大化似然函数的方法:

给定独立同分布的n个样本

,其似然函数为:

equation?tex=%5Cbegin%7Baligned%7D+L%5Cleft%28%5Cmathbf%7By%7D_%7B1%7D%2C+%5Cmathbf%7By%7D_%7B2%7D%2C+%5Cldots%2C+%5Cmathbf%7By%7D_%7Bn%7D%2C+%5Cboldsymbol%7B%5Cmu%7D%2C+%5Cmathbf%7B%5CSigma%7D%5Cright%29+%26%3D%5Cprod_%7Bi%3D1%7D%5E%7Bn%7D+f%5Cleft%28%5Cmathbf%7By%7D_%7Bi%7D%2C+%5Cboldsymbol%7B%5Cmu%7D%2C+%5Cmathbf%7B%5CSigma%7D%5Cright%29+%5C%5C+%26%3D%5Cprod_%7Bi%3D1%7D%5E%7Bn%7D+%5Cfrac%7B1%7D%7B%28%5Csqrt%7B2+%5Cpi%7D%29%5E%7Bp%7D%7C%5Cmathbf%7B%5CSigma%7D%7C%5E%7B1+%2F+2%7D%7D+e%5E%7B-%5Cleft%28%5Cmathbf%7By%7D_%7Bi%7D-%5Cboldsymbol%7B%5Cmu%7D%5Cright%29%5E%7B%5Cprime%7D+%5Cmathbf%7B%5CSigma%7D%5E%7B-1%7D%5Cleft%28%5Cmathbf%7By%7D_%7Bi%7D-%5Cboldsymbol%7B%5Cmu%7D%5Cright%29+%2F+2%7D+%5C%5C+%26%3D%5Cfrac%7B1%7D%7B%28%5Csqrt%7B2+%5Cpi%7D%29%5E%7Bn+p%7D%7C%5Cmathbf%7B%5CSigma%7D%7C%5E%7Bn+%2F+2%7D%7D+e%5E%7B-%5Csum_%7Bi%3D1%7D%5E%7Bn%7D%5Cleft%28%5Cmathbf%7By%7D_%7Bi%7D-%5Cboldsymbol%7B%5Cmu%7D%5Cright%29%5E%7B%5Cprime%7D+%5Cmathbf%7B%5CSigma%7D%5E%7B-1%7D%5Cleft%28%5Cmathbf%7By%7D_%7Bi%7D-%5Cboldsymbol%7B%5Cmu%7D%5Cright%29+%2F+2%7D+%5Cend%7Baligned%7D

最大化似然函数L来得到

的极大似然估计

首先考虑μ的极大似然估计。对数似然函数为:

equation?tex=+logL%5Cleft%28%5Cmathbf%7By%7D_%7B1%7D%2C+%5Cmathbf%7By%7D_%7B2%7D%2C+%5Cldots%2C+%5Cmathbf%7By%7D_%7Bn%7D%2C+%5Cboldsymbol%7B%5Cmu%7D%2C+%5Cmathbf%7B%5CSigma%7D%5Cright%29+%3D-%5Cfrac%7Bn%7D%7B2%7Dlog%7C%5CSigma%7C-++%5Cfrac%7B1%7D%7B2%7D%5Csum_%7Bi%3D1%7D%5E%7Bn%7D%5Cleft%28%5Cmathbf%7By%7D_%7Bi%7D-%5Cboldsymbol%7B%5Cmu%7D%5Cright%29%5E%7B%5Cprime%7D+%5Cmathbf%7B%5CSigma%7D%5E%7B-1%7D%5Cleft%28%5Cmathbf%7By%7D_%7Bi%7D-%5Cboldsymbol%7B%5Cmu%7D%5Cright%29

得到:

考虑

的极大似然估计。代入

对数似然函数为:

equation?tex=%5Cbegin%7Barray%7D+++llogL%5Cleft%28%5Cmathbf%7By%7D_%7B1%7D%2C+%5Cmathbf%7By%7D_%7B2%7D%2C+%5Cldots%2C+%5Cmathbf%7By%7D_%7Bn%7D%2C+%5Cboldsymbol%7B%5Cmu%7D%2C+%5Cmathbf%7B%5CSigma%7D%5Cright%29%26+%3D-%5Cfrac%7Bn%7D%7B2%7Dlog%7C%5CSigma%7C-++%5Cfrac%7B1%7D%7B2%7D%5Csum_%7Bi%3D1%7D%5E%7Bn%7D%5Cleft%28%5Cmathbf%7By%7D_%7Bi%7D-%5Cboldsymbol%7B%5Cmu%7D%5Cright%29%5E%7B%5Cprime%7D+%5Cmathbf%7B%5CSigma%7D%5E%7B-1%7D%5Cleft%28%5Cmathbf%7By%7D_%7Bi%7D-%5Cboldsymbol%7B%5Cmu%7D%5Cright%29%5C%5C++tr%28AB%29%3Dtr%28BA%29%5Crightarrow+%26%3D-%5Cfrac%7Bn%7D%7B2%7D+%5Clog+%7C%5Cmathbf%7B%5CSigma%7D%7C-%5Cfrac%7B1%7D%7B2%7D+%5Csum_%7Bi%3D1%7D%5E%7Bn%7D+%5Coperatorname%7Btr%7D%5Cleft%5C%7B%7B%5Cmathbf%7B%5CSigma%7D%5E%7B-1%7D%5Cleft%28%5Cmathbf%7By%7D_%7Bi%7D-%5Coverline%7B%5Cmathbf%7By%7D%7D%5Cright%29%5Cleft%28%5Cmathbf%7By%7D_%7Bi%7D-%5Coverline%7B%5Cmathbf%7By%7D%7D%5Cright%29%5E%7B%5Cprime%7D%7D%7B%7D%5Cright%5C%7D%5C%5C++%26%3D-%5Cfrac%7Bn%7D%7B2%7D+%5Clog+%7C%5Cmathbf%7B%5CSigma%7D%7C-%5Cfrac%7B1%7D%7B2%7D+%5Coperatorname%7Btr%7D%5Cleft%5C%7B%5Cmathbf%7B%5CSigma%7D%5E%7B-1%7D+%5Csum_%7Bi%3D1%7D%5E%7Bn%7D%5Cleft%28%5Cmathbf%7By%7D_%7Bi%7D-%5Coverline%7B%5Cmathbf%7By%7D%7D%5Cright%29%5Cleft%28%5Cmathbf%7By%7D_%7Bi%7D-%5Coverline%7B%5Cmathbf%7By%7D%7D%5Cright%29%5E%7B%5Cprime%7D%5Cright%5C%7D%5C%5C++%5Cmathbf%7BS%7D_%7B0%7D%5Cequiv%5Csum_%7Bi%3D1%7D%5E%7Bn%7D%5Cleft%28%5Cmathbf%7By%7D_%7Bi%7D-%5Coverline%7B%5Cmathbf%7By%7D%7D%5Cright%29%5Cleft%28%5Cmathbf%7By%7D_%7Bi%7D-%5Coverline%7B%5Cmathbf%7By%7D%7D%5Cright%29%5E%7B%5Cprime%7D+%5Crightarrow+%26%3D-%5Cfrac%7Bn%7D%7B2%7D+%5Clog+%7C%5Cmathbf%7B%5CSigma%7D%7C-%5Cfrac%7B1%7D%7B2%7D+%5Coperatorname%7Btr%7D%5Cleft%28%5Cmathbf%7B%5CSigma%7D%5E%7B-1%7D+%5Cmathbf%7BS%7D_%7B0%7D%5Cright%29%5C%5C+++%5Cmathbf%7B%5COmega%7D+%5Cequiv+%5Cmathbf%7B%5CSigma%7D%5E%7B-1%7D+%5Crightarrow+%26%3D%5Cfrac%7Bn%7D%7B2%7D+%5Clog+%7C%5Cmathbf%7B%5COmega%7D%7C-%5Cfrac%7B1%7D%7B2%7D+%5Coperatorname%7Btr%7D%5Cleft%28%5COmega+%5Cmathbf%7BS%7D_%7B0%7D%5Cright%29+%5Cend%7Barray%7D

对多元正态分布

的极大似然估计为:

equation?tex=%5Chat%7B%5Cboldsymbol%7B%5Cmu%7D%7D%3D%5Coverline%7B%5Cmathbf%7By%7D%7D%2C+%5Cquad+%5Chat%7B%5Cmathbf%7B%5CSigma%7D%7D%3D%5Cfrac%7B1%7D%7Bn%7D+%5Csum_%7Bi%3D1%7D%5E%7Bn%7D%5Cleft%28%5Cmathbf%7By%7D_%7Bi%7D-%5Coverline%7B%5Cmathbf%7By%7D%7D%5Cright%29%5Cleft%28%5Cmathbf%7By%7D_%7Bi%7D-%5Coverline%7B%5Cmathbf%7By%7D%7D%5Cright%29%5E%7B%5Cprime%7D%3D%5Cfrac%7Bn-1%7D%7Bn%7D+%5Cmathbf%7BS%7D

作为

的估计量是无偏的,而

是有偏的

一元情形的回顾

基于服从正态分布

的总体的独立同分布样本

样本均值

服从:

样本方差

服从:

相互独立

非正态总体(多元中心极限定理)

设x1,x2,⋯,xn是来自总体x的一个样本,μ和Σ存在,则当n很大且n相对于p也很大时,

多元情形

类似于一元的情形,基于服从正态分布

总体的独立同分布样本

样本均值

服从:

样本方差

服从:

这里的

表示

个自由度的Wishart分布

相互独立

Wishart分布

Wishart 分布的定义:

假设

维向量

独立同分布且服从

,则:

服从自由度为n的p维非中心Wishart分布,记为

,其中

则称W为中心化的Wishart分布,记

假设两个

的随机矩阵

分别服从分布

且彼此独立,则:

如果

的常数矩阵,则有:

评估一元正态性

图像方法:直方图、QQ图

偏度和峰度

统计检验:

• Shapiro-Wilks 检验

• Kolmogorov-Smirnov 检验

• Cramer-von Mises 检验

• Anderson-Darling 检验

• ……

直方图

QQ图

根据QQ图的形状来判断正态性:

equation?tex=%E7%9B%B4%E7%BA%BF%EF%BC%88%E5%85%AC%E5%BC%8F%E7%AE%AD%E5%A4%B4%EF%BC%89+%5CRightarrow+%E6%AD%A3%E6%80%81+%5C%5C+%E5%8F%8D%E2%80%9CS%E2%80%9D%E5%BD%A2+%5CRightarrow%E6%AF%94%E6%AD%A3%E6%80%81%E5%8E%9A%E5%B0%BE+%5C%5C+%E2%80%9CS%E2%80%9D%E5%BD%A2++%5CRightarrow%E6%AF%94%E6%AD%A3%E6%80%81%E8%96%84%E5%B0%BE+%5C%5C+%E5%87%B8%E5%BC%AF%E6%9B%B2+%5CRightarrow+%E5%8F%B3%E5%81%8F+%5C%5C+%E5%87%B9%E5%BC%AF%E6%9B%B2+%5CRightarrow+%E5%B7%A6%E5%81%8F%5C%5C

偏度和峰度

我们可以用偏度和峰度对正态性进行粗略的判断,它们应该在(0,3)左右

统计检验

图像方法的缺点:

• 图像方法对于小样本并不适用

• 图像方法以及偏度峰度法只提供了一个粗糙而不正式的检验方法,没 有一个明确的决定准则。

因此我们需要正式的统计检验,他们基于以下假设:

:数据来自正态分布

:数据不来自正态分布

Shapiro-Wilks 检验

Shapiro-Wilks 检验统计量为:

这里

是第

个样本次序统计量

是标准正态分布中第

个次序统计量标准化的期望值

实际数据与正态得分之间的相关系数

时,数据恰好完全是正态分布

显著小于1”则表明数据非正态

Kolmogorov-Smirnov 检验

Kolmogorov-Smirnov 检验的统计量为:

这里的

是数据的经验累积分布函数(cdf)

是与数据同均值、同方差的正态分布的累积分布函数

值很大,则拒绝原假设

.

Cramer-von Mises 检验的统计量为:

Anderson-Darling 检验的统计量为:

评估多元正态性

有三种方法来检验一个

维总体

的随机样本

是否来自于

多元正态分布:

1、检验向量的每一维是否都是一元正态分布

2、检验是否每一组二维散点图都没有线性趋势

3、根据QQ图,检验统计距离

是否距离

很远,其中统计距离定义为:

注意,这只是一种近似的方法。

例:在美国城市空气污染研究中,获取了关于美国41个城市的以下变量:

• SO2:空气中的二氧化硫含量(微克/立方米)

• temp:全年均温(华氏度)

• manu:拥有20名以上工人的制造企业数

• popul:1970年的人口规模(千人)

• wind:年度平均风速(英里/小时)

• precip:年均降水(英寸)

• predays:年平均降水天数

首先我们检查每一个变量的QQ图:

二氧化硫分布比较集中,降水以及降水天数背离了正态性;制造企业数和人口数存在很多异常值.绘制两两散点图矩阵

非线性部分显示了数据与多元 正态分布的偏离

进一步地,我们绘制整体QQ图

该图除了检验正态性这一用处外, 也可以用来发现可能的异常值

如果正态性不成立,可以采用一 些变量变换方法来获取正态性, 如Box-Cox 变换

思考

什么是多元正态分布?

怎样用几何的方式描绘密度函数?

多元正态向量有哪些性质?

的极大似然估计是什么?

样本均值向量和样本协方差矩阵的分布是什么?

怎样检验多元正态性?

你可能感兴趣的:(二维正态分布的最大似然估计)