python 累积正态分布函数_机器学习系列(二)多元正态分布

一元正态分布回顾

如果随机变量

服从均值为
方差为
的正态分布 (Univariate normal distribution),
,则其概率密度函数为:

  • 整个分布可以仅用均值及方差来刻画
  • 如果变量之间不相关,则它们相互独立
  • 经典统计检验通常基于正态分布假设
  • 正态分布可以模拟大量自然现象

python 累积正态分布函数_机器学习系列(二)多元正态分布_第1张图片

多元正态分布

多元正态分布密度函数

类比于一元情况,若

维随机变量
服从均值向量为
和协方差矩阵为
的多元正态分布 (Multivariate normal distribution), 记为
,则密度函数为

时,

所以随机向量

服从二元正态分布 (Bivariate normal distribution):
,其密度函数为:

python 累积正态分布函数_机器学习系列(二)多元正态分布_第2张图片

概率密度等高线

由于多元正态分布的密度函数为

其概率密度等高线可表示为:

为一常数。

根据矩阵谱分解(Spectral decomposition):

这里的

是协方差矩阵
的(正交)特征值-特征向量对。从而

概率密度等高线:

,可写为:

每条等高线都是以

为中心、以
为轴长的椭球。 这里的
, 是协方差矩阵
特征值-特征向量。

python 累积正态分布函数_机器学习系列(二)多元正态分布_第3张图片

python 累积正态分布函数_机器学习系列(二)多元正态分布_第4张图片

二元正态分布概率密度等高线

同理,二元正态分布的概率密度等高线可以简化为 :

考虑

时的情况:

线性组合

向量

的线性组合的正态性:

• 假设

是一个常数向量,

相反地,如果所有的

的线性组合都服从一元正态分布,则
一定 是多元正态分布。即:

如果对于所有的

,有
,则

• 假设

是一个
且秩为
常数矩阵
维常数向 量,如果

分割

变量

的分割的正态性:

假设

以第
个元素为界进行分割如下:

这里

的,
  • 如果
    , 则

特别地,

的第
个元素 服从一元正态分布:

正态向量 y的子向量的分布

假设

并且
。则对于其子向量y1和y2,

:回归系数矩阵

是关于
的线性方程,同时
不依赖

独立性

的子向量的独立性:

现考虑先前对

的分割,

1、假设

,则
独立,当且仅当

2、假设

, 则
独立,当且仅当

3、如果

, 且
相互独立

求和与差

两个多元正态向量的和与差:

现考虑两个

维多元向量

如果

并且
相互独立,

则:

标准化向量

标准化多元正态向量:

对于任意以

为均值、
为协方差矩阵的向量
,我们可得到其
标准化的向量
,
为均值向量,以
为协方差矩阵.

对于任意以

为均值、
为协方差矩阵的向量
,其
标准化的向量
,可以通过以下两个途径获得:

1、

这里

矩阵的 Cholesky 分解中的非奇异上三角阵,即:
.

2、

这里的

的 谱分解 (Spectral decomposition) 中的对称平方根矩阵,即:

根据矩阵谱分解:

经过标准化之后,

为均值向量,以
为协方差矩阵; 如果
,则
.

二次型

多元正态向量的二次型:

考虑前文所说的标准正态向量

。根据卡方分布的定义,
就构成了一个
随机变量。

由于

因此:

如果

多元正态极大似然函数

当总体服从多元正态分布时,对

的估计通常基于已观测向量
来最大化
似然函数的方法:

给定独立同分布的n个样本

,其似然函数为:

最大化似然函数L来得到

的极大似然估计

首先考虑μ的极大似然估计。对数似然函数为:

得到:

考虑

的极大似然估计。代入
对数似然函数为:

python 累积正态分布函数_机器学习系列(二)多元正态分布_第5张图片

python 累积正态分布函数_机器学习系列(二)多元正态分布_第6张图片

对多元正态分布

极大似然估计为:

作为
的估计量是无偏的,而
是有偏的

一元情形的回顾

基于服从正态分布

的总体的独立同分布样本

样本均值

服从:
样本方差
服从:
相互独立

非正态总体(多元中心极限定理)

x1,x2,⋯,xn是来自总体x的一个样本,μΣ存在,则当n很大且n 相对于p也很大时,

python 累积正态分布函数_机器学习系列(二)多元正态分布_第7张图片

多元情形

类似于一元的情形,基于服从正态分布

总体的
独立同分布样本

样本均值

服从:

样本方差

服从:

这里的

表示
个自由度的Wishart分布

相互独立

Wishart分布

Wishart 分布的定义:

假设

维向量
独立同分布且服从
,则:

服从自由度为n的p维非中心Wishart分布,记为

,其中

则称W为中心化的Wishart分布,记

假设两个

的随机矩阵
分别服从分布

且彼此独立,则:

如果

的常数矩阵,则有:

评估一元正态性

图像方法:直方图、QQ图

偏度和峰度

统计检验:

• Shapiro-Wilks 检验

• Kolmogorov-Smirnov 检验

• Cramer-von Mises 检验

• Anderson-Darling 检验

• ……

直方图

python 累积正态分布函数_机器学习系列(二)多元正态分布_第8张图片

QQ图

python 累积正态分布函数_机器学习系列(二)多元正态分布_第9张图片

根据QQ图的形状来判断正态性:

python 累积正态分布函数_机器学习系列(二)多元正态分布_第10张图片

偏度和峰度

我们可以用偏度和峰度对正态性进行粗略的判断,它们应该在(0,3)左右

统计检验

图像方法的缺点:

• 图像方法对于小样本并不适用

• 图像方法以及偏度峰度法只提供了一个粗糙而不正式的检验方法,没 有一个明确的决定准则。

因此我们需要正式的统计检验,他们基于以下假设:

:数据来自正态分布

:数据不来自正态分布

Shapiro-Wilks 检验

Shapiro-Wilks 检验统计量为:

这里

是第
个样本次序统计量

是标准正态分布中第
个次序统计量标准化的
期望值

实际数据与正态得分之间的相关系数

时,数据恰好完全是正态分布

显著小于1”则表明数据非正态

Kolmogorov-Smirnov 检验

Kolmogorov-Smirnov 检验的统计量为:

这里的

是数据的
经验累积分布函数(cdf)

是与数据同均值、同方差的正态分布的累积分布函数

值很大,则拒绝原假设
.

Cramer-von Mises 检验的统计量为:

Anderson-Darling 检验的统计量为:

评估多元正态性

有三种方法来检验一个

维总体
的随机样本
是否来自于

多元正态分布:

1、检验向量的每一维是否都是一元正态分布

2、检验是否每一组二维散点图都没有线性趋势

3、根据QQ图,检验统计距离

是否距离
很远,其中统计距离定义为:

注意,这只是一种近似的方法。

例:在美国城市空气污染研究中,获取了关于美国41个城市的以下变量:

• SO2:空气中的二氧化硫含量(微克/立方米)

• temp:全年均温(华氏度)

• manu:拥有20名以上工人的制造企业数

• popul:1970年的人口规模(千人)

• wind:年度平均风速(英里/小时)

• precip:年均降水(英寸)

• predays:年平均降水天数

python 累积正态分布函数_机器学习系列(二)多元正态分布_第11张图片

首先我们检查每一个变量的QQ图:

python 累积正态分布函数_机器学习系列(二)多元正态分布_第12张图片

python 累积正态分布函数_机器学习系列(二)多元正态分布_第13张图片

二氧化硫分布比较集中,降水以及降水天数背离了正态性;制造企业数和人口数存在很多异常值.

  • 绘制两两散点图矩阵
  • 非线性部分显示了数据与多元 正态分布的偏离

python 累积正态分布函数_机器学习系列(二)多元正态分布_第14张图片

进一步地,我们绘制整体QQ图

该图除了检验正态性这一用处外, 也可以用来发现可能的异常值

如果正态性不成立,可以采用一 些变量变换方法来获取正态性, 如Box-Cox 变换

python 累积正态分布函数_机器学习系列(二)多元正态分布_第15张图片

思考

什么是多元正态分布?

怎样用几何的方式描绘密度函数?

多元正态向量有哪些性质?

的极大似然估计是什么?

样本均值向量和样本协方差矩阵的分布是什么?

怎样检验多元正态性?

你可能感兴趣的:(python,累积正态分布函数)