理解多维高斯分布

理解多维高斯分布

前言

在数理统计和机器学习中,经常用到高斯分布,这里根据网上的资源和理解,对多维高斯分布做一个小总结。

如有谬误,请联系指正。转载请注明出处。

联系方式:
e-mail: [email protected]
QQ: 973926198
github: https://github.com/FesianXu


一维高斯分布

标准的一维高斯分布是0均值和单位方差的,数学形式如(1):

p(x)=12πexp(x22)(1) (1) p ( x ) = 1 2 π e x p ( − x 2 2 )

为了扩展成一般的一维高斯分布,我们引入一个线性变换 x:=A(xμ) x := A ( x − μ ) ,结合(1),有:
p(x)=|A|2πexp(A2(xμ)22)(5)(2) (2) (5) p ( x ) = | A | 2 π e x p ( − A 2 ( x − μ ) 2 2 )

σ=1/A σ = 1 / A ,式(2)变为:
p(x)=1σ2πexp((xμ)22σ2)(3) (3) p ( x ) = 1 σ 2 π e x p ( − ( x − μ ) 2 2 σ 2 )

从这里可以看出 A A σ σ 存在关系。在系数前乘上 |A| | A | 是为了整个分布的积分为1。这里的 || | ⋅ | 表示绝对值,在多变量下,则表示行列式。

在一维高斯分布上,通过调整均值 μ μ 和方差 σ2 σ 2 可以调整分布的形状,使得其向左右平移,或者拉伸其”顶峰”。

理解多维高斯分布_第1张图片

多维高斯分布

多维高斯分布其变量为 n n 维变量,每个变量之间可能会存在关系,为了描述这种关系,我们引入了协方差矩阵 Σ Σ ,其大小为 n×n n × n ,其中每一个元素为:

Σi,j=conv(Xi,Xj)=E(XiXj)E(Xi)E(Ej)(2)(3)(4) (4) (2) Σ i , j = c o n v ( X i , X j ) (3) = E ( X i X j ) − E ( X i ) E ( E j )

我们首先看看标准二维高斯分布的数学表达式(5),因为是标准二维高斯分布,所以每个变量之间是独立的:
p(x,y)=p(x)p(y)=12πexp(x2+y22)(5) (5) p ( x , y ) = p ( x ) p ( y ) = 1 2 π e x p ( − x 2 + y 2 2 )

为了向量化公式,用向量 v=[x  y]T v = [ x     y ] T ,有:
p(v)=12πexp(12vTv)(6) (6) p ( v ) = 1 2 π e x p ( − 1 2 v T v )

这个时候,用 v=A(xμ) v = A ( x − μ ) ,其中的 A A v v 中每个分量的线性组合系数,也就是说 A A 表示了每个变量的线性关系。有:
p(v)=|A|2πexp(12(xμ)TATA(xμ))(7) (7) p ( v ) = | A | 2 π e x p ( − 1 2 ( x − μ ) T A T A ( x − μ ) )

Σ=(ATA)1 Σ = ( A T A ) − 1 表示其协方差,其中 |A| | A | 为行列式,有:
p(v)=12π|Σ|1/2exp(12(xμ)TΣ1(xμ))(8) (8) p ( v ) = 1 2 π | Σ | 1 / 2 e x p ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) )

当维度大于2时,情形类似, n n 维的高斯分布公式为:
p(v)=1(2π)n/2|Σ|1/2exp(12(xμ)TΣ1(xμ))vRn(9) (9) p ( v ) = 1 ( 2 π ) n / 2 | Σ | 1 / 2 e x p ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) v ∈ R n

多维高斯分布的图像性质

理解多维高斯分布_第2张图片
以上三个图形的期望都为: μ=[0,0]T μ = [ 0 , 0 ] T ,最左端图形的协方差 Σ=I Σ = I ,中间的 Σ=0.6I Σ = 0.6 I ,最右端的 Σ=2I Σ = 2 I ,我们可以看出:当变小时,图像变得更加“瘦长”,而当增大时,图像变得更加“扁平”。

理解多维高斯分布_第3张图片

Reference

  1. 斯坦福大学机器学习——高斯判别分析
  2. 多维高斯分布是如何由一维发展而来的?

你可能感兴趣的:(Machine,Learning,mathematics,模式识别与机器学习)