协方差矩阵的几何性质

本篇笔记将以向量值随机变量 X = ( X 1 , … , X n ) T X=(X_1,\dots,X_n)^T X=(X1,,Xn)T的协方差矩阵为例,研究其性质。在阅读笔记之前可先记下先导篇中的相关结论,尤其是该篇中任意方向发散程度章节的结论。本篇笔记主要参考借鉴的基础教材是《程序员的数学之概率统计》。

单位矩阵与圆

首先看一种最简单的情况,即协方差矩阵为单位矩阵。此时该矩阵有一个显著特征,即任意方向上的方差都为1。证明过程如下:
V [ u T X ] = u T V [ X ] u = u T I u = u T u = u ⋅ u = ∥ u ∥ 2 = 1 \mathrm{V}\left[\boldsymbol{u}^{T} \boldsymbol{X}\right]=\boldsymbol{u}^{T} \mathrm{V}[\boldsymbol{X}] \boldsymbol{u}=\boldsymbol{u}^{T} I \boldsymbol{u}=\boldsymbol{u}^{T} \boldsymbol{u}=\boldsymbol{u} \cdot \boldsymbol{u}=\|\boldsymbol{u}\|^{2}=1 V[uTX]=uTV[X]u=uTIu=uTu=uu=u2=1
其原理可参考先导篇中的结论。
也就是说,上式其实表示任意方向上的标准偏差为1,从偏差的角度说,所有方向情况都一致,那这就符合圆的定义,用圆表现V[X]如下:
协方差矩阵的几何性质_第1张图片
要注意的是,这个圆不能覆盖大部分可取的值,圆的半径只是标准差的大小,是一种偏差的平均情况。
只要协方差矩阵是单位阵,当协方差矩阵为2维的时候可以用上图的圆来表示,3维的时候可以用球体表示,n维的时候就是n维超球体。

对角矩阵与椭圆

上面讨论了协方差矩阵是单位阵的情况,那么去掉这么强的限制,换成一个相对弱一些的限制,如果协方差矩阵是对角阵时情况如何呢?其数学表述如下
V [ X ] = diag ⁡ ( v 1 , v 2 , ⋯   , v n ) = ( v 1 v 2 ⋱ v n ) \mathrm{V}[\boldsymbol{X}]=\operatorname{diag}\left(v_{1}, v_{2}, \cdots, v_{n}\right)=\left(\begin{array}{cccc} v_{1} & & & \\ & v_{2} & & \\ & & \ddots & \\ & & & v_{n} \end{array}\right) V[X]=diag(v1,v2,,vn)=v1v2vn
可以基于之前在单位矩阵下得到的结论采取如下步骤处理:

  • 先对X做一定变换,使其协方差矩阵变为一个单位阵
  • 在变换后得到的空间中绘制圆(或球体超球体)
  • 分析逆变换之后的图像

首先进行变换,如何将协方差矩阵变为单位阵?只需要给随机变量除以一个标准差即可。从空间变换的角度来看,相当于沿着各个坐标轴进行缩放变换,第i轴是原来的 1 V i \frac{1}{\sqrt {V_i} } Vi 1倍。
之后画基准圆,之后对图像进行逆变换,分析最终得到的图像。
逆变换也就是将第i轴变为之前的 V i \sqrt {V_i} Vi 倍。于是圆变成了椭圆。示意图如下
协方差矩阵的几何性质_第2张图片
所以协方差矩阵是对角阵的时候,可以将其理解为一个椭圆。由椭圆投影的长度即可推得该方向上的标准差。示意图入下:
协方差矩阵的几何性质_第3张图片

一般矩阵与倾斜的椭圆

接下来就去掉上面所有的强限制(单位阵对角阵),讨论当协方差矩阵为一般矩阵时的情况了。
和上部分的思路一样,对于一般矩阵,找到方法将其对角化,就可以把问题引到熟悉的结论上来了。探究一般协方差矩阵的几何意义的思路如下:

  • 首先将一般协方差阵变换为对角阵
  • 在变换后的空间中绘制简图
  • 分析逆变换之后的图像

所以问题的关键在于能否将矩阵变为对角阵。这个问题的答案是可以,因为协方差矩阵是对称阵,对称阵的性质中最关键的一条就是,必然存在标准正交矩阵Q,使得对称阵H成为对角阵 Q T H Q Q^THQ QTHQ
先梳理一下基本知识,对于取值确定的矩阵A(常量),经过W=AX变换后,协方差矩阵将变换为 V [ W ] = A V [ X ] A T V[W]=AV[X]A^T V[W]=AV[X]AT。只要找到合适的变换矩阵A使得V[W]是一个对角阵即可。这里A必须是正规矩阵,如果不是的话那就无法进行逆变换,也就无法还原至原本X的情况了。正规矩阵性质解释如下(摘自百度百科):
协方差矩阵的几何性质_第4张图片
综上,只要求解得A,也就是那个标准正交矩阵Q,就可以将协方差矩阵对角化了,而因为Q满足 Q T H Q = Λ Q^THQ=\Lambda QTHQ=Λ,这里 Λ \Lambda Λ是对角阵,又因为Q是标准正交阵满足 Q T Q = Q Q T = I Q^TQ=QQ^T=I QTQ=QQT=I,导致 Q T H Q = Λ Q^THQ=\Lambda QTHQ=Λ H Q = Q Λ HQ=Q\Lambda HQ=QΛ等价,所以根据线性代数特征值特征向量的知识,Q的各个列向量 q i q_i qi就是H的特征向量,对角阵的每个元素 λ i \lambda_i λi就是 q i q_i qi的特征值。
所以可以通过以下方式得到所需的变换

  • 先求出给定对称矩阵V的特征值 λ 1 , … , λ n \lambda_1,\dots,\lambda_n λ1,,λn
  • 求出各个特征值的特征向量 q i q_i qi,这里就得到了Q的每一列了
  • 将特征向量的长度化为1,就是除以自身的模
  • 横向排列所有的特征向量(列向量)得到矩阵Q

A = Q T A=Q^T A=QT,即可得到作用于X的矩阵A,使得X的协方差矩阵为对角阵,即 V [ W ] = A V [ X ] A T V[W]=AV[X]A^T V[W]=AV[X]AT
那么X在几何意义上经过AX之后到底发生了什么样的变换呢?在线性代数中,正交矩阵可以用于表示旋转(或翻转)变换。所以A其实对X进行了如下操作:

  • 通过旋转变换使协方差矩阵变为一个对角阵
  • 根据该对角阵绘制椭圆
  • 逆向旋转

这些操作的示意图如下:
协方差矩阵的几何性质_第5张图片
注意以下几点:

  • 特征向量 q 1 , q 2 , … , q n q_1,q_2,\dots,q_n q1,q2,,qn都与椭圆的主轴同向
  • 特征向量的特征值越大,椭圆在该方向的宽幅就越长
  • 椭圆各主轴的半径不等于特征值,而是特征值的平方根 λ i \sqrt \lambda_i λ i

所以,协方差矩阵就是椭圆

协方差矩阵局限性

协方差矩阵功能确实很强大,但是它不能体现高阶相关的情况,举一个极端的概率分布图如下图所示,方块代表概率密度。
协方差矩阵的几何性质_第6张图片
也就是说,当 X 3 X_3 X3只和 X 1 X_1 X1 X 2 X_2 X2的联合分布相关时,协方差矩阵是无法观测到这样的相关性的。这个局限性的根源源自:即使检查了所有随机变量对的关系,也不能因此得出所有随机变量之间是否存在相关性的结论。

你可能感兴趣的:(基础数学学习笔记,协方差,线性代数,概率论,机器学习)