笔者在学习主成分分析(PCA)的时候接触到了协方差矩阵的应用。这部分知识有些遗忘了,因此重新巩固一下,记录在此,希望能帮助到有需要的同学。
假设有二维随机向量 (X,Y)
数字特征 | 意义 | 描述 |
---|---|---|
E(X) | 数学期望 | 反映 X 的平均值 |
D(X) | 方差 | 反映 X 与平均值偏离的程度 |
Cov(X,Y) | 协方差 | 等于 E((X−E(X))(Y−E(Y))) ,若为0,则说明 X Y独立 |
ρ或ρXY | 相关系数(就是随机变量标准化后的协方差) | 等于 Cov(X,Y)D(X)√D(Y)√ |
随机变量的标准化,包含以下两点:
1. 将随机变量的分布中心 E(X) 移至原点,不使分布中心偏左或偏右
2. 缩小或扩大坐标轴,使分布不至于过疏或过密
在排除了这些干扰以后,随机变量 X 的一些性质就会显露出来,便于我们进行进一步的分析。
令随机变量X均值为0,方差为1。令 X∗ 和 Y∗ 分别表示标准化后的 X 和Y,则
X∗=X−E(X)D(X)√ , Y∗=Y−E(X)D(X)√
而标准化后的 X∗ 和 Y∗ 的协方差就是相关系数,用 ρ 或 ρXY 表示,即
Cov(X∗,Y∗)=Cov(X,Y)D(X)√D(Y)√=ρxy
通过上一节中随机变量的标准化,我们引出了相关系数,那么两个随机变量的相关系数有什么意义呢?
结论:相关系数是对于随机变量相关性的度量:
笔者在这里仅给出结论,因为本文仅仅是笔者在应用到相关知识点时的复习,为了理清思路而做的记录,关于上述结论的证明,可以在任意一本概率论的书中找到。
令 (X1,X2,...,Xn) 为 n 维随机向量(n≥2),记 bij=Cov(Xi,Xj)=E((Xi−E(Xi))(Xj−E(Xj))),i,j=1,2,...,n ,则矩阵
B=⎡⎣⎢⎢⎢⎢b11b21⋮bn1b12b22⋮bn2⋯⋯⋯b1nb2n⋮bnn⎤⎦⎥⎥⎥⎥
以上所说的是概率论中的协方差概念,但是我们在深度学习的实际运用中,通常是对已经获得的数据进行分析,因此类比概率论中的随机变量的数字特征,可以得到数理统计中的相关统计量,同时可以定义协方差和协方差矩阵
记 (X1,X2,⋯,Xn) 是来自总体 X 的样本,(x1,x2,⋯,xn)是样本观察值。
统计量 | 意义 | 描述 |
---|---|---|
X¯ | 样本均值 | X¯=1n∑ni=1Xi |
S2 | 样本方差 | S2=1n−1∑ni=1(Xi−X¯)2 |
S | 样本标准差 | S=1n−1∑ni=1(Xi−X¯)2−−−−−−−−−−−−−−−−√ |
样本均值表征了样本分布的中间点;而样本标准差则是样本各个观察值到样本分布中间点的距离的平均值。样本均值和样本标准差均是用来描述一维数据的。
但在生活中我们通常会用到多维数据,比如我们有两个总体 X 和Y,两者的样本分别是 (X1,X2,⋯,Xn) 和 (Y1,Y2,⋯,Yn) ,样本观察值分别是 (x1,x2,⋯,xn) 和 (y1,y2,⋯,yn) ,我们希望能够分析出这两个样本的相关性,因此需要定义样本之间的协方差。回忆一下样本方差的定义:
S2=1n−1∑ni=1(Xi−X¯)2
仿照样本方差定义,我们可以定义样本协方差:
Cov(X,Y)=1n−1∑ni=1(Xi−X¯)(Yi−Y¯)
同样地,我们可以定义数理统计中的协方差矩阵概念,但这里的协方差矩阵并不是描述两个总体之间相关性,而是用来描述样本各维度之间的相关性。
比如我们有一个 m 维的总体X=(X1,X2,⋯,Xm)T,有样本 {(X(1)1,X(1)2,⋯,X(1)m)T,(X(2)1,X(2)2⋯,X(2)m)T,⋯,(X(n)1,X(n)2⋯,X(n)m)T} ,观察值分别是 {(x(1)1,x(1)2⋯,x(1)m)T,(x(2)1,x(2)2⋯,x(2)m)T,⋯,(x(n)1,x(n)2⋯,x(n)m)T} ,我们想研究这些样本各个维度之间的相关性,可以这样定义样本协方差矩阵:
记 bij=Cov(Xi,Xj)=1n−1∑nk=1(X(k)i−Xi¯(k))(X(k)j−Xj¯(k))
则矩阵
B=⎡⎣⎢⎢⎢⎢b11b21⋮bn1b12b22⋮bn2⋯⋯⋯b1nb2n⋮bnn⎤⎦⎥⎥⎥⎥
为 X 的协方差矩阵
注意在计算样本协方差矩阵时,要牢记它是计算同一个样本不同维度之间的协方差,而不是计算不同样本之间的协方差,切记!
参考资料:
1. 武大版《概率论与数理统计》,齐民友主编。
2. 浅谈协方差矩阵