标准化、协方差、相关系数和协方差矩阵

原文地址:https://blog.csdn.net/wanz2/article/details/53036543

笔者在学习主成分分析(PCA)的时候接触到了协方差矩阵的应用。这部分知识有些遗忘了,因此重新巩固一下,记录在此,希望能帮助到有需要的同学。

1. 概率论中的标准化、协方差、相关系数和协方差矩阵概念

1.1 随机变量的部分数字特征

  假设有二维随机向量(X,Y)(X,Y)

数字特征 意义 描述
E(X)E(X) 数学期望 反映XX的平均值
D(X)D(X) 方差 反映XX与平均值偏离的程度
Cov(X,Y)Cov(X,Y) 协方差 等于E((XE(X))(YE(Y)))E((X−E(X))(Y−E(Y))),若为0,则说明XXYY独立
ρρXYρ或ρXY 相关系数(就是随机变量标准化后的协方差) 等于Cov(X,Y)D(X)D(Y)Cov(X,Y)D(X)D(Y)

1.2 随机变量的标准化

1.2.1 为什么要对随机变量进行标准化处理

  随机变量的标准化,包含以下两点: 
1. 将随机变量的分布中心E(X)E(X)移至原点,不使分布中心偏左或偏右 
2. 缩小或扩大坐标轴,使分布不至于过疏或过密 
在排除了这些干扰以后,随机变量XX的一些性质就会显露出来,便于我们进行进一步的分析。

1.2 如何进行标准化处理

  令随机变量XX均值为0,方差为1。令XX∗YY∗分别表示标准化后的XXYY,则 
X=XE(X)D(X)X∗=X−E(X)D(X)Y=YE(X)D(X)Y∗=Y−E(X)D(X) 
而标准化后的XX∗YY∗的协方差就是相关系数,用ρρρXYρXY表示,即 
Cov(X,Y)=Cov(X,Y)D(X)D(Y)=ρxyCov(X∗,Y∗)=Cov(X,Y)D(X)D(Y)=ρxy

1.3 相关系数的意义

  通过上一节中随机变量的标准化,我们引出了相关系数,那么两个随机变量的相关系数有什么意义呢? 
  结论:相关系数是对于随机变量相关性的度量:

  • 当相关系数ρ=1ρ=1时,随机变量XXYY之间存在线性关系,且为正线性相关
  • 当相关系数ρ=1ρ=−1时,两者之间为负线性关系
  • |ρ|1|ρ|≤1,线性相关性随着|ρ||ρ|的减小而减小。当|ρ|=0|ρ|=0时,两者之间就不存在线性关系了
  • 注意: 
    • |ρ|=0|ρ|=0,随机变量XXYY是不线性相关的,但不能代表两者相互独立,他们之间可能存在别的相关关系;但当XXYY相互独立时,它们的相关系数|ρ|=0|ρ|=0。可以说,|ρ|=0|ρ|=0XXYY相互独立的必要不充分条件。
    • 但是,当随机变量(X,Y)(X,Y)服从二维正态分布时,则XXYY不相关等价于两者相互独立

  笔者在这里仅给出结论,因为本文仅仅是笔者在应用到相关知识点时的复习,为了理清思路而做的记录,关于上述结论的证明,可以在任意一本概率论的书中找到。

1.4 协方差矩阵

  令(X1,X2,...,Xn)(X1,X2,...,Xn)nn维随机向量(n2n≥2),记bij=Cov(Xi,Xj)=E((XiE(Xi))(XjE(Xj))),i,j=1,2,...,nbij=Cov(Xi,Xj)=E((Xi−E(Xi))(Xj−E(Xj))),i,j=1,2,...,n,则矩阵 
B=b11b21bn1b12b22bn2b1nb2nbnnB=[b11b12⋯b1nb21b22⋯b2n⋮⋮⋮bn1bn2⋯bnn]

(X1,,Xn)(X1,⋯,Xn)的协方差矩阵。

2.数理统计中的协方差和协方差矩阵概念

  以上所说的是概率论中的协方差概念,但是我们在深度学习的实际运用中,通常是对已经获得的数据进行分析,因此类比概率论中的随机变量的数字特征,可以得到数理统计中的相关统计量,同时可以定义协方差和协方差矩阵

2.1数理统计中的统计量

  记(X1,X2,,Xn)(X1,X2,⋯,Xn)是来自总体XX的样本,(x1,x2,,xn)(x1,x2,⋯,xn)是样本观察值。

统计量 意义 描述
X¯ 样本均值 X¯=1nni=1XiX¯=1n∑i=1nXi
S2S2 样本方差 S2=1n1ni=1(XiX¯)2S2=1n−1∑i=1n(Xi−X¯)2
SS 样本标准差 S=1n1ni=1(XiX¯)2S=1n−1∑i=1n(Xi−X¯)2

2.2样本协方差

  样本均值表征了样本分布的中间点;而样本标准差则是样本各个观察值到样本分布中间点的距离的平均值。样本均值和样本标准差均是用来描述一维数据的。 
  但在生活中我们通常会用到多维数据,比如我们有两个总体XXYY,两者的样本分别是(X1,X2,,Xn)(X1,X2,⋯,Xn)(Y1,Y2,,Yn)(Y1,Y2,⋯,Yn),样本观察值分别是(x1,x2,,xn)(x1,x2,⋯,xn)(y1,y2,,yn)(y1,y2,⋯,yn),我们希望能够分析出这两个样本的相关性,因此需要定义样本之间的协方差。回忆一下样本方差的定义: 
S2=1n1ni=1(XiX¯)2S2=1n−1∑i=1n(Xi−X¯)2 
仿照样本方差定义,我们可以定义样本协方差: 
Cov(X,Y)=1n1ni=1(XiX¯)(YiY¯)Cov(X,Y)=1n−1∑i=1n(Xi−X¯)(Yi−Y¯)

2.3样本协方差矩阵

  同样地,我们可以定义数理统计中的协方差矩阵概念,但这里的协方差矩阵并不是描述两个总体之间相关性,而是用来描述样本各维度之间的相关性。 
  比如我们有一个mm维的总体X=(X1,X2,,Xm)TX=(X1,X2,⋯,Xm)T,有样本{(X(1)1,X(1)2,,X(1)m)T,(X(2)1,X(2)2,X(2)m)T,,(X(n)1,X(n)2,X(n)m)T}{(X1(1),X2(1),⋯,Xm(1))T,(X1(2),X2(2)⋯,Xm(2))T,⋯,(X1(n),X2(n)⋯,Xm(n))T},观察值分别是{(x(1)1,x(1)2,x(1)m)T,(x(2)1,x(2)2,x(2)m)T,,(x(n)1,x(n)2,x(n)m)T}{(x1(1),x2(1)⋯,xm(1))T,(x1(2),x2(2)⋯,xm(2))T,⋯,(x1(n),x2(n)⋯,xm(n))T},我们想研究这些样本各个维度之间的相关性,可以这样定义样本协方差矩阵: 
bij=Cov(Xi,Xj)=1n1nk=1(X(k)iXi¯(k))(X(k)jXj¯(k))bij=Cov(Xi,Xj)=1n−1∑k=1n(Xi(k)−Xi¯(k))(Xj(k)−Xj¯(k)) 
则矩阵 
B=b11b21bn1b12b22bn2b1nb2nbnnB=[b11b12⋯b1nb21b22⋯b2n⋮⋮⋮bn1bn2⋯bnn] 
XX的协方差矩阵

注意在计算样本协方差矩阵时,要牢记它是计算同一个样本不同维度之间的协方差,而不是计算不同样本之间的协方差,切记!

参考资料: 
1. 武大版《概率论与数理统计》,齐民友主编。 
2. 浅谈协方差矩阵


你可能感兴趣的:(数据分析,数据挖掘,相关系数,协方差矩阵,协方差)