协方差与相关系数
协方差
二维随机变量(X,Y),X与Y之间的协方差定义为:
Cov(X,Y)=E{[X-E(X)][Y-E(Y)]}
其中:E(X)为分量X的期望,E(Y)为分量Y的期望
协方差Cov(X,Y)是描述随机变量相互关联程度的一个特征数。从协方差的定义可以看出,它是X的偏差【X-E(X)】与Y的偏差【Y-E(Y)】的乘积的数学期望。由于偏差可正可负,因此协方差也可正可负。
l 当协方差Cov(X,Y)>0时,称X与Y正相关
l 当协方差Cov(X,Y)<0时,称X与Y负相关
l 当协方差Cov(X,Y)=0时,称X与Y不相关
举个例子
二维随机变量(身高X,体重Y)(数据是自己编的)
|
身高X(cm) |
体重Y(500g) |
X-E(X) |
Y-E(Y) |
[X-E(X)][Y-E(Y)] |
1 |
152 |
92 |
-19.4 |
-39.7 |
770.18 |
2 |
185 |
162 |
13.6 |
30.3 |
412.08 |
3 |
169 |
125 |
-2.4 |
-6.7 |
16.08 |
4 |
172 |
118 |
0.6 |
-13.7 |
-8.22 |
5 |
174 |
122 |
2.6 |
-9.7 |
-25.22 |
6 |
168 |
135 |
-3.4 |
3.3 |
-11.22 |
7 |
180 |
168 |
8.6 |
36.3 |
312.18 |
|
E(X) =171.4 |
E(Y) =131.7 |
|
|
E{[X-E(X)][Y-E(Y)]}=209.4 |
根据直觉我们也会想到,身高和体重是有正相关性的,身高较高的体重一般会比较大,同样体重大的身高一般也比较高。计算出来的结果也非常符合我们的直觉。
再来举一个反例
二维随机变量(玩游戏的时间X,学习成绩Y)(数据是自己编的)
|
游戏时间X(h/天) |
学习成绩Y |
X-E(X) |
Y-E(Y) |
[X-E(X)][Y-E(Y)] |
1 |
0 |
95 |
-1.36 |
20.7 |
-28.152 |
2 |
1 |
65 |
-0.36 |
-9.3 |
3.348 |
3 |
3 |
70 |
1.64 |
-4.3 |
-7.052 |
4 |
2 |
55 |
0.64 |
-19.3 |
-12.352 |
5 |
2.5 |
65 |
1.14 |
-9.3 |
-10.602 |
6 |
0.5 |
80 |
-0.86 |
5.7 |
-4.902 |
7 |
0.5 |
90 |
-0.86 |
15.7 |
-13.502 |
|
E(X) =1.36 |
E(Y) =74.3 |
|
|
E{[X-E(X)][Y-E(Y)]}= -10.5 |
同样根据直觉我们也会觉得,小朋友玩游戏的时间越长,学习成绩越差的可能性就越大,计算结果也很好的符合我们的直觉。
从上面两幅散点图上大约可以看出体重随身高的变化趋势,以及学习成绩随玩游戏时间长短的变化趋势。因此,可以说协方差是两个随机变量具有相同变化趋势的度量。
但是,协方差仅能进行定性的分析,并不能进行定量的分析,比如身高体重之间的协方差为209.1,它们之间的相关性具体有多大呢,协方差并没有给出定量的判断标准。因此我们引出相关系数的概念。
相关系数
相关系数的定义
其中:Var(X)为X的方差,Var(Y)为Y的方差。
根据施瓦茨不等式可以得到-1Corr(X,Y)1,这样就可以定量的分析两个随机变量的相关性了。
l Corr(X,Y)=1的时候,说明两个随机变量完全正相关,即满足Y=aX+b,a>0
考虑Corr(X,X),两个随机变量相同,肯定满足线性关系,此时,Cov(X,X)=Var(X),容易得到Corr(X,Y)=1
l Corr(X,Y)=-1的时候,说明两个随机变量完全负相关,即满足Y=-aX+b,a>0
l 0<| Corr(X,Y)|<1的时候,说明两个随机变量具有一定程度的线性关系。
还是以前面的两个例子为例,
身高体重:Corr(X,Y)= 209.4/(10.2*24.4)=0.84
游戏时间与学习成绩:Corr(X,Y)= -10.5/(1.1*13.4)= -0.71
有了相关系数,我们可以说,身高与体重之间的线性相关性比游戏时间与学习成绩之间的线性相关性更大。
补充说明:
Corr(X,Y)为0,表示X与Y不相关,这里的不相关指的是X与Y没有线性关系,但不是没有关系。因此将“相关”理解为“线性相关”也许更恰当一些。