协方差和相关系数

协方差和相关系数_第1张图片

废话写在前头

在学R的时候呢,R语言实战基本的统计分析7.3章有讲到相关的概念,相关系数可以用来描述定量变量之间的关系。相关系数的符号(+)(-)可以用来表明关系的方向(正相关或负相关),其值的大小表示强弱的关系(完全不相关时为0,完全相关时为1)。

但是看到这里我一头雾水,定量变量的关系?关系的方向?关系的强弱?
本着看不懂就Google的原则,通过几个博客,我大致的搞清楚了一点协方差和相关系数的概念,顺手就记录下来。

协方差

协方差可以通俗的理解为:两个变量在变化过程中是同方向变化?还是反方向变化?同向或反向程度如何?
协方差公示

公式解读:X, Y的协方差等于每一个X减去X平均值乘上每一个Y减去Y平均值的乘积的和的平均数,关于E[]的用法,参考“在概率分布中,设X是一个离散型随机变量,若E{[X-E(X)]^2} 存在,则称E{[X-E(X)]^2}为X的方差,记为D(X),Var(X)或DX,其中E(X)是X的期望值,X是变量值,公式中的E是期望值expected value的缩写,意为“变量值与其期望值之差的平方和”的期望值。”

说白了,在X=Y的情况下,协方差就是X=Y的方差。只不过在X不等于Y的情况下,这个协方差就可以用来衡量X和Y的变化情况的同步性,就想是两个步子差不多的人在跳舞,如果两个人步伐一致,那么我们就可以说这两个人的变化类似,协方差为正值,且变化越类似,协方差值也越大,倘若是两人合二为一了,那这个协方差就代表了每一步的步伐的变化趋势,也就是方差了。
从数值来看,协方差的数值越大,两个变量同向程度也就越大。反之亦然。

相关系数

相关系数公式

对于相关系数,我们从它的公式入手。一般情况下,相关系数的公式为:
翻译一下:就是用X、Y的协方差除以X的标准差和Y的标准差。
所以,相关系数也可以看成协方差:一种剔除了两个变量量纲影响、标准化后的特殊协方差。

说白了,你也可以当成标准差的定义来看,像是一男一女,两个步子不一样的人在跳舞,虽然步伐一下,变化情况一样,但是由于步子的大小影响到了协方差的数值,这个时候我们再采用利用步子的大小消除差异的方法得到变化相关的情况。

由于它是标准化后的协方差,因此更重要的特性来了:它消除了两个变量变化幅度的影响,而只是单纯反应两个变量每单位变化时的相似程度。

R语言实战

R语言提供了多种计算相关系数的方法,包括Pearson相关系数,Spearman相关系数,Kendall相关系数,偏相关系数,多分格等等。那我们来认识一下cor()和cov()函数吧,cor()可以计算Pearson相关系数,Spearman相关系数,Kendall相关系数,cov()可以计算协方差。

我们这边使用R自带的state.x77数据,cov()和cor()函数默认使用Pearson相关系数的计算方法,且将缺失数据的计算结果设为missing。下面为实战示例:

> head(state.x77)
           Population Income Illiteracy Life Exp Murder HS Grad Frost   Area
Alabama          3615   3624        2.1    69.05   15.1    41.3    20  50708
Alaska            365   6315        1.5    69.31   11.3    66.7   152 566432
Arizona          2212   4530        1.8    70.55    7.8    58.1    15 113417
Arkansas         2110   3378        1.9    70.66   10.1    39.9    65  51945
California      21198   5114        1.1    71.71   10.3    62.6    20 156361
Colorado         2541   4884        0.7    72.06    6.8    63.9   166 103766

> cov(state.x77)
              Population        Income   Illiteracy      Life Exp       Murder       HS Grad        Frost          Area
Population 19931683.7588   571229.7796  292.8679592 -4.078425e+02  5663.523714  -3551.509551 -77081.97265  8.587917e+06
Income       571229.7796   377573.3061 -163.7020408  2.806632e+02  -521.894286   3076.768980   7227.60408  1.904901e+07
Illiteracy      292.8680     -163.7020    0.3715306 -4.815122e-01     1.581776     -3.235469    -21.29000  4.018337e+03
Life Exp       -407.8425      280.6632   -0.4815122  1.802020e+00    -3.869480      6.312685     18.28678 -1.229410e+04
Murder         5663.5237     -521.8943    1.5817755 -3.869480e+00    13.627465    -14.549616   -103.40600  7.194043e+04
HS Grad       -3551.5096     3076.7690   -3.2354694  6.312685e+00   -14.549616     65.237894    153.99216  2.298732e+05
Frost        -77081.9727     7227.6041  -21.2900000  1.828678e+01  -103.406000    153.992163   2702.00857  2.627039e+05
Area        8587916.9494 19049013.7510 4018.3371429 -1.229410e+04 71940.429959 229873.192816 262703.89306  7.280748e+09

> cor(state.x77)
            Population     Income  Illiteracy    Life Exp     Murder     HS Grad      Frost        Area
Population  1.00000000  0.2082276  0.10762237 -0.06805195  0.3436428 -0.09848975 -0.3321525  0.02254384
Income      0.20822756  1.0000000 -0.43707519  0.34025534 -0.2300776  0.61993232  0.2262822  0.36331544
Illiteracy  0.10762237 -0.4370752  1.00000000 -0.58847793  0.7029752 -0.65718861 -0.6719470  0.07726113
Life Exp   -0.06805195  0.3402553 -0.58847793  1.00000000 -0.7808458  0.58221620  0.2620680 -0.10733194
Murder      0.34364275 -0.2300776  0.70297520 -0.78084575  1.0000000 -0.48797102 -0.5388834  0.22839021
HS Grad    -0.09848975  0.6199323 -0.65718861  0.58221620 -0.4879710  1.00000000  0.3667797  0.33354187
Frost      -0.33215245  0.2262822 -0.67194697  0.26206801 -0.5388834  0.36677970  1.0000000  0.05922910
Area        0.02254384  0.3633154  0.07726113 -0.10733194  0.2283902  0.33354187  0.0592291  1.00000000

> cor(state.x77,method = "spearman")
           Population      Income Illiteracy   Life Exp     Murder    HS Grad      Frost        Area
Population  1.0000000  0.12460984  0.3130496 -0.1040171  0.3457401 -0.3833649 -0.4588526 -0.12067227
Income      0.1246098  1.00000000 -0.3145948  0.3241050 -0.2174623  0.5104809  0.1968638  0.05709484
Illiteracy  0.3130496 -0.31459482  1.0000000 -0.5553735  0.6723592 -0.6545396 -0.6831936 -0.25037208
Life Exp   -0.1040171  0.32410498 -0.5553735  1.0000000 -0.7802406  0.5239410  0.2983910  0.12750018
Murder      0.3457401 -0.21746230  0.6723592 -0.7802406  1.0000000 -0.4367330 -0.5438432  0.10642590
HS Grad    -0.3833649  0.51048095 -0.6545396  0.5239410 -0.4367330  1.0000000  0.3985351  0.43897520
Frost      -0.4588526  0.19686382 -0.6831936  0.2983910 -0.5438432  0.3985351  1.0000000  0.11228778
Area       -0.1206723  0.05709484 -0.2503721  0.1275002  0.1064259  0.4389752  0.1122878  1.00000000

你可能感兴趣的:(协方差和相关系数)