统计学(71)-相关性分析

1、方差到协方差,再从协方差到线性相关系数

(1)已知变量x 和y, 现在想了解x和y的相关性(x和y均为连续变量,默认没有异常值存在,即偏离平均值较大的数据)

image.png

首先,绘制x和y关系的散点图。不难看出,二者存在一定的相关性,总的来说,随着x的增大, y也随之增
(2)如何来定量描述二者的相关大小呢?

image.png

这四个象限图:
image.png

image.png

总结:
如果两个变量呈正相关(y随着x的增大而增大),那么大多数数据应该位于1、3象限中;如果两个变量呈负相关(y随着x的增大而减小),那么大多数数据应该位于2、4象限中;如果两个变量没有什么关系,那么4个象限中的数据应该差不多。
(3)x和y怎样才能称之为正相关呢?
如果1、3象限中的点越多,则越说明x和y可能呈正相关。
(4)怎样从数据中体现出1、3象限中的点呢?
image.png

如果上述公式算出来的,大多数是正数,就说明1、3象限中的点比较多。
(5)怎样数正数的个数呢?

image.png

(6)计算方法的劣势
该值与离均差平方和有一个共同的缺点,即数据越多,该值可能越大,不利于不同数据之间的相互比较。
因此,我们将其除以例数,就可以消除例数的影响。最终形成的指标就是协方差(Covariance):


image.png

事实上,协方差跟方差是一回事,如果你把公式中的y都换成x, 就变成了x的方差。因此,方差可以看作协方差的特例,自己对自己的关系就是方差。

2、协方差的劣势

(1)利用协方差比较不同数据之间的相关性大小还存在一个致命问题,那就是度量单位的问题。试想,如果把表1中的x和y各扩大10倍,那么二者的关系并没有发生改变,但协方差值却会增大几百倍。这说明协方差不利于度量单位不同的数据之间的比较。
因此,我们想到了标准化:


image.png

通过标准化,使得不同度量单位的数据均变换为以0为均数、以1为标准差的值,这样就可以直接比较数据大小了。
(2)数据标准化后的协方差


image.png

线性相关系数的计算公式,就不难理解其含义了。其实它就是将协方差与数据标准化结合在一起的一个公式。

image.png

这个公式难道不是标准化后x和y相乘之和吗?是否没有除以自由度?

你可能感兴趣的:(统计学(71)-相关性分析)