协方差、相关系数

文章目录

  • 协方差(Covariance)
  • 相关系数(Correlation coefficient)
  • 相关性本质

方差反映的是 一维数据的离散程度。
样本方差反映的是样本的变异程度。
协方差反映的是两组数据之间变化的方向和程度。
在对一维数据进行离散性分析时,我们可以使用方差来进行描述。当数据扩展到多维时,我们可以分别对其不同方向求取其方差值。
但当我们想要了解两个维度之间的关系时,比如身高和体重之间的关系时,就需要使用协方差了。

协方差(Covariance)

度量各个维度偏离其均值的程度。协方差的值如果为正值,则说明两者是正相关的(从协方差可以引出“相关系数”的定义),结果为负值就说明负相关的,如果为0,也是就是统计上说的“相互独立”。

协方差公式

公式解释:
如果有X,Y两个变量。先求x与x均值的差,y与y均值的差,
再求两个差的乘积(这一步是协方差公式的核心,通过正负号判断两个变量的变化方向),
最后求样本空间的期望(消除偶然误差)。

相关系数(Correlation coefficient)

相关系数公式

公式解释:
如果有X,Y两个变量。先求出X,Y的协方差。
再求出的协方差除以X与Y的标准差。
(为什么是除以X,Y的标准差呢?因为标准差反映的是变量在整体变化中偏离均值的程度。
除以标准差可以消除变化的幅度。)

相关性本质

所以,实际上,两个随机变量的相关性其实就是他们自由度的夹角。

当两个变量的自由度互相垂直的话,相关性为0, 当两个变量同一个方向的话,影响是叠加态,相关性为1, 当两个变量相反方向的话,是互相抵消的,相关性为-1

你可能感兴趣的:(概率论与数理统计)