皮尔逊相关系数

皮尔逊相关系数

想要了解皮尔逊相关系数,首先需要学习概率中的协方差概念。

协方差

协方差在概率中用于衡量两个变量的总体误差。当两个变量的变化趋势相同时,也就是一个变量大于它的期望,另一个变量也大于它的期望时,他们的协方差值为正;如果变化趋势相反时,他们的协方差值为负。

如果两个变量分别为X、Y,他们的期望分别是E(X)、E(Y),则他们的协方差是

Cov(X,Y)=E[(X-E(X))(Y-E(Y))]=E[XY]-2E[Y]E[X]+E[X]E[Y]=E[XY]-E[X]E[Y]

当X、Y为两个独立变量时,则E[XY]=E[X]E[Y],因此Cov(X,Y)=0。

Pearson系数

由上图Pearson系数的公式可以看出,Pearson相关系数是用协方差除以两个变量的标准差得到的。

之所以需要除以两个变量的标准差,是因为协方差虽然可以表示两个变量的相关程度(协方差大于0,表示正相关;协方差小于0,表示负相关),但是协方差值的大小并不能直接反应两个变量的相关程度。

因此在协方差的基础上再除以两个变量的b标准差,pearson是一个介于-1和1之间的值,当两个变量的线性关系增强时,相关系数趋于1或-1;当一个变量增大,另一个变量也增大时,表明它们之间是正相关的,相关系数大于0;如果一个变量增大,另一个变量却减小,表明它们之间是负相关的,相关系数小于0;如果相关系数等于0,表明它们之间不存在线性相关关系。

参考资料

  1. 如何理解皮尔逊相关系数(Pearson Correlation Coefficient)?
  2. 如何通俗易懂地解释「协方差」与「相关系数」的概念?

你可能感兴趣的:(皮尔逊相关系数)