相关系数与决定系数

文章目录

  • 相关系数(Correlation coefficient)
  • 决定系数(coefficient of determination)


相关系数(Correlation coefficient)

皮尔逊相关系数 也称为简单相关系数,用于研究变量之间 线性相关的程度。相关系数可以用简写 c c cc cc 表示,不过通常还是会用 r r r 来表示。

NOTE:皮尔逊相关系数并不是唯一的相关系数,但是最常见的相关系数。

定义
ρ x y = r ( X , Y ) = C o v ( X , Y ) V a r [ X ] V a r [ Y ] \rho_{xy} = r(X,Y) = \frac{Cov(X,Y)}{\sqrt{Var[X]Var[Y]}} ρxy=r(X,Y)=Var[X]Var[Y] Cov(X,Y)
其中, C o v ( X , Y ) Cov(X,Y) Cov(X,Y) X X X Y Y Y 的协方差, V a r [ X ] Var[X] Var[X] V a r [ Y ] Var[Y] Var[Y] 分别为 X X X Y Y Y 的方差。

值域[-1,1]

意义:定量刻画了 X X X Y Y Y 的相关程度, ∣ ρ x y ∣ |\rho_{xy}| ρxy 越大则相关程度越大; ∣ ρ x y ∣ = 0 |\rho_{xy}| = 0 ρxy=0 对应相关程度最低。

ρ x y \rho_{xy} ρxy正数 时表示两个变量呈 正相关,即一个变量增大时另一个变量也增大(比如气温越高,冰淇淋的销量就越多); ρ x y \rho_{xy} ρxy 结果为 负数 时两个变量呈 负相关,即一个变量增大时另一个变量减小(比如海拔越高时,空气中的氧气含量就越少); ρ x y \rho_{xy} ρxy0,则表示两个变量不为线性关系,有可能两者不相关,但也有可能两者有更加复杂的关系。

相关性的强弱大致可以按照如下分布来进行判定:

  • ∣ ρ x y ∣ |\rho_{xy}| ρxy 0.8 ~ 1.0,极强相关
  • ∣ ρ x y ∣ |\rho_{xy}| ρxy 0.6 ~ 0.8,强相关
  • ∣ ρ x y ∣ |\rho_{xy}| ρxy 0.4 ~ 0.6,中等程度相关
  • ∣ ρ x y ∣ |\rho_{xy}| ρxy 0.2 ~ 0.4,弱相关
  • ∣ ρ x y ∣ |\rho_{xy}| ρxy 0.0 ~ 0.2,极弱相关或无相关

计算方法:

方法一:Excel 自带公式

公式 -> 插入函数 -> 统计 -> CORREL

或者直接在 Excel 表格任意空白位置输入:=CORREL()
相关系数与决定系数_第1张图片
方法二:专业数据分析工具 SPSS

参考文章:
皮尔逊积矩相关系数
【从零开始的AI学习】如何判断两个数据之间的相关性?


决定系数(coefficient of determination)

决定系数也称为拟合优度,是 相关系数的平方。用于 评价拟合的好坏,这里的拟合可以是线性或非线性的。通常记作 r 2 r^2 r2

意义:决定系数 r 2 r^2 r2 约接近于 1,则拟合回归的效果越好。

表示可根据自变量的变异来解释因变量的变异部分。如某学生在某智力量表上所得的 IQ 分与其学业成绩的相关系数 r=0.66,则决定系数 R^2=0.4356,即该生学业成绩约有 44%可由该智力量表所测的智力部分来说明或决定。

参考文章:
决定系数
统计-R(相关系数)与R^2(决定系数)傻傻分不清

你可能感兴趣的:(统计学习)