学习:StatQuest-R方

前言:

我们已经有了相关系数R,为什么还要计算R^2 呢?因为R^2 可以更为直观的计算。

浅谈R^2:

假设说我有一组老鼠的体重数据,并按老鼠编号进行排序,图中的实线表示该组数据的均值



我们来计算每只老鼠体重与均值差的平方和
若此时我们按照老鼠的体型进行排序,X轴从左到右依次增大,那么:


image.png

我们观察到,数据点到均值线的距离并没有变 :
image.png

我们用这几个数据点拟合出一条直线(蓝线),那么怎么量化这两条直线的差异呢?



我们利用R^2 可以做到:
image.png

Var(mean): 指每个数据点与均值的差异
Var(line(blue)):指每个数据点与蓝线上对应点的数值差的平方和
例如:
image.png

这意味着蓝线与数据点的差值平方和比均值的对应数值少81%,即81%的差异(数据点之间的差异)都可以用相关性来解释;
换句话说,Var(line(blue))要远远小于Var(mean),用相关性解释似乎更合理

其实在计算中R^2 即是相关系数R的平方,若R = 0.9,则R^2 = 0.81;R = 0.3,R^2 = 0.09。显然前者利用相关性解释的成分更多

你可能感兴趣的:(学习:StatQuest-R方)