R Squared

可以用来表示一个线性回归的拟合程度的好坏

1. 代数表达式

符号介绍:

  1. 观测值:
  2. 预测值:

首先需要介绍3个平方和公式:

type formula
total sum of squares
explained sum of squares
residual sum of squares

线性回归中

2. 几何解释

R Squared_第1张图片
Coefficient_of_Determination

左图表达的是 , 右图表达的是

3. 的缺陷

当我们引入的特征增加时, 不管直接模型的效果怎样, 总是会比之前的更大

因为 在这个过程中不会变化, 例如增加了一个特征的 会变成如下:
\begin{align} SS'_{reg}&=\sum_i(y_i-f_i)^2 \\ &=\sum_i(y_i-X_ib)^2 \\ &=\sum_i(y_i-\sum_{j=1}^{k+1}x_{ij}b_j)^2 \\ &=\sum_i(y_i-\sum_{j=1}^kx_{ij}b_j-x_{i(k+1)}b_{k+1})^2 \\ &=SS_{reg}-2\sum_i(y_i-\sum_{j=1}^kx_{ij}b_j)(x_{i(k+1)}b_{k+1})+\sum_i(x_{i(k+1)}b_{k+1})^2 \\ &=SS_{reg}+b_{k+1}^2\sum_ix_{i(k+1)}^2-2b_{k+1}\sum_i(y_i-\sum_{j=1}^kx_{ij}b_j)(x_{i(k+1)}) \end{align}
最后面的部分是以 为变量的二次方程且二次项系数为正, 则一定会有 使得这个式子为负, 则会有

从而使得 增大, 会给人造成误解是因为多了一个特征的原因,而使模型的准确度增加了

4. 的改进

adjusted : , 其中 表示除常数项以外的特征的数, 表示样本数

5. 与残差的比较

norm of residuals () 也可以用来表示拟合程度的好坏

相当于是用 做了一次标准化, 则不会随着量纲的变化而变化

ref: https://en.wikipedia.org/wiki/Coefficient_of_determination

你可能感兴趣的:(R Squared)