残差分析(残差原理与标准化残差分析)

1、残差分析定义

在回归模型y=\beta _{0}+\beta _{1}x+\varepsilon 中,假定\varepsilon 的期望值为0,方差相等且服从正态分布的一个随机变量。但是,若关于\varepsilon的假定不成立,此时所做的检验以及估计和预测也许站不住脚。确定有关\varepsilon的假定是否成立的方法之一是进行残差分析(residual analysis).

2、残差与残差图

残差(residual)是因变量的观测值y_{i}与根据估计的回归方程求出的预测 \hat{y}_{i} 之差,用e表示。反映了用估计的回归方程去预测y_{i}而引起的误差。第i个观察值的残差为: e_{i}=y_{i}-\hat{y}_{i}

常用残差图:有关x残差图,有关\hat{y}的残差图,标准化残差图

有关x残差图:用横轴表示自变量x的值,纵轴表示对应残差 e_{i}=y_{i}-\hat{y}_{i},每个x的值与对应的残差用图上的一个点来表示。

分析残差图,首先考察残差图的形态及其反映的信息。

残差分析(残差原理与标准化残差分析)_第1张图片

分析:

(a)对所有x值,\varepsilon的方差都相同,且描述变量x和y之间的回归模型是合理的,残差图中的所有点落在一条水平带中间。

(b)对所有的值,\varepsilon的方差是不同的,对于较大的x值,相应的残差也较大,违背了\varepsilon的方差相等的假设

(c)表明所选的回归模型不合理,应考虑曲线回归或多元回归模型。

3、标准化残差

对于\varepsilon正态性假定的检验,也可通过标准化残差分析完成。

标准化残差(standardized residual)是残差除以其标准差后得到的数值,也称Pearson残差或半学生化残差(semi-studentized residuals),用z_{e}表示。第i个观察值的标准化残差为:z_{e_{i}}=\frac{e_{i}}{s_{e}}=\frac{y_{i}-\hat{y}_{i}}{s_{e}}   (s_{e}是残差的标准差的估计)

如果误差项 \varepsilon 服从正态分布的这一假定成立,则标准化残差的分布也服从正态分布。大约有95%的标准化残差在 -2~2 之间。

残差分析(残差原理与标准化残差分析)_第2张图片

从图中可以看出,除了箭头所标识的点外,所有的标准化残差都在 -2~2 之间,所以误差项服从正态分布的假定成立。

 

你可能感兴趣的:(统计)