【统计建模07】残差分析

文章目录

  • 残差
  • 定理
  • 方差齐性检验
  • 残差图分析

残差

  • 定义残差是响应变量中回归模型所未解释的变异 性度量:
    e i = y i − y ^ + i e_i = y_i − \hat y+i ei=yiy^+i
    其中 y i y_i yi 表示样本的观测值, y ^ i \hat y_i y^i 表示样本的预测值

    • 残差是模型误差的观测值, 误差的任何对基本假设的违背都可以通过残差体现出来
    • 残差分析是探索几种模型不适用性类型的有效办法
  • 用向量来描述 n n n 个数据的残差,记为: e = y − y ^ e = y − \hat y e=yy^ 其中 y ^ = X β ^ \hat y = X \hat β y^=Xβ^.

  • 将最小二乘估计的结果 β ^ = ( X T X ) − 1 X T y \hat β = (X^TX) ^{−1}X^Ty β^=(XTX)1XTy 代入其 中,有回归向量:
    y ^ = X ( X T X ) − 1 X T y = H y \hat y = X(X^TX)^{−1}X^T y = Hy y^=X(XTX)1XTy=Hy
    其中 H = X ( X T X ) − 1 X T H = X(X^TX)^{−1}X^T H=X(XTX)1XT 称为帽子矩阵。可以证明,帽子矩阵是幂等对称矩阵,具有如下的性质:

    • H T = H H^T = H HT=H
    • H 2 = H H^2 = H H2=H
    • ( I − H ) X = 0 (I−H)X = 0 (IH)X=0
    • ( I − H ) H = 0 (I−H)H = 0 (IH)H=0
  • 残差向量可以表示为:
    e = y − y ^ = ( I − H ) y = ( I − H ) ( X β + e ) = ( I − H ) e e = y−\hat y = (I−H)y = (I−H)(Xβ + e) = (I−H)e e=yy^=(IH)y=(IH)(+e)=(IH)e
    残差向量实际上是对误差项的一个估计量。关于 残差,有如下的性质:

定理

对残差向量,我们有:

(1) E ( e ^ ) = 0 , c o v ( e ^ ) = σ 2 ( I − H ) E(\hat e) = 0, cov(\hat e) = σ^2 (I−H) E(e^)=0,cov(e^)=σ2(IH)

(2) 若进一步假设误差向量 e ∼ N ( 0 , σ 2 I ) e \sim N(0, σ^2 I) eN(0,σ2I),则 e ^ ∼ N ( 0 , σ 2 ( I − H ) ) \hat e \sim N(0, σ^2 (I − H)) e^N(0,σ2(IH))

(3) e ^ \hat e e^ y ^ \hat y y^ 相互独立, c o v ( e ^ , y ^ ) = 0 cov(\hat e, \hat y) = 0 cov(e^,y^)=0

方差齐性检验

注意到:
v a r ( e ^ i ) = σ 2 ( 1 − h i i ) var(\hat e_i) = σ^2(1 − h_{ii}) var(e^i)=σ2(1hii)
可见在一般情况下,ˆei 的方差是不相等的。因此 我们不能直接使用残差来检验方差齐性,需要首 先对残差尺度化,记:
r i = e ^ i v a r ( e ^ i ) = e ^ i σ 2 1 − h i i ri = \frac{\hat e_i}{\sqrt {var(\hat e_i)}} = \frac{\hat e_i}{\sigma^2 \sqrt {1-h_{ii}}} ri=var(e^i) e^i=σ21hii e^i
其中 σ ^ 2 = S S E ( n − p ) \large \hat σ^2 = \Large \frac{SSE}{(n − p)} σ^2=(np)SSE.

r i r_i ri 近似服从正态分布 r i ∼ N ( 0 , 1 ) r_i \sim N(0, 1) riN(0,1)

因而,
P ( − 2 ≤ r i ≤ 2 ) = 95.5 % ,     i = 1 , 2 , ⋅ ⋅ ⋅ , n P(−2 ≤ r_i ≤ 2) = 95.5\%, ~~~i = 1, 2, · · · , n P(2ri2)=95.5%,   i=1,2,⋅⋅⋅,n
即一个观测样本的残差有 95.5% 的概率落在区间 [−2, 2] 之间。

如果违背了这一点,我们就有理由拒绝方差齐性假设。

残差图分析

【统计建模07】残差分析_第1张图片
图中残差在 ∣ e ∣ ≤ 2 |e| \leq 2 e2 范围内随机变化,表明回归模型满足基本的假设;
【统计建模07】残差分析_第2张图片
表明 y y y 的观测值的方差并不相同,而是随着 x x x 的增大而增大,违背了 e e e 的方差相等的假设;

【统计建模07】残差分析_第3张图片

表明 y y y X X X 之间不是线性关系,应该考虑 使用曲线回归来拟合样本观测值;

【统计建模07】残差分析_第4张图片

蛛网现象,表明 Y Y Y 存在自相关

你可能感兴趣的:(统计建模笔记,笔记,机器学习,算法,数据分析)