回归诊断

通过课上的内容,我们可以使用lm()函数拟合回归模型,通过summary()函数获取模型系数及其显著性检验结果。但是,没有任何输出告诉你这个模型适是否合适,模型是否正确依赖于它在多大程度上满足了OLS回归的假设条件。

首先,我们有必要回顾一下线性回归的一系列前提假设:

1.因变量与自变量之间有线性关系(线性)

2.各观测值之间相互独立(独立性)

3.残差服从N(0, σ^2)的正态分布,等价于任意自变量、因变量具有相同方差,并且服从正态分布(正态性和同方差性)。

为此,人们提出所谓回归诊断的问题,内容有:

1)误差项是否满足:A.独立性;B.等方差性;C.正态性

2)是否存在异常样本?

3)回归分析的结果是狗对某些样本的依赖过重?即回归模型是否具备稳定性?

例:某公司为研究产品的营销策略,对产品的销售情况进行了调查,设Y为某地区该产品的家庭人均购买量(单位:元),X为家庭人均收入(单位:元)。试通过数据建立YX的关系式。

命令:

>X<-scan()

 679  292 1012  493  582 1156  997 2189 1097 2078

1818 1700  747 2030 1643  414  354 1276  745  435

 540  874 1543 1029  710 1434  837 1748 1381 1428

1255 1777  370 2316 1130  463  770  724  808  790

 783  406 1242  658 1746  468 1114  413 1787 3560

1495 2221 1526

 

>Y<-scan()

0.79 0.44 0.56 0.79 2.70 3.64 4.73 9.50 5.34 6.85

5.84 5.21 3.25 4.43 3.16 0.50 0.17 1.88 0.77 1.39

0.56 1.56 5.28 0.64 4.00 0.31 4.20 4.88 3.48 7.58

2.63 4.99 0.59 8.19 4.79 0.51 1.74 4.10 3.94 0.96

3.29 0.44 3.24 2.14 5.71 0.64 1.90 0.51 8.33 14.94

5.11 3.85 3.93

 

>lm.sol<-lm(Y~X); summary(lm.sol)

Call:

lm(formula = Y ~ X)

 

Residuals:

    Min      1Q  Median      3Q     Max

-4.1399 -0.8275 -0.1934  1.2376  3.1522

 

Coefficients:

              Estimate Std. Error t value Pr(>|t|)   

(Intercept) -0.8313037  0.4416121  -1.882   0.0655 . 

X            0.0036828  0.0003339  11.030 4.11e-15 ***

---

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

 

Residual standard error: 1.577 on 51 degrees of freedom

Multiple R-squared:  0.7046,         Adjusted R-squared:  0.6988

F-statistic: 121.7 on 1 and 51 DF,  p-value: 4.106e-15

 

回归方程通过的模型显著性检验和系数显著性检验。YX的一元回归模型方程:

以下进行回归诊断:

R中回归模型的残差图中用plot(object)画出,其中object是回归模型的对象。

> par(mfrow=c(2,2)) ##plot函数绘制的四幅图组合在一个大的2*2的图中

> plot(lm.sol)

回归诊断_第1张图片

A. 左上图——残差/预测值

验证的是线性,横坐标为因变量的预测值,而纵坐标为残差,如果因变量与自变量为线性,则这些点的分布应该没有系统关联;

 

这里补充残差图的一些知识:

残差图的图形有以下三种情况:

回归诊断_第2张图片

对于(a),不论拟合值的大小,残差具有相同的分布,满足模型的假设条件。

对于(b),拟合值的大小与残差的波动大小有关系,即等方差的假设有问题。

对于(c),表示线性模型不适合,考虑非线性模型。

残差图知识补充完毕。回归例题。

 

直观上看,本例的残差图从左向右逐渐散开呈漏斗状,这是残差不相等的一个征兆。

 

B.右上图——标准化残差的QQ

残差值应该是一个均值为0的正态分布。若满足正态假设,图上的点应该落在呈45度角的直线上,若不是则违反了正态性的假设。

 

C.左下图——位置尺度图(标准化残差开方/预测值)

若满足方差齐次的假设,那么在该图中,水平线周围的点应该随机分布。

 

D.右下图——残差与杠杆图

提供了单个观测点的信息,从图中可以鉴别出离群点、高杠杆值点和影响点。[PS:个人认为可读性比较差]

*一个观测点是离群点,表明拟合回归模型对其预测效果不佳(产生了巨大的或正或负的残差)。

*一个观测点有很高的杠杆值,表明它是一个异常的预测变量值的组合。也就是说,在预测变量中,它是一个离群点。因变量值不参与计算一个观测点的杠杆值。

*一个观测点是强影响点,表明它对模型参数的估计值产生的影响过大,非常不成比例。强影响点可以通过Cook距离(即Cook’s D统计量)来鉴别。

 

 

 

 

 

你可能感兴趣的:(回归分析,回归诊断,R)