通过课上的内容,我们可以使用lm()函数拟合回归模型,通过summary()函数获取模型系数及其显著性检验结果。但是,没有任何输出告诉你这个模型适是否合适,模型是否正确依赖于它在多大程度上满足了OLS回归的假设条件。
首先,我们有必要回顾一下线性回归的一系列前提假设:
1.因变量与自变量之间有线性关系(线性)
2.各观测值之间相互独立(独立性)
3.残差服从N(0, σ^2)的正态分布,等价于任意自变量、因变量具有相同方差,并且服从正态分布(正态性和同方差性)。
为此,人们提出所谓回归诊断的问题,内容有:
(1)误差项是否满足:A.独立性;B.等方差性;C.正态性
(2)是否存在异常样本?
(3)回归分析的结果是狗对某些样本的依赖过重?即回归模型是否具备稳定性?
例:某公司为研究产品的营销策略,对产品的销售情况进行了调查,设Y为某地区该产品的家庭人均购买量(单位:元),X为家庭人均收入(单位:元)。试通过数据建立Y与X的关系式。
命令:
>X<-scan()
679 292 1012 493 582 1156 997 2189 1097 2078
1818 1700 747 2030 1643 414 354 1276 745 435
540 874 1543 1029 710 1434 837 1748 1381 1428
1255 1777 370 2316 1130 463 770 724 808 790
783 406 1242 658 1746 468 1114 413 1787 3560
1495 2221 1526
>Y<-scan()
0.79 0.44 0.56 0.79 2.70 3.64 4.73 9.50 5.34 6.85
5.84 5.21 3.25 4.43 3.16 0.50 0.17 1.88 0.77 1.39
0.56 1.56 5.28 0.64 4.00 0.31 4.20 4.88 3.48 7.58
2.63 4.99 0.59 8.19 4.79 0.51 1.74 4.10 3.94 0.96
3.29 0.44 3.24 2.14 5.71 0.64 1.90 0.51 8.33 14.94
5.11 3.85 3.93
>lm.sol<-lm(Y~X); summary(lm.sol)
Call:
lm(formula = Y ~ X)
Residuals:
Min 1Q Median 3Q Max
-4.1399 -0.8275 -0.1934 1.2376 3.1522
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.8313037 0.4416121 -1.882 0.0655 .
X 0.0036828 0.0003339 11.030 4.11e-15 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.577 on 51 degrees of freedom
Multiple R-squared: 0.7046, Adjusted R-squared: 0.6988
F-statistic: 121.7 on 1 and 51 DF, p-value: 4.106e-15
回归方程通过的模型显著性检验和系数显著性检验。Y对X的一元回归模型方程:
以下进行回归诊断:
R中回归模型的残差图中用plot(object)画出,其中object是回归模型的对象。
> par(mfrow=c(2,2)) ##将plot函数绘制的四幅图组合在一个大的2*2的图中
> plot(lm.sol)
A. 左上图——残差/预测值
验证的是线性,横坐标为因变量的预测值,而纵坐标为残差,如果因变量与自变量为线性,则这些点的分布应该没有系统关联;
这里补充残差图的一些知识:
残差图的图形有以下三种情况:
对于(a),不论拟合值的大小,残差具有相同的分布,满足模型的假设条件。
对于(b),拟合值的大小与残差的波动大小有关系,即等方差的假设有问题。
对于(c),表示线性模型不适合,考虑非线性模型。
残差图知识补充完毕。回归例题。
直观上看,本例的残差图从左向右逐渐散开呈漏斗状,这是残差不相等的一个征兆。
B.右上图——标准化残差的QQ图
残差值应该是一个均值为0的正态分布。若满足正态假设,图上的点应该落在呈45度角的直线上,若不是则违反了正态性的假设。
C.左下图——位置尺度图(标准化残差开方/预测值)
若满足方差齐次的假设,那么在该图中,水平线周围的点应该随机分布。
D.右下图——残差与杠杆图
提供了单个观测点的信息,从图中可以鉴别出离群点、高杠杆值点和影响点。[PS:个人认为可读性比较差]
*一个观测点是离群点,表明拟合回归模型对其预测效果不佳(产生了巨大的或正或负的残差)。
*一个观测点有很高的杠杆值,表明它是一个异常的预测变量值的组合。也就是说,在预测变量中,它是一个离群点。因变量值不参与计算一个观测点的杠杆值。
*一个观测点是强影响点,表明它对模型参数的估计值产生的影响过大,非常不成比例。强影响点可以通过Cook距离(即Cook’s D统计量)来鉴别。