强影响点是删去以后严重改变参数估计值的观测。 包括自变量取值离群和因变量拟合离群的点。 杠杆(leverage)指帽子矩阵的对角线元素hii,
其中di是第i个观测的重复观测次数。 某观测杠杆值高说明该观测自变量有异常值。 杠杆值大于2p/n的观测需要仔细考察 (有截距项时p等于自变量个数加1)。 若lmres是R中lm()的回归结果, 用hatvalues(lmres)可以求杠杆值。 考察外学生化残差ti, 绝对值超过2的观测拟合误差大, 在y方向离群,需要关注。
若lmres是R中lm()的回归结果, 用rstudent(lmres)可以求外学生化。 Cook距离统计量:
包含了y方向的离群ri和x方向的离群hii的信息。 超过4/n 的值需要注意。 若lmres是R中lm()的回归结果, 用cooks.distance(lmres)可以求Cook距离。 R中的强影响点诊断函数还有 dfbetas(), dffits(), covratio()。
偏杠杆值衡量每个自变量(包括截距项)对杠杆的贡献。 把第j个自变量关于其它自变量回归得到残差, 第i个残差的平方占总残差平方和的比例为第j自变量在第i观测处的偏杠杆值。 偏杠杆值影响自变量选择时对该变量的选择。
过度拟合示例
R方代表了模型对数据的拟合程度, 模型中加入的自变量越多, R方越大。 是不是模型中的自变量越多越好? 可能会发生“过度拟合”。 用来建模的数据都拟合误差很小, 但是模型很难有合理解释, 对新的数据的预测效果很差甚至于完全错误。
set.seed(10)n 20x sample(a 100b 2sigma 5y 4)*sigmaxnew 1.5, ynew length(xnew), plot(x, y, pch=16, xlim=c(0, n+1), ylim=c(90,140))points(xnew, ynew, pch=2, col="red")legend("topleft", pch=c(16,2), col=c("black", "red"), legend=c("拟合用", "测试用"))
作线性回归:
plot(x, y, pch=16, xlim=c(0, n+1), ylim=c(90,140))points(xnew, ynew, pch=2, col="red")lmof1 abline(lmof1)
往期回顾
R相关与回归学习笔记(一)——相关分析
R相关与回归学习笔记(二)——相关与因果、相关系数大小、相关系数的检验
R相关与回归学习笔记(三)——相关阵、一元回归分析
R相关与回归学习笔记(五)——回归有效性
R相关与回归学习笔记(六)——R程序
R相关与回归学习笔记(七)——回归诊断(一)
R相关与回归学习笔记(七)——回归诊断(二)
R相关与回归学习笔记(八)——回归诊断(三)
R相关与回归学习笔记(九)——预测区间、控制、多元线性回归模型
R相关与回归学习笔记(十)——参数估计、R的多元回归程序(一)
R相关与回归学习笔记(十一)——模型的检验
R相关与回归学习笔记(十二)——线性关系检验、单个斜率项的显著性检验
R相关与回归学习笔记(十三)——回归自变量筛选
R相关与回归学习笔记(十四)——哑变量与变截距项的模型(一)
R相关与回归学习笔记(十五)——哑变量与变截距项的模型(二)
R相关与回归学习笔记(十六)——残差诊断(一)
R相关与回归学习笔记(十七)——残差诊断(二)
R相关与回归学习笔记(十八)——残差诊断(三)
R相关与回归学习笔记(十八)——多重共线性