plor 回归的r方_R相关与回归学习笔记(十九)——强影响点分析、过度拟合示例(一)...

本笔记中原始数据及代码均来源于李东风先生的R语言教程,在此对李东风先生的无私分享表示感谢。

强影响点是删去以后严重改变参数估计值的观测。 包括自变量取值离群和因变量拟合离群的点。 杠杆(leverage)指帽子矩阵的对角线元素hii,

41a340a282bdbcf02984301e3d6817bc.png

其中di是第i个观测的重复观测次数。 某观测杠杆值高说明该观测自变量有异常值。 杠杆值大于2p/n的观测需要仔细考察 (有截距项时p等于自变量个数加1)。 若lmres是R中lm()的回归结果, 用hatvalues(lmres)可以求杠杆值。 考察外学生化残差ti, 绝对值超过2的观测拟合误差大, 在y方向离群,需要关注。

若lmres是R中lm()的回归结果, 用rstudent(lmres)可以求外学生化。 Cook距离统计量:

fab3a5f5eed37a5b4787b7c307dded49.png

包含了y方向的离群ri和x方向的离群hii的信息。 超过4/n 的值需要注意。 若lmres是R中lm()的回归结果, 用cooks.distance(lmres)可以求Cook距离。 R中的强影响点诊断函数还有 dfbetas(), dffits(), covratio()。

偏杠杆值衡量每个自变量(包括截距项)对杠杆的贡献。 把第j个自变量关于其它自变量回归得到残差, 第i个残差的平方占总残差平方和的比例为第j自变量在第i观测处的偏杠杆值。 偏杠杆值影响自变量选择时对该变量的选择。

过度拟合示例

R方代表了模型对数据的拟合程度, 模型中加入的自变量越多, R方越大。 是不是模型中的自变量越多越好? 可能会发生“过度拟合”。 用来建模的数据都拟合误差很小, 但是模型很难有合理解释, 对新的数据的预测效果很差甚至于完全错误。

set.seed(10)n 20x sample(a 100b 2sigma 5y 4)*sigmaxnew 1.5, ynew length(xnew), plot(x, y, pch=16, xlim=c(0, n+1), ylim=c(90,140))points(xnew, ynew, pch=2, col="red")legend("topleft", pch=c(16,2), col=c("black", "red"),       legend=c("拟合用", "测试用"))

plor 回归的r方_R相关与回归学习笔记(十九)——强影响点分析、过度拟合示例(一)..._第1张图片

作线性回归:

plot(x, y, pch=16, xlim=c(0, n+1), ylim=c(90,140))points(xnew, ynew, pch=2, col="red")lmof1 abline(lmof1)

plor 回归的r方_R相关与回归学习笔记(十九)——强影响点分析、过度拟合示例(一)..._第2张图片

往期回顾

R相关与回归学习笔记(一)——相关分析

R相关与回归学习笔记(二)——相关与因果、相关系数大小、相关系数的检验

R相关与回归学习笔记(三)——相关阵、一元回归分析

R相关与回归学习笔记(五)——回归有效性

R相关与回归学习笔记(六)——R程序

R相关与回归学习笔记(七)——回归诊断(一)

R相关与回归学习笔记(七)——回归诊断(二)

R相关与回归学习笔记(八)——回归诊断(三)

R相关与回归学习笔记(九)——预测区间、控制、多元线性回归模型

R相关与回归学习笔记(十)——参数估计、R的多元回归程序(一)

R相关与回归学习笔记(十一)——模型的检验

R相关与回归学习笔记(十二)——线性关系检验、单个斜率项的显著性检验

R相关与回归学习笔记(十三)——回归自变量筛选

R相关与回归学习笔记(十四)——哑变量与变截距项的模型(一)

R相关与回归学习笔记(十五)——哑变量与变截距项的模型(二)

R相关与回归学习笔记(十六)——残差诊断(一)

R相关与回归学习笔记(十七)——残差诊断(二)

R相关与回归学习笔记(十八)——残差诊断(三)

R相关与回归学习笔记(十八)——多重共线性

你可能感兴趣的:(plor,回归的r方)