应用回归分析(5):自变量的选择及逐步回归

PPT见:应用回归分析(5):自变量的选择及逐步回归资源-CSDN文库

5.1 自变量选择对估计和预测的影响

5.1.1 全模型和选模型概念

全回归:因变量一共有m个自变量,对所有的自变量建立回归模型称为全回归模型

选模型:从中挑选出p自变量个进行回归,注意:

应用回归分析(5):自变量的选择及逐步回归_第1张图片

5.1.2 误用模型产生的影响xua

(1)是全模型而误用了选模型产生的影响

【1】选模型回归系数的最小二乘估计是全模型相应参数的有偏估计

【2】选模型的预测是有偏的

【3】选模型的参数估计有较小的方差

【4】选模型的预测残差有较小的方差

【5】选模型的均方误差比全模型的小

5.2 所有子集回归

通过暴力找出所有的子集通过 指标进行选择,然后选择出最好的

5.2.1 关于自变量选择的几个准则

(1)SSE和R不行的原因

一般认为:残差平方和SSE最小的回归方程就是最好的,还用复相关系数R来衡量拟合程度的好坏。但是都有明显的不足

【1】残差平方和

当自变量增加时,残差平方和一定减小

证明参考:计量经济学第三章第3节多元线性回归模型的显著性检验 - 豆丁网 (docin.com)

应用回归分析(5):自变量的选择及逐步回归_第2张图片​ 应用回归分析(5):自变量的选择及逐步回归_第3张图片

应用回归分析(5):自变量的选择及逐步回归_第4张图片

应用回归分析(5):自变量的选择及逐步回归_第5张图片​【2】复决定系数

复决定系数的公式:

应用回归分析(5):自变量的选择及逐步回归_第6张图片

(2)全新的准则

【1】自由度调整复决定系数达到最大

当变量增多时,残差平方和减少,R方增大,但是自由度n-p-1减小,因此可以使用自由度进行制衡

显然自由度调整复决定系数小于等于复决定系数

回归误差性方差\delta ^2的无偏估计为:

应用回归分析(5):自变量的选择及逐步回归_第7张图片

在前面证明过!!!

一般来说,当自变量个数从0开始增加时,\widehat{\delta ^2}先下降,而后稳定下来,当自变量个数增加到一定数量后,\widehat{\delta ^2}又开始增加。

应用回归分析(5):自变量的选择及逐步回归_第8张图片

【2】AIC和BIC准则

达到最小是最优!

【3】C_p统计量达到最小

应用回归分析(5):自变量的选择及逐步回归_第9张图片

选择使C_p最小的自变量子集,所对应的方程就是最有回归方程。

spss或者R语言操作:

spss:"分析"--“回归”--“线性”,可以得到调整后的R方

R:得到AIC和BIC的值

计算的式子有所变化,没有忽略无关项!

应用回归分析(5):自变量的选择及逐步回归_第10张图片

Data <- read.csv("eg5_1.csv",head=T)
n <- nrow(Data)
lm <- lm(y~x1,data=Data)
summary(lm)
AIC(lm)
BIC(lm)

应用回归分析(5):自变量的选择及逐步回归_第11张图片

应用回归分析(5):自变量的选择及逐步回归_第12张图片

5.3 逐步回归

当所有子集的个数很多时,用所有子集回归的方法太过冒进,不妥。

应用回归分析(5):自变量的选择及逐步回归_第13张图片

5.3.1 前进法

(1)思想:

变量由少到多,每次增加一个,直到没有可引入的变量为止

应用回归分析(5):自变量的选择及逐步回归_第14张图片

应用回归分析(5):自变量的选择及逐步回归_第15张图片

(2)明显的不足:

应用回归分析(5):自变量的选择及逐步回归_第16张图片

5.3.2 后退法

(1)思想:

先用全部m个变量建立一个回归方程,然后在这m个变量中选择不重要的变量,直到没有可以剔除的变量

应用回归分析(5):自变量的选择及逐步回归_第17张图片

应用回归分析(5):自变量的选择及逐步回归_第18张图片

(2)明显的不足:

应用回归分析(5):自变量的选择及逐步回归_第19张图片

5.3.3 前进法和后退法比较

注意:当自变量完全独立是,那么去相同的显著性水平时,前进法和后退法所建的回归方程是相同的!

应用回归分析(5):自变量的选择及逐步回归_第20张图片

5.3.4 逐步回归法

(1)思想:

基本思想:有进有出

具体做法:将变量一个一个引入,当引入一个自变量后,对已经选入的自变量进行逐个检验,当原引入的变量由于后面变量的引入而变得不再显著时,将其剔除。

注意!!:

引入自变量和剔除自变量的显著性水平不同,引入自变量要比提出自变量的显著性水平要小!!!

应用回归分析(5):自变量的选择及逐步回归_第21张图片一般来说,我们会贯彻一个“严进宽出”的原则。也就是说引入变量的时候,显著性水平要“很高”,而剔除变量的话,就看它显著性水平是不是低于了一个“不是很高”的水平。直观想一下,如果  ,那就意味着,每一次引入的变量活不过第一轮就又被刷出去了……

注意:!!!!

有进有出的结果表示自变量之间有相关性,如果自变量之间完全不想关,则引入的不会剔除,剔除的不会引入,这时逐步回归法和前进法是相同的。

spss:

应用回归分析(5):自变量的选择及逐步回归_第22张图片

应用回归分析(5):自变量的选择及逐步回归_第23张图片

你可能感兴趣的:(应用回归分析及spss部分使用,回归,数据挖掘,人工智能)