回归分析的基本思想是: 虽然自变量和因变量之间没有严格的、确定性的函数关系,但可以设法找出最能代表它们之间关系的数学表达形式。
多元回归分析的由来: 在自变量很多时,其中有的因素可能对应变量的影响不是很大,而且x之间可能不完全相互独立的,可能有种种互相作用的关系。 在这种情况下可用逐步回归分析,进行x因子的筛选,这样建立的多元回归模型预测效果会更好。
逐步回归法:逐步回归的基本思想是将变量逐个引入模型,每引入一个解释变量后都要进行F检验,并对已经选入的解释变量逐个进行t检验,当原来引入的解释变量由于后面解释变量的引入变得不再显著时,则将其删除。以确保每次引入新的变量之前回归方程中只包含显著性变量。这是一个反复的过程,直到既没有显著的解释变量选入回归方程,也没有不显著的解释变量从回归方程中剔除为止。以保证最后所得到的解释变量集是最优的。
依据上述思想,可利用逐步回归筛选并剔除引起多重共线性的变量。
其具体步骤如下:
可以解决的实际问题:
Q:以陕西省长武地区1984~1995年的烟蚜传毒病情资料、相关虫情和气象资料为例, 建立蚜传病毒病情指数的逐步回归模型, 说明逐步回归分析的具体步骤。影响蚜传病毒病情指数的虫情因子和气象因子一共有21个,通过逐步回归,从中选出对病情指数影响显著的因子,从而建立相应的模型。
以excel文件的形式导入spss
此时的年份作为label,x1作为因变量,其他因素作为自变量(按住shift同时拉入多个因素)。
【分析】-【回归】-【线性】-【方法】步进【选项】设置F-enter and F-remove-【输出】
输入/除去的变量a |
|||
模型 |
输入的变量 |
除去的变量 |
方法 |
1 |
x16 |
. |
步进(条件:要输入的 F 的概率 <= .150,要除去的 F 的概率 >= .200)。 |
2 |
x17 |
. |
步进(条件:要输入的 F 的概率 <= .150,要除去的 F 的概率 >= .200)。 |
a. 因变量:x1 |
模型摘要c |
|||||
模型 |
R |
R 方 |
调整后 R 方 |
标准估算的错误 |
德宾-沃森 |
1 |
.762a |
.581 |
.539 |
22.08153 |
|
2 |
.844b |
.713 |
.649 |
19.26609 |
2.313 |
a. 预测变量:(常量), x16 |
b. 预测变量:(常量), x16, x17 |
c. 因变量:x1 |
ANOVAa |
||||||
模型 |
平方和 |
自由度 |
均方 |
F |
显著性 |
|
1 |
回归 |
6760.381 |
1 |
6760.381 |
13.865 |
.004b |
残差 |
4875.941 |
10 |
487.594 |
|
|
|
总计 |
11636.322 |
11 |
|
|
|
|
2 |
回归 |
8295.681 |
2 |
4147.841 |
11.175 |
.004c |
残差 |
3340.641 |
9 |
371.182 |
|
|
|
总计 |
11636.322 |
11 |
|
|
|
a. 因变量:x1 |
b. 预测变量:(常量), x16 |
c. 预测变量:(常量), x16, x17 |
此时的两个模型则分别是对应x16以及x16、x17为变量的线性回归方程。
系数a |
||||||
模型 |
未标准化系数 |
标准化系数 |
t |
显著性 |
||
B |
标准错误 |
Beta |
||||
1 |
(常量) |
-16.055 |
9.917 |
|
-1.619 |
.137 |
x16 |
.985 |
.265 |
.762 |
3.724 |
.004 |
|
2 |
(常量) |
-33.139 |
12.059 |
|
-2.748 |
.023 |
x16 |
.753 |
.257 |
.583 |
2.924 |
.017 |
|
x17 |
.257 |
.126 |
.405 |
2.034 |
.072 |
a. 因变量:x1 |
第一步对x16做简单线性回归:y = 0.985x16-16.005
第二步对x16、x17做线性回归:y = 0.753x16+0.257x17-33.139
排除的变量a |
||||||
模型 |
输入 Beta |
t |
显著性 |
偏相关 |
共线性统计 |
|
容差 |
||||||
1 |
x2 |
-.132b |
-.584 |
.573 |
-.191 |
.881 |
x3 |
-.028b |
-.127 |
.902 |
-.042 |
.942 |
|
x4 |
-.027b |
-.125 |
.903 |
-.042 |
.997 |
|
x5 |
-.050b |
-.203 |
.844 |
-.068 |
.751 |
|
x6 |
.024b |
.113 |
.913 |
.038 |
.999 |
|
x7 |
-.033b |
-.133 |
.897 |
-.044 |
.744 |
|
x8 |
.213b |
1.037 |
.327 |
.327 |
.985 |
|
x9 |
-.030b |
-.132 |
.898 |
-.044 |
.901 |
|
x10 |
.130b |
.609 |
.558 |
.199 |
.979 |
|
x11 |
.200b |
.953 |
.365 |
.303 |
.957 |
|
x12 |
-.121b |
-.560 |
.589 |
-.183 |
.963 |
|
x13 |
.095b |
.438 |
.672 |
.144 |
.978 |
|
x14 |
.225b |
1.020 |
.334 |
.322 |
.856 |
|
x15 |
-.137b |
-.648 |
.533 |
-.211 |
.992 |
|
x17 |
.405b |
2.034 |
.072 |
.561 |
.803 |
|
x18 |
.302b |
1.192 |
.264 |
.369 |
.626 |
|
x19 |
-.327b |
-1.754 |
.113 |
-.505 |
.999 |
|
x20 |
-.132b |
-.623 |
.549 |
-.203 |
.988 |
|
x21 |
-.353b |
-1.632 |
.137 |
-.478 |
.769 |
|
2 |
x2 |
-.085c |
-.422 |
.684 |
-.148 |
.868 |
x3 |
-.038c |
-.197 |
.849 |
-.069 |
.941 |
|
x4 |
-.103c |
-.544 |
.601 |
-.189 |
.958 |
|
x5 |
-.026c |
-.119 |
.909 |
-.042 |
.749 |
|
x6 |
.006c |
.030 |
.976 |
.011 |
.996 |
|
x7 |
.059c |
.265 |
.798 |
.093 |
.710 |
|
x8 |
.238c |
1.383 |
.204 |
.439 |
.981 |
|
x9 |
-.094c |
-.473 |
.649 |
-.165 |
.877 |
|
x10 |
.225c |
1.252 |
.246 |
.405 |
.928 |
|
x11 |
.184c |
1.007 |
.344 |
.335 |
.955 |
|
x12 |
.016c |
.076 |
.941 |
.027 |
.836 |
|
x13 |
.080c |
.424 |
.683 |
.148 |
.976 |
|
x14 |
.067c |
.294 |
.776 |
.103 |
.693 |
|
x15 |
-.139c |
-.754 |
.473 |
-.257 |
.992 |
|
x18 |
.231c |
1.010 |
.342 |
.336 |
.608 |
|
x19 |
-.168c |
-.728 |
.487 |
-.249 |
.631 |
|
x20 |
.007c |
.032 |
.975 |
.011 |
.847 |
|
x21 |
-.230c |
-1.056 |
.322 |
-.350 |
.662 |
a. 因变量:x1 |
b. 模型中的预测变量:(常量), x16 |
c. 模型中的预测变量:(常量), x16, x17 |
残差统计a |
|||||
|
最小值 |
最大值 |
平均值 |
标准偏差 |
个案数 |
预测值 |
-13.3111 |
85.9252 |
12.2325 |
27.46184 |
12 |
残差 |
-31.99095 |
28.60478 |
.00000 |
17.42684 |
12 |
标准预测值 |
-.930 |
2.683 |
.000 |
1.000 |
12 |
标准残差 |
-1.660 |
1.485 |
.000 |
.905 |
12 |
a. 因变量:x1 |
最终得出: