多元非线性回归方程重要方法是转化为线性回归方程.转化时应首先选择适合的非线性回归形式,并将其线性化。对于实际问题,首先应对原始数据进行作图或通过观察,选择适当函数进行拟合。
已知1978~2006年全国GDP(y),第一产业x1、第二产业x2、工业生产总值x3、第三产业生产总值x4,请建立y对x1~x4的回归模型。
data ex; input y x1-x4@@; y1=log(y);z1=log(x1);z2=log(x2);z3=log(x3);z4=log(x4);/*对数据做变化,取对数后再做回归分析*/ cards; 16.8453 5.6092 7.4436 6.3735 3.7925 21.383 6.6329 10.0585 8.7584 4.6916 23.1716 6.5819 11.1424 9.6623 5.4473 25.7289 7.0974 12.3181 10.6641 6.3134 28.6247 7.7973 13.5101 11.288 7.3173 32.3103 9.1952 14.6343 12.0864 8.4808 36.4037 10.0688 16.1664 12.9822 10.1685 45.0774 12.0844 19.7301 15.5838 13.2629 51.4749 13.1395 22.252 17.4528 16.0834 63.4135 17.4543 27.5363 21.4193 21.1229 82.3484 19.4304 35.6294 28.8678 27.2886 92.7143 21.2031 39.3832 33.0194 32.128 101.4633 24.3772 40.5796 34.3378 36.5065 117.4178 24.1941 48.4759 41.0114 44.7478 147.5213 26.6151 62.6834 52.2893 58.2219 188.8958 30.1613 82.3853 67.8921 76.3492 253.0577 35.8777 111.324 91.4335 105.856 320.4072 45.578 137.4362 102.6372 137.393 397.5701 58.3757 167.9238 130.2389 171.2706 475.8691 68.732 197.5005 157.0486 209.6366 534.5969 70.7519 222.8439 174.1697 241.0011 580.036 71.3285 238.4684 187.0766 270.2391 656.4098 74.1104 268.3988 206.0297 313.9006 728.0774 78.3636 297.0933 217.9077 352.6205 812.8469 79.1826 328.0378 229.521 405.6265 929.4858 83.2886 393.6734 268.2806 452.5238 1133.8828 103.3327 504.571 341.5303 525.9791 1519.90 112.59 655.27 469.28 752.04 1790.66 123.25 774.66 584.41 892.75 ; proc reg;/*reg调用回归模块*/ model y1=z1 z2 z3 z4/cli;/*表示以z1 z2 z3 z4为自变量,y1为应变量建立回归模型,/cli表示要求预测区间。加入/selection=stepwise时,表示逐步回归 proc corr;var z1-z4;/*求相关系数矩阵*/ run;
由Analysis of Variance 表可知,其F Value=73270.5,Pr>F 的值小于0.0001,远小于0.05,故拒绝原假设,接受备择假设,认为y1与z1,z2,z3,z4之间具有显著的线性相关关系;由R-Square的值为0.9999可知该方程的拟合度很高,样本观察值有99.99%的信息可以用回归方程进行解释,故拟合效果较好。
由Parameter Estimates表可知,对自变量z3检验t值为t=-0.36,Pr>|t|的值等于0.7256,大于0.05,因此接受原假设H0:β3=0认为z3的系数应为0,说明z3的系数没有通过检验.为此,需要在程序model y=z1 z2 z3 z4中去掉z3.
再次运行得到结果
由Parameter Estimates表可知,对常数检验t值为t=14.79,Pr>|t|的值小于0.0001,远小于0.05,说明截距项通过检验.为此,估计值为0.96744.
对自变量z1检验t值为---------------.为此,估计值为-----.
对自变量z2检验t值为---------------为此,估计值为-----.
对自变量z4检验t值为---------------为此,估计值为-----.
以上结果表明所有变量的系数均通过检验,于是该线性模型即可得到。
(如果有多个系数没通过检验,可使用逐步回归方法,在y1=z1 z2 z3 z4后加/selection=stepwise 表示逐步回归,让软件自动保留通过检验的变量)
以上仅列出10个样本的拟合结果,其中Dep Var y1为因变量的原始值,Predicted Value为y的拟合值,95% CL Predict为拟合值95%的拟合区间,Residual为残差.例如,第一组原函数值为2.8241,拟合区间为[2.7457 ,2.8176],残差为0.0424.
综合以上分析,可以得到线性回归方程:
y1=0.09768z1+0.65586z2+0.24696z4+0.96744
又因为y1=ln(y),zi=(xi)(i=1,2,4),将方程还原可以得到y关于x1,x2,x4的函数式:
y=2.6312*x1^0.0977*x2^0.656*x4^0.247
其中y表示全国GDP总值,x1表示第一产业生产总值,x2表示第二产业生产总值,x4表示第三产业生产总值。
总结:首先用方差分析法检验因变量y与m个自变量之间的线性回归方程有无显著性;
其次对每个自变量的偏回归系数进行t检验,以剔除在方程中不起作用的自变量