【回归分析】[3]--回归方程的显著性检验
这篇文章准备使用一个例子来说明。
例子的数据:
data2 = {{391.95, 488.51}, {516.98, 798.30}, {355.63,
235.08}, {238.55, 299.45}, {537.78, 559.09}, {733.78,
1133.25}, {198.83, 348.74}, {252.62, 417.78}, {206.20,
344.52}, {231.18, 323.08}, {449.76, 620.75}, {288.57,
423.30}, {185.74, 202.61}, {1164.39, 1531.53}, {444.58,
553.48}, {412.87, 685.97}, {272.28, 324.24}, {781.80,
983.24}, {1209.22, 1762.02}, {825.51, 960.31}, {223.75,
284.61}, {354.84, 407.76}, {515.52, 982.66}, {220.46,
557.00}, {337.67, 440.92}, {197.12, 268.06}, {133.24,
262.05}, {374.01, 432.50}, {273.84, 338.36}, {570.36,
704.32}, {391.29, 585.68}, {201.86, 267.78}, {321.63,
408.34}, {838.90, 1165.57}};
这个是这次的要讲的内容顺序
1.B0,B1的性质(就不写公式了)
(a).无偏性
(b).x(i)越分散,就使方差越小
2.检验是否满足线性假定
(a).散点图--其实大多数时候我们凭我们的直观的感受就可以判断出,剩下的就是怎么说服自己。
(b).t--检验
lm = LinearModelFit[data2, x, x]
lm["ParameterTable"]
原假设 B0 = 0(或B1 = 0)
x的P-Value很小,故拒绝原假设,所有斜率不为0
当然原假设可以改变,比如改成H0: B1 = 1.33
Wif = data2[[All, 2]];
cc = lm["FitResiduals"];
(*先求出残差*)
cc2 = Total[cc^2]/(Length[cc] - 2);
Wp = N[Mean[Wif]];
cgm = Sqrt[cc2/(Total[(Wif - Wp)^2])];
cash = Abs[1.339 - 1.33]/cgm;
(*上面就是在套公式*)
Probability[-cash < x < cash,x \[Distributed] StudentTDistribution[94]]
我画出的地方才是关键
看一下这个符号怎么打出来
(c).F检验
F检验是根据平方和分解式,直接从回归效果检验回归方程的显著性
SST = SSR + SSE
总离差平方和 回归平方和 残差平方和
其中SSR是由回归方程确定的,也就是由自变量X的波动引起的
SSE是不能由自变量解释的波动,是有X外的未加控制的因素引起的
其中原假设:B1 = 0
lm["ANOVATable"]
可以看到,最后的P值很小,故拒绝原假设。
(d).相关系数
*******
其实最后判断还是需要我们来判断,这些数字只是给你一个方向。
*******
3.B0,B1的置信区间
其实有了t-检验就能求出置信区间,公式的话自己看下书吧。
Needs["LinearRegression`"];
Regress[data2, {1, x}, x, RegressionReport -> {ParameterCITable},ConfidenceLevel -> .95]
这个我那里会报错,但是仍然可以求出结果。
4.预测
lm[{"MeanPredictionConfidenceIntervalTable","SinglePredictionConfidenceIntervalTable"}]
我圈出来的是两种预测,均值和具体值
可以看到要预测具体值时区间较大
5.拟合效果的度量
前面讲到F检验的时候讲到回归平方和,由于我们要使残差平方和越小越好,所有要使SSR越大越好。
定义判定系数: r^2 = SSR / SSE
若r^2越接近1,表示因变量不确定性的绝大部分能由回归方程解释,回归方程的拟合优度越好。
若r^2越小,就要考虑修改,可以考虑增加新的自变量或者使用曲线回归
其实我觉得直接看图最清楚了
下面讲一下SPSS表格中值的含义
我觉得上面的表格上已经讲的很清楚了。
再讲一下如何用SPSS来求出预测的区间
直接在表格里输入要预测的值
还是之前的操作,但是先点击Save
把画圈的部分选中
得到上面的值,可以看到和mma求出的是一样的
看一下每个参数的意义
附:
相应变量:Y
预测变量:X
dependent value 因变量
independent value 自变量
以上,所有
2016/10/5