目录
一、竞赛赛题
二、问题(1)分析
三、问题(2)分析
四、多元线性回归分析(Stata)
1.多元自变量的选定
(1)乙醇转化率
(2)C4烯烃选择性
2.定量变量的描述性统计(Stata)
3.异方差检验
(1)散点图检验
(2)BP检验(怀特检验的特例)
(3)怀特检验(使用范围广,优先考虑)
4.多重共线性检验(方差膨胀因子:VIF)
5.向后逐步回归
(1)乙醇转化率
(2)C4烯烃选择性
CUMCM 2021-B:乙醇偶合制备C4烯烃(1)_Destiny坠明的博客-CSDN博客
CUMCM 2021-B:乙醇偶合制备C4烯烃(2)_Destiny坠明的博客-CSDN博客
由问题(1)拟合结果可知,乙醇转化率y与温度T呈Logistic阻滞增长关系,故需要将温度T做形式变换后加入到多元线性回归模型中。
根据问题(1)的阻滞增长模型的拟合结果,r的波动较小,均值为0.0265,其分布散点图如下:
y0在经过剔除离群值的处理之后,也稳定在一个区间内,均值为0.0386,其分布散点图如下:
将原式第二项分母中的y0与r用其均值近似代替,并引入β作为补偿系数,可知β≈1.1;再将系数全部移入第一项中,即第一项整体视为多元回归系数β'。
综上,乙醇转化率(Y1)的多元自变量(X)为:
X1 | 装料方式 |
---|---|
X2 | Co负载量 |
X3 | Co/SiO2 |
X4 | HAP |
X5 | Co/SiO2 和 HAP装料比 |
X6 | 乙醇浓度 |
X7 | 温度的指数形式(阻滞增长) |
X8 | 温度的二次形式 |
X9 | 温度 |
由问题(1)拟合结果可知,C4烯烃选择性y与温度T呈二次多项式关系,故需要将温度T做形式变换后加入到多元线性回归模型中。
综上,C4烯烃选择性(Y2)的多元自变量(X)为:
X1 | 装料方式 |
---|---|
X2 | Co负载量 |
X3 | Co/SiO2 |
X4 | HAP |
X5 | Co/SiO2 和 HAP装料比 |
X6 | 乙醇浓度 |
X7 | 温度的二次形式 |
X8 | 温度 |
// 导入数据
import excel "C:\Users\熊锐成\Desktop\XY.xlsx", sheet("XY") firstrow
装料方式 | M1 | M2 | Co负载量(wt%) | Co/SiO2(mg) | HAP(mg) | Co/SiO2和HAP装料比(mg:mg) | 乙醇浓度(ml/min) | 指数型温度 | 二次项温度 | 温度(℃) | 温度乘乙醇浓度 | 乙醇转化率(%) | C4烯烃选择性(%) |
A | 1 | 0 | 1 | 200 | 200 | 1 | 1.68 | 753.7042126 | 62500 | 250 | 420 | 2.07 | 34.05 |
A | 1 | 0 | 1 | 200 | 200 | 1 | 1.68 | 1461.911347 | 75625 | 275 | 462 | 5.85 | 37.43 |
A | 1 | 0 | 1 | 200 | 200 | 1 | 1.68 | 2835.57495 | 90000 | 300 | 504 | 14.97 | 46.94 |
// 定性变量的频数分布,并得到相应字母开头的虚拟变量
tabulate 装料方式 ,gen(M)
// 定量变量的描述性统计
summarize Co负载量wt CoSiO2mg HAPmg 乙醇浓度mlmin 温度 乙醇转化率 C4烯烃选择性
①残差-拟合值散点图(乙醇转化率)
// OLS回归(乙醇转化率)
regress 乙醇转化率 M1 Co负载量wt CoSiO2mg HAPmg CoSiO2和HAP装料比mgmg 乙醇浓度mlmin 指数型温度 二次项温度 温度
// 残差与拟合值的散点图
rvfplot
// 残差与自变量x的散点图
//rvpplot x
当拟合值处在不同的区间范围内,残差的变化程度差别较大,存在异方差现象。
②残差-拟合值散点图(C4烯烃选择性)
// OLS回归(C4烯烃选择性)
regress C4烯烃选择性 M1 Co负载量wt CoSiO2mg HAPmg CoSiO2和HAP装料比mgmg 乙醇浓度mlmin 二次项温度 温度
// 残差与拟合值的散点图
rvfplot
当拟合值处在不同的区间范围内,残差的变化程度差别较大,存在异方差现象。
①乙醇转化率
// OLS回归(乙醇转化率)
regress 乙醇转化率 M1 Co负载量wt CoSiO2mg HAPmg CoSiO2和HAP装料比mgmg 乙醇浓度mlmin 指数型温度 二次项温度 温度
// BP检验
estat hettest ,rhs iid
P值小于0.05,说明在95%的置信水平下拒绝原假设,即我们认为乙醇转化率的多元线性回归模型的扰动项存在异方差。
②C4烯烃选择性
// OLS回归(C4烯烃选择性)
regress C4烯烃选择性 M1 Co负载量wt CoSiO2mg HAPmg CoSiO2和HAP装料比mgmg 乙醇浓度mlmin 二次项温度 温度
// BP检验
estat hettest ,rhs iid
P值小于0.05,说明在95%的置信水平下拒绝原假设,即我们认为C4烯烃选择性的多元线性回归模型的扰动项存在异方差。
①乙醇转化率
// OLS回归(乙醇转化率)
regress 乙醇转化率 M1 Co负载量wt CoSiO2mg HAPmg CoSiO2和HAP装料比mgmg 乙醇浓度mlmin 指数型温度 二次项温度 温度
// 怀特检验
estat imtest,white
P值小于0.05,说明在95%的置信水平下拒绝原假设,即我们认为乙醇转化率的多元线性回归模型的扰动项存在异方差。
②C4烯烃选择性
// OLS回归(C4烯烃选择性)
regress C4烯烃选择性 M1 Co负载量wt CoSiO2mg HAPmg CoSiO2和HAP装料比mgmg 乙醇浓度mlmin 二次项温度 温度
// 怀特检验
estat imtest,white
P值小于0.05,说明在95%的置信水平下拒绝原假设,即我们认为C4烯烃选择性的多元线性回归模型的扰动项存在异方差。
由于原始数据的异方差扰动严重,我们使用OLS+稳健的标准误作为指标,以防止异方差影响假设检验的计算。
①乙醇转化率
// OLS回归(乙醇转化率)
regress 乙醇转化率 M1 Co负载量wt CoSiO2mg HAPmg CoSiO2和HAP装料比mgmg 乙醇浓度mlmin 指数型温度 二次项温度 温度
// VIF检验
estat vif
乙醇转化率的多元线性回归模型的平均VIF为200.93,远大于VIF最小经验值,故其存在多重共线性的问题。
②C4烯烃选择性
// OLS回归(C4烯烃选择性)
regress C4烯烃选择性 M1 Co负载量wt CoSiO2mg HAPmg CoSiO2和HAP装料比mgmg 乙醇浓度mlmin 二次项温度 温度
// VIF检验
estat vif
C4烯烃选择性的多元线性回归模型的平均VIF为116.68,远大于VIF最小经验值,故其存在多重共线性的问题。
此处我们将采用逐步回归的方法解决多重共线性的问题,以变量显著性为依据,不断筛选自变量,从而构建出最适的多元回归模型。
// 向后逐步回归(乙醇转化率)
stepwise regress 乙醇转化率 M1 Co负载量wt CoSiO2mg HAPmg CoSiO2和HAP装料比mgmg 乙醇浓度mlmin 指数型温度 二次项温度 温度 , r pr(0.05)
①设定显著性水平为0.05,使用OLS+稳健的标准误作为指标,向后逐步回归得到多变量回归结果:
②进一步引入乙醇浓度与温度的交叉项,设定显著性水平为0.05,使用OLS+稳健的标准误作为指标,再次向后逐步回归:
// 添加 温度-乙醇 交叉项
stepwise regress 乙醇转化率 M1 Co负载量wt CoSiO2mg HAPmg CoSiO2和HAP装料比mgmg 乙醇浓度mlmin 指数型温度 二次项温度 温度 温度乘乙醇浓度 , r pr(0.05)
加入乙醇浓度与温度的交叉项之后,拟合优度提高,显著因素增多,模型的泛化能力更强。
// 向后逐步回归(C4烯烃选择性)
stepwise regress C4烯烃选择性 M1 Co负载量wt CoSiO2mg HAPmg CoSiO2和HAP装料比mgmg 乙醇浓度mlmin 二次项温度 温度 , r pr(0.05)
设定显著性水平为0.05,使用OLS+稳健的标准误作为指标,向后逐步回归得到多变量回归结果: