import excel "D:\my_document\数学建模\清风\清风代码\第7讲.多元回归分析\第7讲.多元回归分析\代码和例题数据\课堂中讲解的奶粉数据.x
lsx", sheet("Sheet1") firstrow
cls clear
summarize
有数字
tabulate 变量名,gen(A)
regress y x1 x2 … xk
回归只引入定量
Model:SSR 回归评分和
Residual:SSE 误差平方和
Total:SST
拟合优度:
R 2 R^2 R2=SSR/SST
df:自由度
1.number of obs:观测值的个数n
2.F(2,843
)代表联合显著性检验,15.06为检验值,检验值值为F统计量构造出来,F统计量第一个自由度为2,第二个自由度为
843。
即为这两个自由度:
其对应的p值为0.00。
看清一个假设一定要知道三个东西:
1.构造出来的统计量为什么统计量,(比如这位F统计量)
2.看统计量对应的p值。
3. H 0 H_0 H0:联合显著性检验, β 1 = β 2 = ⋯ = β k = 0 \beta_1=\beta_2=\cdots=\beta_k=0 β1=β2=⋯=βk=0,
检验k个自变量前面的回归系数是否都为0,(看p值是否大于0.05),
如果p值大于0.05,则下结论,则我们回归不能拒绝原假设,则认为回归无多大的意义。(即回归自变量系数都为0),即模型设定不合理。
联合显著性通过,即p值是否小于等于0.05,我们拒绝原假设,我们认为回归模型有一定意义。
显著性水平是一个事先指定的概率阈值,通常表示为α。常见的显著性水平包括0.05(5%)和0.01(1%),这意味着 只有当样本数据产生的结果具有非常低的概率(低于0.05或0.01)时,才会认为结果是显著的。如果计算出的P值小于显著性水平α,则认为结果是显著的,拒绝原假设**;如果P值大于α,则认为结果是不显著的,没有足够的证据来拒绝原假设。
R 2 R^2 R2和调整后 R 2 R^2 R2
在论文中我们需要加入调整后 R 2 R^2 R2而不是 R 2 R^2 R2,
加入这句话:
Root MSE:均方误差。
cons:第一列代表常数项, β 0 , β 1 , ⋯ \beta_0,\beta_1,\cdots β0,β1,⋯
β 0 ^ \hat{\beta_0} β0^为26255.38, β 1 ^ \hat{\beta_1} β1^为2410.303(代表商品毛重的系数)。
β 1 ^ x + β 2 ^ x + β 3 ^ x + ⋯ \hat{\beta_1}x+\hat{\beta_2}x+\hat{\beta_3}x+\cdots β1^x+β2^x+β3^x+⋯
std.err:第二列代表回归系数对应的标准误差,(标准误用于计算t值)。
− 35 6 ≈ − 5 \frac{-35}{6}\approx-5 6−35≈−5
t检验统计量即为回归误除以标准
P值:t检验对应的p值
检验 β 1 \beta_1 β1是否等于0,
因为商品毛重p值大于0.05,所以不用分析它,因为它不显著,
wom只分析回归中显著的量。
cons第一列是点估计,上图为区间估计。
只有关注第一列和p值。
tabulate 配方,gen(A)
tabulate 奶源产地 ,gen(B)
tabulate 国产或进口 ,gen(C)
tabulate 适用年龄岁 ,gen(D)
tabulate 包装单位 ,gen(E)
tabulate 分类 ,gen(F)
tabulate 段位 ,gen(G)
为了避免完全多重共线性的影响,引入虚拟变量的个数一般是分类数减1。
在百分之九十的置信水平下,有两个自变量对应回归系数是显著的。
(评价量为因变量)。
第一个是团购价元,-29.77274代表在其他条件不变的情况下,团购价格每增加一元,评价量平均减小==-29.77274==。
F1
在其他条件不变的情况下,分类为牛奶粉比分类为羊奶粉的评价量高出14894.55。
括号里面为t检验值
*** p<0.01 ** p<0.05 * p<0.1
Stata会自动检测数据的完全多重共线性问题。
拟合的效果越好
拟合优度低的原因:
运行结果显示:
绝对值系数进行比较,0.15>0.06,所有团购价才是影响评价量最重要的因素。
对数据进行标准化处理不会影响回归系数的标准误,也不会影响显著性.
常数的均值是其本身,经过标准化后变成了0.
解决异方差:
rvfplot
横坐标为拟合值,纵坐标为残差的图。
rvpplot
残差和自变量的图
保存图片:
graph export a1.png ,replace
kdensity 评价量
、
###方差膨胀因子
estat vif
不能轻易删除多重共线性,因为可能受到内生性的影响
x1 x2 …xk之间不能有完全多重共线性(和regress不同哦)
stepwise reg评价量团购价元商品毛重xg A1 A3 B1 B2 B3 B4 B5 B6 B7 B9 c1 D1 D2 D3 D4 E1E2 B3 F1 G1 G2 G3, r pe(0.05)
pe
是向前逐步回归.
有共线性我们考虑剔除因子。
我们使用稳健标注误
看哪一个变量对乙醇转化率最大,使用标注化回归
代码: