经验法则:
(1)减弱数据的异方差性(2)如果变量本身不符合正态分布,取了对数后可能渐近服从正态分布(3)模型形式的需要,让模型具有经济学意义。
如果自变量中有定性变量,例如性别、地域等,在回归中要怎么处理呢?
此时就要用到虚拟变量
比如虚拟变量x,x=0表示为女性,x=1表示为男性.
此时需要选定参照对象,求出x的相关系数为b的时候,表明其他条件一定的情况下
平均女性比男性多b
记得把代码保存下来,可以放在论文中.
sum 团购价元 评价量 商品毛重kg
tab 奶源产地,gen(A)
reg y x1 x2 x3 ·····
reg 评价量 团购价元 商品毛重kg A1 A2 A3 A4 A5 A6 A7 A8 A9
Stata会自动检测数据的完全多重共线性问题。
然后进行数据透视
tabulate 配方,gen(A)
tabulate 奶源产地 ,gen(B)
tabulate 国产或进口 ,gen(C)
tabulate 适用年龄岁 ,gen(D)
tabulate 包装单位 ,gen(E)
tabulate 分类 ,gen(F)
tabulate 段位 ,gen(G)
regress 评价量 团购价元 商品毛重kg A1 A2 A3 B1 B2 B3 B4 B5 B6 B7 B8 B9 C1 C2 D1 D2 D3 D4 D5 E1 E2 E3 E4 F1 F2 G1 G2 G3 G4
est store m2
reg2docx m2 using m2.docx, replace//这个插件导出为docx文档
(1)回归分为解释型回归和预测型回归。预测型回归一般才会更看重。 解释型回归更多的关注模型整体显著性以及自变量的统计显著性和经济意义显著性即可。 (2)可以对模型进行调整,例如对数据取对数或者平方后再进行回归。 (3)数据中可能有存在异常值或者数据的分布极度不均匀。
我们采用的一般是调整后的R!
原因: 我们引入的自变量越多,拟合优度会变大。但我们倾向于使用调整后的拟合优度, 如果新引入的自变量对SSE的减少程度特别少,那么调整后的拟合优度反而会减小。
当还要考虑哪种变量影响的因素最大的时候,我们需要进行标准化处理.
标准化系数的绝对值越大,说明对因变量的影响就越大(只关注显著的回归系数)
regress y x1 x2 … xk,beta
stata软件破解版获取请关注公众号,发送"stata"即可
本文由博客一文多发平台 OpenWrite 发布!