温馨提示:
本文共有9683字,阅读并理解全文需要半小时左右
书接上文,上文谈到内生性的解决之后,我们对回归问题的探究还没有完。
比如下面这个问题:
我们说线性回归他的表达式可以是广义的,可以含有二次项,可以含有对数项,那么含有对数项的模型中的β怎么解释他的具体意义呢?
弄清楚这个问题之前,我们首先要明白什么情况下我们会偏向于对自变量进行取对数的处理:
伍德里奇的《计量经济学导论,现代观点》里,第六章176-177页有详细的论述;
取对数意味着原被解释变量对解释变量的弹性,即百分比的变化而不是数值的变化;
目前,对于什么时候取对数还没有固定的规则,但是有一些经验法则:
取对数的好处:
以下是一些取对数情况的回归系数的解释:
一元线性回归: = + + ,x每增加1个单位,y平均变化b个单位:
半对数模型:=a+blnx+μ,x每增加1%,y平均变化b/100个单位:
半对数模型:=a+bx+μ,x每增加1个单位,y平均变化(100b)%:
对于多元回归模型,我们就加一句“在控制其他变量不变的情况下”,然后逐一的套用上面的话即可。
如果自变量中有定性变量,例如性别、地域等,在
回归中要怎么处理呢?
例如:我们要研究性别对于工资的影响(性别歧视)
方法就是将这个变量定义为一个虚拟变量,比如说定义female这个变量表示性别,然后取1表示女性,取0表示男性。
那么如何解释虚拟变量前面的那个回归系数呢?
方法如下图:
求y对female的期望之后,构造出这个回归变量,即可看出他的意义是:
在其他自变量给定的情况下,女性的平均工资与男性的平均工资的差异。
现有某电商平台846条关于婴幼儿奶粉的销售信息,每条信息由11个指
标组成。其中,评价量可以从一个侧面反映顾客对产品的关注度。
请对所给数据进行以下方面的分析,要求最终的分析将不仅仅有益于
商家,更有益于宝妈们为宝贝选择适合自己的奶粉。
新建一个do文件,在新建的文件中粘贴刚才的代码,然后保存到你常用的路径中即可:
下次直接打开该do文件点击运行即可。
那么回到正题,我们将数据导入之后做什么呢?
Stata提供了丰富的函数供我们对数据进行处理:
summarize 变量1 变量2 … 变量n
tabulate 变量名,gen(A)
返回对应的这个变量的频率分布表,并生成对应的虚拟变量(以A开头)
注:
如果加上后面的gen(A)是什么效果呢?
我们会发现统计描述部分并没有什么区别,但是再变量存储区部分,多了几个变量:
这些A1,A2等等就是刚刚产生的这些定性变量对应的虚拟变量。
我们可以浏览一下导入的数据来看到产生的变化:
点击下图所示的”数据浏览“按钮
进入到如下界面:
我们可以看到,除了我们的原始数据之外,又多了四列变量,分别是A1,A2,A3,A4。他们分别代表的是原先的定性变量”段位“的1段,2段,3段,4段。
何以见得?
比如下图:
这几个变量只在相应的段位后面显示1,其余都是0。代表了他们所显示的段位。结合我们讲过的虚拟变量的定义我们就能很清楚这个关系了。
regress y x1 x2 … xk
(默认使用的OLS:普通最小二乘估计法)
(regress也可以简写为reg)
【例】
代码:regress 评价量 团购价元 商品毛重kg
结果:
什么是预测型回归呢?就是你要建立一个模型比如:
y = β ^ 0 + β ^ 1 x 1 + β ^ 1 x 2 + … … + β ^ k x k \begin{align} y=\hat{\beta}_0+\hat{\beta}_1x_1+\hat{\beta}_1x_2+……+\hat{\beta}_kx_k \end{align} y=β^0+β^1x1+β^1x2+……+β^kxk
然后我们需要的是你通过模型去预测每一个y的具体值。这就是预测型回归,而解释型回归则是要求我们解释与每个自变量的关系,就像我们正在处理的这一题一样。
预测型回归更看重 R 2 R^2 R2,如果 R 2 R^2 R2太小,说明这个模型预测的y和实际的y相差很大。
而解释型回归更看中的是这个拟合模型中变量的显著性问题。
所以一般在论文中我们一般只用Adj R-squared就可以了。
后面的Root-MSE是均方误差,这个没有必要看。
对于下面这张表格:
由于我们的拟合模型是:
y = β ^ 0 + β ^ 1 x 1 + β ^ 1 x 2 \begin{align} y=\hat{\beta}_0+\hat{\beta}_1x_1+\hat{\beta}_1x_2 \end{align} y=β^0+β^1x1+β^1x2
Coef这一列就是回归系数。那么这个表格中的_cons表示的就是 β ^ 0 \hat{\beta}_0 β^0。
而 β ^ 1 \hat{\beta}_1 β^1表示的是团购价这个变量的回归系数,就是-35.39873这个值。而商品毛重的回归系数就是 β ^ 2 \hat{\beta}_2 β^2,就是2410.303了。第二列是回归系数对应的标准误差。这个标准误差的作用是构造第三列的t统计量的。t统计量就是回归系数除以标准误差构造出来的。具体为什么用t检验统计量,以及这个标准误差是怎么求的,我之后会单写一篇文章,这里不做说明。
这里我们只需要知道我们是用t检验统计量来检验回归系数的就可以了。而后面这一列是t统计量对应的P值。
这个值怎么看呢?现在我们有了回归系数,一般要对这个回归系数进行显著性检验:
原假设是H0:假定 β 1 \beta_1 β1等于0。(注意,此处我们假定的是 β 1 \beta_1 β1,而不是 β ^ 1 \hat{\beta}_1 β^1,因为 β ^ 1 \hat{\beta}_1 β^1是已知量,就是-35.39873,而 β 1 \beta_1 β1才是我们要通过 β ^ 1 \hat{\beta}_1 β^1去估计的量。所以假设的一定是未知量 β 1 \beta_1 β1)
然后构造出t这个统计量。发现P值是0.000,显然小于0.05,所以拒绝原假设,代表在95%置信水平下,该回归系数显著的异于0。
对于 β 2 \beta_2 β2来说,原假设也是假定其等于0,而 算出的P值为0.457,显著的大于0.05,所以我们无法拒绝原假设,也就是说 β 2 \beta_2 β2是等于0的。所以我们的 β ^ 2 \hat{\beta}_2 β^2即使等于2411.303这么大也无济于事,因为假设出来说明他不显著,分析他也没有多大的意义。这就是显著性分析带给我们的信息,即:把那些不显著的变量不予考虑。那么照这样的说法我们可以看出_cons这个变量无疑还是显著的。
最后这一列是置信区间,我们一般不太关注这里的数值。一般只用前面的回归系数即可。
那么上述这些都是对定量数据的回归分析,如何对定量数据作定性分析呢?
那么我们可以输入如下这段带有定性变量的代码:regress 评价量 配方
,但是发现无法运行,显示没有可用的变量:
这是因为“配方”是定性变量,他的变量都是文字类型,无法识别。所以就用到我们刚才讲的tabulate函数,将定性变量转化成虚拟变量。然后再用虚拟变量进行回归分析即可。
(小技巧:生成虚拟变量后,在变量窗口中按住Shift不放,可同时选中一列,然后再直接拖动到输入区域)
我们输入如下代码: regress 评价量 G1 G2 G3 G4
,然后可看到结果就出来了。
但是有一行提示:
note: G4 omitted because of collinearity
并且我们看到表中的G4这一项的回归系数是0,这是为什么呢?
因为定性变量这种多变量问题,会存在多重共线性问题,在回归的时候应该挑选变量数目n-1个变量进行回归分析,而不是把n个全部拿来分析。所以势必有一个变量就变成了供其他变量进行对照的变量。在这里,Stata随机选择了G4作为其他变量的对照变量进行回归分析。也就是Stata会自动检测数据的完全多重共线性问题并帮我们解决。
那么这个表中的数据应该怎么看呢?
其实很简单,每一个变量的回归系数已经不是绝对的数值了,而是相对于G4的0来比较的。比如:G1的 -7595.045 其实是G1-G4的值,除了这个值的来源有变化,其他都和上面所讲的是一样的。
接下来我们就将所有的变量放入回归分析中:
regress 团购价元 评价量 商品毛重kg A1 A2 A3 B1 B2 B3 B4 B5 B6 B7 B8 B9 C1 C2 D1 D2 D3 D4 D5
> E1 E2 E3 E4 F1 F2 G1 G2 G3 G4
首先看上半部分是对回归模型整体的分析,上半部分的右边那张表是对回归模型进行显著性检验。
我们看到F统计量的P值是0.0000,明显小于0.05。所以说明该统计模型是有意义的。
接下来关注回归系数,可以先找一下下面那张表中有哪些回归系数是显著的。
我们可以发现如下图框起来的这两个变量对应的回归系数的P值较小,团购价这一项的P值小于0.05,那么他是在95%的置信水平之下是显著的,而F1这一项要求放宽一点,因为他比0.05稍大一点,基本上满足在90%的置信水平之下是显著的。
那么接下来对这些显著的变量进行解释,不显著的变量就不用解释了。
比如“团购价”代表:在其他变量不变的情况下,当团购价每增加一元,会导致评价量平均减少29.77274条。
比如F1代表:由于F1是“分类”里面的“牛奶粉
“的虚拟变量,并且F2是那个因多重共线性忽略的基准变量,是0。所以F1代表在其他变量不变的情况下,分类为牛奶粉的评价量要比分类为羊奶粉的评价量多14894.55条。
这就是我们这一道题的第一问。
关于第一问还有一些问题要讨论:
我们如何把这些生成的回归参数的表格放入论文中呢?如果直接放的话可以放在附录里边,因为比较冗长。但是实际上这个表格中很多信息我们是不需要的。此时就可以用Stata自带的一种函数生成另一个表格:
由于这个功能其实是一个插件,所以使用之前需要先安装。
所以先运行以下这行代码安装这个功能:
ssc install reg2docx, all replace
如果出现这样的报错:
cannot write in directory C:\Users\����\ado
用下面的方式可以解决,亲测有效:1.找到你安装的软件的文件夹,里面有ado、docs等文件夹。
2.检查ado文件夹里面有没有puls子文件夹,没有的话建立一个。
3.打开stata,创建一个do文档,输入下面的命令。
sysdir set PLUS " plus文件夹的路径 " // 外部命令的存放位置 并将该do文档保存到安装软件的文件夹里面(与ado、docs等文件夹并列),命名为profile.do
4.创新打开stata,下载命令。
安装好之后运行如下代码:
//下面这一行就是回归的语句,如果之前运行过,此处可以不重复运行
regress 评价量 团购价元 商品毛重kg A1 A2 A3 B1 B2 B3 B4 B5 B6 B7 B8 B9 C1 C2 D1 D2 D3 D4 D5 E1 E2 E3 E4 F1 F2 G1 G2 G3 G4
//下面这行语句是把上面回归产生的结果保存到名为m2的文件中
est store m2
//下面这行语句是把m2文件中的内容用我们刚刚安装的那个插件reg2docx 来重新处理生成一张我们想要的表格
reg2docx m2 using m2.docx, replace
代码运行完之后如图所示:
我们点击红色框中部分打开生成的表格:
打开后全选,先点击宋体,然后点击”New Time Romans“,这样就可以把所有的汉字变为宋体,所有的英文变为New Time Romans,然后我们在表格的结尾加这么一句话:*** p<0.01 ** p<0.05 * p<0.1
来有效的展现出显著性水平的区分。
这张表比刚才那张表要简洁许多,我们可以直接放在附录中。
OK,到此为止我们开始讨论第二问:
看题目要求就是要确定这些变量之间谁最重要。那就需要运用到另一种回归:就是标准化回归。
什么是标准化回归?
简单来说就是去量纲后的回归(因为你要比较不同变量之间的显著性的大小,那么带着量纲怎么比,所以先把量纲去掉,然后再比较)
官话:为了更为精准的研究影响评价量的重要因素(去除量纲的影响),我们可考虑使用标准化回归系数。
那么如何进行标准化回归呢?
对数据进行标准化,就是将原始数据减去它的均数后,再除以该变量的标准差,计算得到新的变量值,新变量构成的回归方程称为标准化回归方程,回归后相应可得到标准化回归系数。 标准化系数的绝对值越大,说明对因变量的影响就越大(只关注显著的回归系数哦,不显著的我们没必要进行比较)
那如何在Stata中实现标准化回归呢?
Stata标准化回归命令
regress y x1 x2 … xk,beta
(1)为什么常数项没有标准化回归系数?
常数的均值是其本身,其标准差是0,求不出来标准化的数。
(2)为啥和之前的回归结果完全相同,除了多了最后那一列标准化回归系数?
对数据进行标准化处理不会影响回归系数的标准误,也不会影响显著性.
那么我们在原来的回归代码基础上演示一遍标准化回归:
写入代码:
regress 评价量 团购价元 商品毛重kg A1 A2 A3 B1 B2 B3 B4 B5 B6 B7 B8 B9 C1 C2 D1 D2 D3 D4 D5 E1 E2 E3 E4 F1 F2 G1 G2 G3 G4,beta
得到如下的表格:
可以发现后边多了一行Beta值,其余的和之前的表格没有任何差别。
我们只需要看显著的自变量即可(此处只有两个变量是显著的,就是“团购价格”和“F1”)
团购价格对应的Beta系数的绝对值是0.15,而F1对应的Beta的绝对值是0.06。
因为0.06<0.15,所以可以看出“团购价”是影响更显著的那个变量。
最终全部代码如下:
// 按键盘上的PageUp可以使用上一次输入的代码(Matleb中是上箭头)
// 清除所有变量
clear
// 清屏 和 matlab的clc类似
cls
// 导入数据(其实是我们直接在界面上粘贴过来的,我们用鼠标点界面导入更方便 本条请删除后再复制到论文中,如果评委老师看到了就知道这不是你写的了)
// import excel "C:\Users\hc_lzp\Desktop\数学建模\第7讲.多元回归分析\代码和例题数据\课堂中讲解的奶粉数据.xlsx", sheet("Sheet1") firstrow
import excel "课堂中讲解的奶粉数据.xlsx", sheet("Sheet1") firstrow
// 定量变量的描述性统计
summarize 团购价元 评价量 商品毛重kg
// 定性变量的频数分布,并得到相应字母开头的虚拟变量
tabulate 配方,gen(A)
tabulate 奶源产地 ,gen(B)
tabulate 国产或进口 ,gen(C)
tabulate 适用年龄岁 ,gen(D)
tabulate 包装单位 ,gen(E)
tabulate 分类 ,gen(F)
tabulate 段位 ,gen(G)
// 下面进行回归
regress 评价量 团购价元 商品毛重kg
// 下面的语句可帮助我们把回归结果保存在Word文档中
// 在使用之前需要运行下面这个代码来安装下这个功能包(运行一次之后就可以注释掉了)
// ssc install reg2docx, all replace
// 如果安装出现connection timed out的错误,可以尝试换成手机热点联网,如果手机热点也不能下载,就不用这个命令吧,可以自己做一个回归结果表,如果觉得麻烦就直接把回归结果截图。
est store m1
reg2docx m1 using m1.docx, replace
// *** p<0.01 ** p<0.05 * p<0.1
// Stata会自动剔除多重共线性的变量
regress 评价量 团购价元 商品毛重kg A1 A2 A3 B1 B2 B3 B4 B5 B6 B7 B8 B9 C1 C2 D1 D2 D3 D4 D5 E1 E2 E3 E4 F1 F2 G1 G2 G3 G4
est store m2
reg2docx m2 using m2.docx, replace
// 得到标准化回归系数
regress 评价量 团购价元 商品毛重kg, b
// 画出残差图
regress 评价量 团购价元 商品毛重kg A1 A2 A3 B1 B2 B3 B4 B5 B6 B7 B8 B9 C1 C2 D1 D2 D3 D4 D5 E1 E2 E3 E4 F1 F2 G1 G2 G3 G4
rvfplot
// 残差与拟合值的散点图
graph export a1.png ,replace
// 残差与自变量团购价的散点图
rvpplot 团购价元
graph export a2.png ,replace
// 为什么评价量的拟合值会出现负数?
// 描述性统计并给出分位数对应的数值
summarize 评价量,d
// 作评价量的概率密度估计图
kdensity 评价量
graph export a3.png ,replace
// 异方差BP检验
estat hettest ,rhs iid
// 异方差怀特检验
estat imtest,white
// 使用OLS + 稳健的标准误
regress 评价量 团购价元 商品毛重kg A1 A2 A3 B1 B2 B3 B4 B5 B6 B7 B8 B9 C1 C2 D1 D2 D3 D4 D5 E1 E2 E3 E4 F1 F2 G1 G2 G3 G4, r
est store m3
reg2docx m3 using m3.docx, replace
// 计算VIF
estat vif
// 逐步回归(一定要注意完全多重共线性的影响)
// 向前逐步回归(后面的r表示稳健的标准误)
stepwise reg 评价量 团购价元 商品毛重kg A1 A3 B1 B2 B3 B4 B5 B6 B7 B9 C1 D1 D2 D3 D4 E1 E2 E3 F1 G1 G2 G3, r pe(0.05)
// 向后逐步回归(后面的r表示稳健的标准误)
stepwise reg 评价量 团购价元 商品毛重kg A1 A3 B1 B2 B3 B4 B5 B6 B7 B9 C1 D1 D2 D3 D4 E1 E2 E3 F1 G1 G2 G3, r pr(0.05)
// 向后逐步回归的同时使用标准化回归系数(在r后面跟上一个b即可)
stepwise reg 评价量 团购价元 商品毛重kg A1 A3 B1 B2 B3 B4 B5 B6 B7 B9 C1 D1 D2 D3 D4 E1 E2 E3 F1 G1 G2 G3, r b pr(0.05)
// 补充语法 (大家不需要具体的去学Stata软件,掌握我课堂上教给大家的一些命令应对数学建模比赛就可以啦)
// 事实上大家学好Excel,学好后应对90%的数据预处理问题都能解决
// (1) 用已知变量生成新的变量
generate lny = log(评价量)
generate price_square = 团购价元 ^2
generate interaction_term = 团购价元*商品毛重kg
// (2) 修改变量名称,因为用中文命名变量名称有时候可能容易出现未知Bug
rename 团购价元 price
// 注意:代码文件仅供参考,一定不要直接用于自己的数模论文中
// 国赛对于论文的查重要求非常严格,代码雷同也算作抄袭
在运行以下几步时又延伸出一个问题:
// 定量变量的描述性统计
summarize 团购价元 评价量 商品毛重kg
// 定性变量的频数分布,并得到相应字母开头的虚拟变量
tabulate 配方,gen(A)
tabulate 奶源产地 ,gen(B)
tabulate 国产或进口 ,gen(C)
tabulate 适用年龄岁 ,gen(D)
tabulate 包装单位 ,gen(E)
tabulate 分类 ,gen(F)
tabulate 段位 ,gen(G)
运行完这段之后我们就把需要分析的所有定性变量,定量变量都描述分析完了,并且生成了对应的虚拟变量。
如何把这些数据放入论文中呢?如果把他们都复制到论文中,显得太过冗余(因为真的很多),一种办法是放在附录中,还有一种办法是用Excel进行画图,用这种简练的方式把所有的数据呈现出来,既美观又显得丰富。
这个我会在另一篇文章里介绍怎么用Excel画数据透视图。
【番外】利用Excel表格绘制数据透视图
这一期就到这里啦!!!
下一期再演示一个例题!!!