原文链接:https://mp.weixin.qq.com/s/2xEinwxtrDUHzHWe3dkn7g
更多干货,请关注公众号《数据分析学堂》,助你毕业无忧!
案例一:面板数据分析
在计量经济学中做实证分析,面板数据是最常见的一种数据类型,针对面板数据进行分析,一般会选用固定效应或者随机效应模型,因此本案例就针对这两种模型进行一个探讨。该案例主要探讨外商直接投资对于当地贫富差距的影响。在做固定效应或随机效应之前,应该去检验是否存在个体异质性,而在检验完个体异质性之后,再应该去检验该个体异质性与变量的关系,去判断应该用固定效应或是随机效应。
步骤一:固定效应模型的回归
根据上表的末端的F检验结果,可以知道确实是存在个体异质性,再者就应该从固定效应或者随机效应中进行选择。
步骤二:随机效应模型的回归
步骤三:豪斯曼检验
H0:固定效应和随机效应的回归系数之间不存在系统性的差异
根据上述的检验结果可以发现p值为0.0012,在1%的显著性水平上拒绝了原假设,说明应该选取固定效应模型。
案例二:广义矩估计
广义矩估计是面板数据的广义矩估计是面板数据分析的另一大利器,广义矩估计可以在一定程度上缓解内生性问题,但是广义矩估计一般是用作动态面板数据回归的。广义矩估计又分为系统广义据估计和差分广义据估计。本案例主要主要基于上述案例进行进一步的分析,去研究外商直接投资对于收入差距的影响。
操作一:命令解读
上述为系统广义矩估计的命令,笔者以首行命令为例进行命令解读,xtabond2就是广义矩估计的操作命令,其后跟随的就是因变量,因变量的滞后一期以及所有自变量,gmm()括号里增加的是所有的内生性变量,其中的collapse命令主要是为了选取最合适的滞后阶数,iv()括号中填写的是外生变量或者是前定变量,twostep命令主要为了控制系数的标准误,采用两步估计法的标准误。
操作二:结果解读
进行广义据估计主要要考虑到两个检验,一个是残差项的序列相关检验以及工具变量过度识别的检验。因为我们采用了动态面板数据在解释变量中含有被解释变量的滞后一期,因此残差的一阶滞后是不可避免的,根据上图我们可以看到在最终结果中,在5%的显著性水平上,我们不能拒绝残差具有一阶序列相关。但是我们必须要控制住残差的二阶序列相关,因此我们根据检验结果,我们可以看到在10%的显著性水平上,我们仍然无法拒绝残差不存在二阶序列相关的情况即残差不存在二阶序列相关。再者,我们应该考虑到工具变量的过度识别结果,根据汉森检验的结果,我们可以看到工具变量不存在过度识别,因此根据上图最后一列的回归,结果我们可以看到模型的拟合效果较好。
案例三:var模型
在经典的计量回归中,除了面板数据之外,还有一种非常重要的数据形式就是时间序列,而时间序列中广为应用的模型之一就是var模型,本案例主要分析的就是非银金融机构对于中小企业筹资的影响。
操作一:检验变量的平稳性
首先根据上面三图对于三个变量的检验结果我们可以看到三个变量都不存在单位根情况,既都是平稳的时间序列数据,因此可以采用向量自回归模型进行拟合.
操作二:选择var模型的滞后阶数
根据上述的检验结果我们可以看到在AIC和QIC的结果下,应该选择4阶之后,但是在BIC的检验结果下,应该选择二阶之后,因此笔者为了采用更稳健的结果,采用4阶制后的结果进行模型拟合.
操作三:进行var模型回归
鉴于回归结果过长,笔者就不再截图进行解释,仅仅阐述下该回归的一个命令解读。进行var模型回归时选择的命令应该是var命令,stata对于该命令的官方解读如下图:
上图即是stata官方对于var模型所给出的命令格式,var后面加入所要分析的变量。具体情况这个读者可以help var 去阅读更加系统的命令操作方式。
操作四:模型检验
在进行var模型估计之后,还需要对回归的模型进行一系列的检验,例如模型稳定性检验,。主要用到的命令分别是varstable。检验结果如下所示:
根据上图的检验结果可以发现我们所拟合的var模型稳定性非常好。所有的模长都是小于1的。也就是最右边一列所有数字必须小于1才能说明该模型的稳定性比较好。
操作五:其他操作
对于已经检验的var模型还可以进行其他分析,例如进行格兰杰因果检验之类的,笔者仅仅以格兰杰因果检验为例进行说明,格兰杰因果检验主要是研究变量在统计意义上是否存在相关性,该检验只能说明统计意义上是否存在相关性,难以去论断在经济意义上是否存在相关性。但是也为我们的计量经济研究提供了非常好的一种判别方式。在进行格兰杰因果检验之后我们可以采用vargranger命令去进行格兰杰因果检验。
根据上述的检验结果我们可以看到变量之间确实是存在非常好的相关性,例如rfl是rsl的格兰杰因,即说明在统计意义上rfl对于rsl有影响。但是反过来rsl对于rfl并不存在影响,说明了这两个变量之间的影响是单项的。
案例四:logit模型回归
除了上述所用的面板数据进行估计以及时间序列数据进行估计之外,在经典的计量经济学中还会涉及到二分量变量的回归,估计主要的模型就是Logistic模型和probit模型。笔者在此以Logistic模型为例进行讲解,Logistic模型主要是适用于当被解释变量是0-1变量时的一种回归估计,在本文中笔者所采用的案例是研究上市公司是否存在会计舞弊的情况,影响上市公司出现会计舞弊行为的因素有哪些。
操作一:命令解读
Logistic 回归在stata中使用的命令是logit这一命令,他和probit模型的区别在于对于残差的假设不同,logit模型假设残差是具有逻辑斯蒂分布,而probit模型假设残差是正态分布。其命令的官方使用格式如图所示:
Logit 命令之后加入因变量以及自变量,同时可以在逗号后面加上选项。
操作二:结果解读
本文研究的是上市公司会计舞弊情况,笔者认为企业的财务状况会影响到上市公司是否进行会计舞弊,例如当其毛利率较高的情况下,进行会计舞弊的可能性就比较低,根据上图的回归结果显示首先,应收账款周转指数,其他应收款周转指数,营业收入增长指数,期间费用指数以及毛利润情况会影响到上市公司的会计舞弊行为。同时笔者特别提醒一点,在进行logistic模型的回归以及probit模型的回归的情况时,应该格外留意对于系数的解读,因为二分量变量的回归结果涉及到的是发生的概率,因此在进行系数解读时应该和相应的分布相结合,根据分布求得其概率。
https://mp.weixin.qq.com/s/2xEinwxtrDUHzHWe3dkn7g
更多干货,请关注公众号《数据分析学堂》,助你毕业无忧!