在学术问题研究中,我们在考察因果关系时,经常会遇到因果关系考察中的内生性问题。一般而言,内生性问题主要来源于以下几个方面:(1)反向因果关系,即自变量影响因变量,因变量反过来也影响自变量,从而导致内生性。(2) 测量误差;(3)遗漏变量,遗漏的该变量与自变量相关并进入误差项,从而导致自变量与误差项相关,出现内生性问题;(4)样本自选择。然而,实证研究中所产生的内生性问题,容易导致的后果是所研究结论有偏且不一致性,使得所得结论不具有稳健性。在实证研究中,我们将有多种解决方面予以处理和解决内生性问题。
Heckman二阶段分析模型的操作方法解决“样本自选择”导致的内生性问题。样本选择偏差既可能是由非随机抽样所导致的,也可能是由自选择问题所导致的。
Heckman两步法解读为:
第一阶段,建立Probit选择模型。用以估计存在选择偏差变量发生的可能性,并计算逆米尔斯比率(Inverse Mills Ratio,简称IMR)。IMR的作用是为每一个样本计算出一个用于修正样本选择偏差的值。如果IMR大于0,表明样本存在选择性偏差,此时采用Heckman两步法选择模型估计是恰当的修正。
第二阶段,利用选择性样本观测值,将第一阶段估计的IMR与其他变量一起放入第二阶段的回归模型中。自选择问题已经通过第一阶段的选择模型得以修正,并在第二阶段由IMR反映出来。
1、是否需要工具变量呢?虽然有人在运用该方法时,在第一步没有选择排他性变量,但一般模型的运用是需要一个工具变量问题。因为在前面我们也讲过,如果不加入会存在共线性问题,估计也存在偏误。
2、怎么去选取第一阶段检验中合适的工具变量呢?在引入工具变量之前,文章中需要清晰交代工具变量具备的外生属性要求,并阐述工具变量与自变量之间的逻辑关系(预期相关性),为此在工具变量的选择过程中我们需要系统性思维,以契合本文的研究需要。在工具变量选取方法方面,最好以现有文献为主,譬如之前文献常用某变量的行业或者区域均值作为工具变量。最令人信服的表达方式是,在文章选择工具变量的时候,很有必要交代一下选取工具变量的基本逻辑或者所借鉴文献资料。
3、被第二阶段控制的逆米尔斯比率(IMR)如何通过显著性检验,这是什么意思?我们该如何表述这种统计结论的基本含义?言外之意,我们有必要阐述其中的统计涵义。在第二阶段分析中,IMR作为一个控制变量予以控制,如果选择偏误调整项IMR系数通过显著性检验,这意味着本模型存在一定的样本自选择问题,这表明本文在考察变量之间因果关系时有必要考虑样本自选择问题,这将进一步提升文章研究结论的稳健性。
4、Heckman二阶段模型对变量的统计分布有什么特有的要求,尤其是因变量?毕竟自变量一定得是虚拟变量(0-1)。需要注意的是,本疑问主要特指方法一的运用。在方法一中的Heckman直接命令代码的运用具有明显的局限性,这里的因变量一般要求为“连续性变量”,而当因变量为哑变量(0-1)或其他非连续性变量时,上述方法一的直接运用将存在明显的统计偏误。为此,当在实证研究过程中,遇到因变量为非连续性变量时,方法一不再适用,可借鉴方法二,将Heckman二阶段分析进行拆分。
5、在第二阶段中,新增加的控制变量逆米尔斯比率(IMR)是否与其他变量存在多重共线性问题呢?为此,需要注意的是,在第二阶段中,将IMR放入第二阶段可能会造成多重共线问题,因此需要在回归结果中报告VIFs(Variance Inflaction Factors)。通常认为VIFs值超过10,即存在多重共线问题(需要说明的是,一般不需要直接披露相关结果,只需要做一个简单的参考,做到自己心中有数就可以了)。
6、第一阶段的统计结果需要披露吗?通过阅读现有文献可知,很多文献都基本披露了第一阶段(尤其工具变量检验结果)的分析结果,但是也同时发现也有不少文献并没有披露第一阶段的实证分析结果。但笔者建议,为了提高本文实证研究的严谨性,在正规的实证分析中有必要明确报告第一阶段模型使用了哪些变量,以便清楚地识别排除性约束变量。第二阶段的回归模型中,除排除性约束变量外,需加入第一阶段模型的所有控制变量。
*heckman two-step all-in-one 不可以进行cluster调整
heckman wage educ age, select(married children educ age) twostep
est store Heck2s
*heckman two-step step-by-step 可以进行cluster调整
probit work married children educ age
est store First
predict y_hat, xb
gen pdf = normalden(y_hat) //概率密度函数
gen cdf = normal(y_hat) //累积分布函数
gen imr = pdf/cdf //计算逆米尔斯比率
reg wage educ age imr if work == 1 //女性工作子样本
est store Second
vif //方差膨胀因子
虽然有人在运用该方法时,一般模型的运用是需要一个工具变量问题,如果不加入会存在共线性问题,估计也存在偏误。
工具变量的选择需要很多的思考。我看到之前有很多人用变量密度或者区域经济变量均值作为工具变量。在选择工具变量的时候,我们需要解释一下为何选择要有具有的支撑。
在第一阶段中,因变量为0-1哑变量,所以第一阶段一般都是运用Probit分析模型。此外,在第二阶段分析中,当引入IMR予以控制后,选择偏误调整项IMR系数如果通过显著性检验,这表明虚拟变量选择的内生性偏误一定程度是存在的,这表明采取文章分析样本自选择问题是必要的,这将进一步提升文章研究结论的稳健性。
将IMR放入第二阶段可能会造成多重共线问题,因此需要在回归结果中报告VIFs(Variance Inflaction Factors)。通常认为VIFs值超过10,即存在多重共线问题。
需要注意的是,方法一中Heckman直接命令代码的运用具有明显的局限性,这里的因变量一般要求为“连续性变量”,而当因变量为哑变量(0-1)或其他非连续性变量时,上述方法一的直接运用将存在明显的统计偏误。为此,当在实证研究过程中,遇到因变量为非连续性变量时,方法一不再适用,可借鉴方法二,将Heckman二阶段分析进行拆分。
在使用过程中,可以综合借鉴和学习如下这三篇文章。
Lennox C S, Francis J R, Wang Z. Selection models in accounting research[J]. The accounting review, 2012, 87(2): 589-616.
Kim C, Zhang L. Corporate political connections and tax aggressiveness[J]. Contemporary Accounting Research, 2016, 33(1): 78-114.
李小荣, 刘行. CEO vs CFO: 性别与股价崩盘风险[J]. 世界经济, 2012, 12: 102-129.