Selection Ratio:帮你解决头疼的遗漏变量偏误

原文链接: https://www.lianxh.cn/news/520d9c77b7b43.html

连享会   推文 || 视频
扫码查看最新推文和分享

Selection Ratio:帮你解决头疼的遗漏变量偏误_第1张图片

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。


作者: 郭楚玉 (武汉大学)
邮箱: [email protected]


目录

  1. 理论背景
  2. Selection ratio 的基本原理
  3. Selection ratio 计算步骤
  4. Stata 实操
  5. 拓展阅读
  6. 参考文献

编者按:本文部分内容来自于江艇老师在「连享会-2020暑期论文班」上的讲义,特此致谢!

温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」

0. 理论背景

核心解释变量的内生性问题似乎是实证经济学家在追寻因果关系道路上避不开的拦路石。因为经济学研究中使用的数据绝大部分都不是通过实验条件生成的随机试验结果,选择性偏误(selection bias)是经济学家们经常过招的头号顽固敌人。选择性偏误泛指任何处理组和控制组之间的系统性区别(systematic difference)。举个例子:在研究私立学校 vs.公立学校的教育回报率问题上。对全样本直接做工资对是否上私立学校的回归,相当于直接比较私立学校学生和公立学校学生,这两组学生的组间平均工资的差异。然而,这个差值并不是准确的私立学校的教育回报率。因为私立学校学生和公立学校学生之间除了所上学校不同之外(我们关注的差别),还有很多系统性差别。比如私立学校学生,总体上平均总成绩更好,其父母收入更高,能力更综合优秀等。这些变量都是选择性变量,造成了两组人之间明显的选择性区别。

很多同学可能都知道此时应该把这些造成选择性偏误的变量控制起来!但是现实中因为数据集的限制,可能有些重要的可观测变量与核心解释变量非常相关,但我们没有数据。或者当你在回归的过程中,不断加入新的控制变量时,核心变量的系数随着新控制变量的加入而不断的减小或波动,此时你很可能会担忧,在没有数据限制下,还有更多的额外控制变量可供我们选择加入的话,我所探究和关心的因果关系是否还存在呢?此外,我们能控制的都是可观测变量 (selection on observed variables),那不可观测变量的选择性 (selection on unobserved varaibles) 如何排除呢?

Selection ratio 指标可以帮助我们来判别不可观测变量选择性偏误的强度!这背后的原理是系数估计稳定性理论。系数估计稳定性理论讲的是在控制了关键控制变量之后,新加入的控制变量与核心解释变量的残余相关性比较小,从而使得系数估计比较稳定。倘若研究中还存在遗漏的(不可观测的、没办法控制的)选择性变量的话,我们有理由相信,这些遗漏的选择性变量和核心解释变量之间的残余相关性也会比较小。所以即使不控制也不会影响我的系数估计。这样的推断有一个逻辑上的跳跃,这其实是一种间接检验的思想。即,系数估计稳定性理论的本质是用可观测变量的选择性去推断不可观测变量的选择性。即控制了关键控制变量以后,额外的可观测控制变量还能纠正系数估计的程度,去推断遗漏变量还能抵消掉的因果效果的程度。

1. Selection ratio 的基本原理

Selectio ratio 最初是由 Altonji, Elder & Taber (2005) 三人提出的。他们在这篇文章中构造了这个不可观测变量的选择性偏误强度的测量指标。具体构造过程如下:

Y = β D + W ′ Γ = β D + X ′ Γ X + ξ = β D + X ′ γ + ε ( 1 ) \begin{aligned} Y =& \beta D+W^{\prime} \Gamma \\ =& \beta D+X^{\prime} \Gamma_{X}+\xi \\ =& \beta D+X^{\prime} \gamma+\varepsilon (1) \end{aligned} Y===βD+WΓβD+XΓX+ξβD+Xγ+ε(1)

D D D 为核心解释变量, W W W 包含了除 D D D 之外所有会影响 Y Y Y 的变量。(1)式的第二行,将 W W W 分成可观测的部分 X X X 和不可观测的 ξ \xi ξ。第三行,将 X X X ξ \xi ξ 的相关性包含在 γ \gamma γ 中,使得 cov ⁡ ( X , ε ) = 0 \operatorname{cov}(X, \varepsilon)=0 cov(X,ε)=0。此时, γ \gamma γ 既包含了 X X X Y Y Y 的直接效应 Γ X \Gamma_{X} ΓX,也包含了 X X X ξ \xi ξ 之间的相关性。

  • 标准化后基于不可观测变量的选择性:

S U ≡ E ( ε ∣ D = 1 ) − E ( ε ∣ D = 0 ) Var ⁡ ( ε ) ( 2 ) S U \equiv \frac{\mathbb{E}(\varepsilon\mid D=1)-\mathbb{E}(\varepsilon \mid D=0)}{\operatorname{Var}(\varepsilon)} \quad (2) SUVar(ε)E(εD=1)E(εD=0)(2)

  • 标准化后基于可观测变量的选择性:

S O ≡ E ( X ′ γ ∣ D = 1 ) − E ( X ′ γ ∣ D = 0 ) Var ⁡ ( X ′ γ ) ( 3 ) S O \equiv \frac{\mathbb{E}\left(\mathbf{X}^{\prime} \gamma \mid D=1\right)-\mathbb{E}\left(\mathbf{X}^{\prime} \gamma \mid D=0\right)}{\operatorname{Var}\left(\mathbf{X}^{\prime} \gamma\right)} \quad (3) SOVar(Xγ)E(XγD=1)E(XγD=0)(3)

(2) 和 (3)式的分子部分都表达了不可观测变量或可观测变量会引起处理组和控制组间的不平衡的思想。因为 ϵ \epsilon ϵ 是不可知的,所以无法求出 S U SU SU 的具体数值。基于前面理论背景的介绍,我们可以在假设 S U = S O SU=SO SU=SO 下,求 OLS 估计的偏误。具体推导过程如下:

  • 先用 D 对 X 回归:

D = X ′ Π + D ~ ( 4 ) D=\mathbf{X}^{\prime} \boldsymbol{\Pi}+\tilde{D} \quad (4) D=XΠ+D~(4)

  • 将 D 代入(1)式中

Y = β D ~ + X ′ ( γ + β Π ) + ε ( 5 ) Y=\beta \tilde{D}+\mathbf{X}^{\prime}(\gamma+\beta \boldsymbol{\Pi})+\varepsilon \quad (5) Y=βD~+X(γ+βΠ)+ε(5)

因为 D ~ \tilde{D} D~ X X X 不相关,省略(5)式的第二项不影响 D ~ \tilde{D} D~ 的 OLS 估计。

β ^ O L S → p β + Cov ⁡ ( D ~ , ε ) Var ⁡ ( D ~ ) = β + Cov ⁡ ( D , ε ) Var ⁡ ( D ~ ) = β + Var ⁡ ( D ) Var ⁡ ( D ~ ) ⋅ Cov ⁡ ( D , ε ) Var ⁡ ( D ) = β + Var ⁡ ( D ) Var ⁡ ( D ~ ) [ E ( ε ∣ D = 1 ) − E ( ε ∣ D = 0 ) ] ( 6 ) \begin{aligned} \hat{\beta}^{O L S} \rightarrow_{p} & \beta+\frac{\operatorname{Cov}(\tilde{D}, \varepsilon)}{\operatorname{Var}(\tilde{D})} \\ =& \beta+\frac{\operatorname{Cov}(D, \varepsilon)}{\operatorname{Var}(\tilde{D})} \\ =& \beta+\frac{\operatorname{Var}(D)}{\operatorname{Var}(\tilde{D})} \cdot \frac{\operatorname{Cov}(D, \varepsilon)}{\operatorname{Var}(D)} \\ =& \beta+\frac{\operatorname{Var}(D)}{\operatorname{Var}(\tilde{D})}[\mathbb{E}(\varepsilon \mid D=1)-\mathbb{E}(\varepsilon \mid D=0)] \qquad (6) \end{aligned} β^OLSp===β+Var(D~)Cov(D~,ε)β+Var(D~)Cov(D,ε)β+Var(D~)Var(D)Var(D)Cov(D,ε)β+Var(D~)Var(D)[E(εD=1)E(εD=0)](6)

(6)式第二行的变换是根据(4)式用 D D D 替换 D ~ \tilde{D} D~ ,因 X X X ε \varepsilon ε 不相关,所以 D ~ \tilde{D} D~ X X X 的相关性是由于 D D D X X X 的相关性造成的。(6)式第四行中的第二项,就是不可观测变量所造成的选择性偏误。
若要将得到的因果效应( β ^ O L S \hat{\beta}^{O L S} β^OLS) 完全归因于不可观测变量的选择性,即 β = 0 \beta=0 β=0 ,则

β ^ O L S = Var ⁡ ( D ) Var ⁡ ( D ~ ) [ E ( ε ∣ D = 1 ) − E ( ε ∣ D = 0 ) ] ( 7 ) \hat{\beta}^{O L S}=\frac{\operatorname{Var}(D)}{\operatorname{Var}(\tilde{D})}[\mathbb{E}(\varepsilon \mid D=1)-\mathbb{E}(\varepsilon \mid D=0)] \quad (7) β^OLS=Var(D~)Var(D)[E(εD=1)E(εD=0)](7)

  • 定义 δ = S U S O \delta=\frac{S U}{S O} δ=SOSU 为 selection ratio。

……

2. Selection ratio 计算步骤

根据上面推导的原理,我们可以总结出计算 Selection ratio 的具体步骤:

  • (1) Y Y Y D D D X X X 回归,得到 β ^ O L S \hat{\beta}^{OLS} β^OLS
  • (2) Y Y Y X X X 回归,得到拟合值 X ′ γ X^{\prime} \gamma Xγ ,以及残差对平方 Var ⁡ ( ε ) \operatorname{Var}(\varepsilon) Var(ε)
  • (3) D D D X ′ γ \mathbf{X}^{\prime} \gamma Xγ 回归,得到系数估计 Cov ⁡ ( X ′ γ , D ) Var ⁡ ( X ′ γ ) \frac{\operatorname{Cov}\left(\mathbf{X}^{\prime} \gamma, D\right)}{\operatorname{Var}\left(\mathbf{X}^{\prime} \gamma\right)} Var(Xγ)Cov(Xγ,D)
  • (4) D D D X X X 回归,得到残差的方差 Var ⁡ ( D ~ ) \operatorname{Var}(\tilde{D}) Var(D~)

Note: 在原假设 β = 0 \beta=0 β=0 下,我们可以一致的估计 γ \gamma γ

3. Stata 实操

下面使用 Stata 自带的 nlsw88.dta 数据来示范如何计算 selection ratio 。我们使用该数据集来研究一个经典经济学问题:教育的回报率。wage 为因变量,表示个人每小时工资;school 为核心解释变量,表示被调查者的受教育程度;可观测控制变量使用了13个,包括总参加工作时间,工作任期,每周工作小时数,是否本科毕业,职业,行业,种族,婚姻状态,居住地等。因受教育程度本身有很强的内生性,学界很多篇经典的文章都是在解决教育内生性的问题。因为这个 nlsw88.dta 数据集里控制变量很常见且有限,且无法控制(如能力之类的)重要的不可观测变量。我们可以预判遗漏变量偏误很可能会抵消教育的因果效应, δ \delta δ 很可能小于 1。

sysuse  nlsw88.dta,clear
(NLSW, 1988 extract)
. global xvars "exp exp2 tenure hours collgrad industry occupation race married never_married south smsa c_city"

* 计算selection ratio
……

最后结果显示,selection ratio = 0.05 (小于1)。我们有理由相信 β ^ O L S \hat{\beta}^{O L S} β^OLS 是有偏的,并不是教育真实的回报率。
……

全文阅读: https://www.lianxh.cn/news/520d9c77b7b43.html

你可能感兴趣的:(内生性专题,因果推断,Stata,内生性,衡量偏误,因果推断)