工具变量&两阶段最小二乘

1.为什么要用工具变量

解决内生性问题,自变量 x 1 x_1 x1与残差 μ \mu μ相关,即 C O V ( x 1 , μ ) ≠ 0 COV(x_1,\mu) \neq 0 COV(x1,μ)=0
y = β 0 + β 1 x 1 + μ y = \beta_0+\beta_1x_1+\mu y=β0+β1x1+μ
x 1 x_1 x1变化时,随机扰动项也会变化,导致估计值 β 1 ^ \hat{\beta_1} β1^偏离真实值
Δ y Δ x + Δ μ = β 1 \frac {\Delta y} {\Delta x+\Delta \mu}=\beta_1 Δx+ΔμΔy=β1

工具变量&两阶段最小二乘_第1张图片

2.什么是工具变量

变量 Z Z Z成为自变量 X X X的有效工具变量需满足2个条件:

  • 相关性:工具变量与内生变量相关 C O V ( X , Z ) ≠ 0 COV(X,Z) \neq 0 COV(X,Z)=0
  • 外生性:工具变量外生 C O V ( Z , μ ) = 0 COV(Z,\mu) = 0 COV(Z,μ)=0

3.为什么工具变量能解决内生性问题

一阶段回归: X 1 = β 10 + β 1 Z 1 + μ 1 (1) X_1 = \beta_{10}+\beta_1Z_1+\mu_1 \tag{1} X1=β10+β1Z1+μ1(1)

代入Y与X关系式: Y 1 = β 20 + β 2 X 1 + μ 2 (2) Y_1 = \beta_{20}+\beta_2X_1+\mu_2 \tag{2} Y1=β20+β2X1+μ2(2)

得到简约式回归:
Y 1 = ( β 20 + β 2 β 10 ) + β 1 β 2 Z 1 + ( β 2 μ 1 + μ 2 ) (3) Y_1 = (\beta_{20}+\beta_2\beta_{10})+\beta_1\beta_2Z_1+(\beta_2\mu_1+\mu_2) \tag{3} Y1=(β20+β2β10)+β1β2Z1+(β2μ1+μ2)(3)

虽然 C O V ( X 1 , μ 2 ) ≠ 0 COV(X_1,\mu_2) \neq 0 COV(X1,μ2)=0,但是由一阶段回归可以得出: C O V ( Z 1 , μ 1 ) = 0 COV(Z_1,\mu_1) = 0 COV(Z1,μ1)=0,由工具变量的定义得出: C O V ( Z 1 , μ 2 ) = 0 COV(Z_1,\mu_2) = 0 COV(Z1,μ2)=0,因此公式3中 Z 1 Z_1 Z1与随机扰动项 β 2 μ 1 + μ 2 \beta_2\mu_1+\mu_2 β2μ1+μ2不相关,满足线性回归基本假设。

由公式1得出 β 1 {\beta_1} β1,公式3得出 β 1 β 2 {\beta_1}{\beta_2} β1β2,最终得到无偏估计量 β ^ 2 {\hat \beta_2} β^2

在只有一个工具变量和一个内生变量时,以上简约式的结果等价于最小二乘法:
一阶段回归: X 1 = β 10 + β 1 Z 1 + μ 1 (1) X_1 = \beta_{10}+\beta_1Z_1+\mu_1 \tag{1} X1=β10+β1Z1+μ1(1)
二阶段回归, X 1 X_1 X1 μ 2 \mu_2 μ2相关,与 β 2 μ 1 \beta_2\mu_1 β2μ1不相关, X ^ 1 \hat X_1 X^1 μ 2 \mu_2 μ2 β 2 μ 1 \beta_2\mu_1 β2μ1均不相关:
Y 1 = β 20 + β 2 X ^ 1 + μ 2 = β 20 + β 2 X 1 + ( μ 2 − β 2 μ 1 ) (2) Y_1 = \beta_{20}+\beta_2 \hat X_1+\mu_2 = \beta_{20}+\beta_2 X_1+(\mu_2 - \beta_2\mu_1) \tag{2} Y1=β20+β2X^1+μ2=β20+β2X1+(μ2β2μ1)(2)
Y与X关系式:
Y 1 = β 20 + β 2 X 1 + μ 2 = β 20 + β 2 X ^ 1 + ( μ 2 + β 2 ( X 1 − X ^ 1 ) ) (2) Y_1 = \beta_{20}+\beta_2X_1+\mu_2 = \beta_{20}+\beta_2 \hat X_1+(\mu_2+\beta_2(X_1-\hat X_1)) \tag{2} Y1=β20+β2X1+μ2=β20+β2X^1+(μ2+β2(X1X^1))(2)
由于 X ^ 1 \hat X_1 X^1与残差 X 1 − X ^ 1 X_1-\hat X_1 X1X^1不相关,且 C O V ( X ^ 1 , μ 2 ) = C O V ( β 10 + β 1 Z 1 ) = C O V ( β 10 , μ 2 ) + C O V ( β 1 Z 1 , μ 2 ) = 0 COV(\hat X_1,\mu_2)=COV(\beta_{10}+\beta_1Z_1)=COV(\beta_{10},\mu_2)+COV(\beta_1Z_1,\mu_2)=0 COV(X^1,μ2)=COV(β10+β1Z1)=COV(β10,μ2)+COV(β1Z1,μ2)=0,因此在只有一个工具变量和一个内生变量时,简约式的结果等价于最小二乘法,最终均能得到无偏估计量 β ^ 2 {\hat \beta_2} β^2

如果为内生变量找到多个工具变量:
一阶段回归: X 1 = π 10 + π 1 Z 1 + + π 2 Z 2 + ω 1 X_1 = \pi_{10}+\pi_1Z_1++\pi_2Z_2+\omega_1 X1=π10+π1Z1++π2Z2+ω1

根据最小二乘法的原理, X ^ 1 \hat X_1 X^1 Z 1 Z_1 Z1 Z 2 Z_2 Z2中信息的最优线性组合,再将 X ^ 1 \hat X_1 X^1代入2式,得到无偏估计量 β ^ 2 {\hat \beta_2} β^2
需要特别说明的是两阶段回归的标准误差 μ 2 = Y 1 − X ^ 1 β ^ 2 \mu_2 = Y_1-\hat X_1 \hat \beta_2 μ2=Y1X^1β^2是错误的,正确的标准误差是 μ 2 = Y 1 − X 1 β ^ 2 \mu_2 = Y_1-X_1 \hat \beta_2 μ2=Y1X1β^2

4.工具变量通俗解释

工具变量相当于一个过滤器,把 X 1 X_1 X1分成两部分,第一部分和 Z 1 Z_1 Z1有关(即 X ^ 1 \hat X_1 X^1),第二部分和 Z 1 Z_1 Z1无关(即 μ 1 \mu_1 μ1)。由于 Z 1 Z_1 Z1 μ 2 \mu_2 μ2无关,第一部分自然也和 μ 2 \mu_2 μ2无关,第二部分是要过滤掉的渣子: X 1 X_1 X1中包含的和 μ 2 \mu_2 μ2有关的东西

5.内生性的检验:Hausman test

Hausman test的原假设是:所有解释变量均为外生变量,然后比较IV估计值和OLS估计值和的差异,如果很大,说明存在内生性问题,如果比较小,则不存在。

参考

工具变量原理
工具变量原理
工具变量例子
工具变量例子
工具变量通俗解释
deepIV(两阶段最小二乘推广到非线性模型)

你可能感兴趣的:(因果推断,概率论,机器学习)