理想的实验

1.关于“问题”的问题

一项研究计划可以围绕四个基本问题(frequently asked questions,FAQ)展开:

  • 研究对象间的(因果)关系(relationship of interest)

这里更关注的是“因果关系”,谁是因,谁是果?
→班级规模对学生分数的影响
→教育水平对工资水平的因果效用,个体接受更多的教育所带来的工资增长量
→殖民地制度对经济增长的影响

  • 理想条件下的实验(ideal experiment)

理想条件下的实验通常是假设出来的
这个问题让我们思考如果能进行理想的实验,我们会怎样做。
这通常涉及到一种假设情况,我们可以完全控制并随机分配影响因果关系的所有潜在变量。这是一种理论上的设想,可以帮助我们设计实际的研究方法。

  • 识别策略(identification strategy)

研究人员如何运用观察数据(不是随机实验产生的数据)来逼近真实实验

  • 推断模型(mode of interest)

需要描述被研究的总体、所使用的样本以及构建标准误时所作的假设

这四个问题提供了一个从提出研究问题到设计实验,然后进行数据分析并得出结论的基本框架。在经济学和其他社会科学的研究中,这是一种非常有用的方法。

2.理想的实验

最可信和最有影响力的研究设计应该使用随机分配(random assignment)的方法

2.1 选择性偏误

研究问题:医院能让人变得更健康吗?
调查方法:全国健康采访调研

组别 样本大小 平均健康水平 标准误
去过医院 7774 3.21 0.014
没有去过医院 90049 3.93 0.003

从表格知道,两者之间的平均差距是0.72,没有去过医院的人健康状况更好,两者之差大且显著, t t t统计量为58.9。这个结果意味着去医院会使人健康状况变差。

事实真是如此吗? 去医院的人可能本身健康水平就比较差。人们去医院通常是因为他们生病或者有健康问题,而健康的人则不需要去医院。因此,当我们比较这两组人的健康状况时,我们实际上是在比较生病的人和健康的人,而不是比较去医院的效果。这个问题被称为选择性偏误,因为人们是否去医院是根据他们的健康状况来选择的,而这个选择可能与他们的健康状况相关。这使得我们很难确定去医院是否会改善人们的健康状况,因为我们不能确定健康状况的改变是由于去医院,还是由于他们本来就生病。

解决这个问题的一种方法是使用随机化实验设计

  1. 个体 i i i是否接受医院治疗 D i = { 0 , 1 } D_i=\{0,1\} Di={0,1},个体 i i i的健康水平记为 Y i Y_i Yi。对于任何个体而言,他们的健康状况都有两种潜在结果:
    Y i = { Y 1 i if  D i > 0 Y 0 i if  D i = 0 = Y 0 i + ( Y 1 i − Y 0 i ) D i Y_i = \begin{cases} Y_{1i} & \text{if } D_i > 0 \\ Y_{0i} & \text{if } D_i = 0 \end{cases} = Y_{0i}+(Y_{1i}-Y_{0i})D_i Yi={Y1iY0iif Di>0if Di=0=Y0i+(Y1iY0i)Di
    也就是说,一个人没有去医院,他的健康状态是 Y 0 i Y_{0i} Y0i;一个人去医院接受了治疗,他的健康状态是 Y 1 i Y_{1i} Y1i。我们想知道的个体因果效应就是 Y 1 i − Y 0 i Y_{1i}-Y_{0i} Y1iY0i,这个值可以解释为个体 i i i在医院接受治疗对其健康状况产生的影响。【Rubin因果模型】

2.平均因果效应(average casual effect)
E [ Y i ∣ D i = 1 ] − E [ Y i ∣ D i = 0 ] = E [ Y 1 i ∣ D i = 1 ] − E [ Y 0 i ∣ D i = 0 ] = E [ Y 1 i ∣ D i = 1 ] − E [ Y 0 i ∣ D i = 1 ] + E [ Y 0 i ∣ D i = 1 ] − E [ Y 0 i ∣ D i = 0 ] E[Y_i| D_i =1]-E[Y_i| D_i =0] \\ =E[Y_{1i}|D_i=1]-E[Y_{0i}|D_i=0] \\ =E[Y_{1i}|D_i=1]-E[Y_{0i}|D_i=1]+E[Y_{0i}|D_i=1]-E[Y_{0i}|D_i=0] E[YiDi=1]E[YiDi=0]=E[Y1iDi=1]E[Y0iDi=0]=E[Y1iDi=1]E[Y0iDi=1]+E[Y0iDi=1]E[Y0iDi=0]
其中, E [ Y 1 i ∣ D i = 1 ] E[Y_{1i}|D_i=1] E[Y1iDi=1]是接受住院治疗的人的平均健康水平, E [ Y 0 i ∣ D i = 1 ] E[Y_{0i}|D_i=1] E[Y0iDi=1]是如果接受住院治疗的人本来没有得到治疗,他们的健康水平。
E [ Y 1 i ∣ D i = 1 ] − E [ Y 0 i ∣ D i = 1 ] E[Y_{1i}|D_i=1]-E[Y_{0i}|D_i=1] E[Y1iDi=1]E[Y0iDi=1]处理的平均因果效应

E [ Y 0 i ∣ D i = 1 ] − E [ Y 0 i ∣ D i = 0 ] E[Y_{0i}|D_i=1]-E[Y_{0i}|D_i=0] E[Y0iDi=1]E[Y0iDi=0]选择性偏误。是去医院的接受治疗与不去医院接受治疗的人如果没有被治疗时的健康状况的平均差异。

2.2 用随机分配解决选择性偏误

补充:
随机分配处理是消除选择性偏误的一种方法,因为它可以确保处理组和控制组在其他所有相关特性上的分布是相同的。这意味着,任何观察到的结果差异都可以归因于处理,而不是混淆变量。更具体地说,当处理( D i D_i Di)是随机分配的,我们可以期望处理组和控制组在未观察到的特性上的平均值是相同的。

补充:
随机分配满足非混杂性:给定协变量 X i X_i Xi,对个体的干预分配独立于潜在结果,即
( Y 0 i , Y 1 i ) ⊥ D i ∣ X i (Y_{0i}, Y_{1i}) \perp D_i | X_i (Y0i,Y1i)DiXi
其中, ⊥ \perp 表示独立性, Y 0 i Y_{0i} Y0i Y 1 i Y_{1i} Y1i 是潜在结果, D i D_i Di 是处理指示符(例如,是否去医院), X i X_i Xi 是协变量向量(例如,个体的其他特性)。

D i D_i Di进行随机分配可以消除选择性偏误,因为随机分配使得 D i D_i Di独立于潜在结果。在数学上,这意味着

E [ Y 0 i ∣ D i = 1 ] = E [ Y 0 i ∣ D i = 0 ] E[Y_{0i}|D_i=1] = E[Y_{0i}|D_i=0] E[Y0iDi=1]=E[Y0iDi=0]

如果这个等式成立,那么选择性偏误就为0,因为选择性偏误被定义为

E [ Y 0 i ∣ D i = 1 ] − E [ Y 0 i ∣ D i = 0 ] E[Y_{0i}|D_i=1] - E[Y_{0i}|D_i=0] E[Y0iDi=1]E[Y0iDi=0]

因此,当处理是随机分配的,可以得出

E [ Y i ∣ D i = 1 ] − E [ Y i ∣ D i = 0 ] = E [ Y 1 i ∣ D i = 1 ] − E [ Y 0 i ∣ D i = 1 ] = E [ Y 1 i − Y 0 i ∣ D i = 1 ] = E [ Y 1 i − Y 0 i ] E[Y_i|D_i=1]-E[Y_i|D_i=0]=E[Y_{1i}|D_i=1]-E[Y_{0i}|D_i=1] =E[Y_{1i}-Y_{0i}|D_i=1]=E[Y_{1i}-Y_{0i}] E[YiDi=1]E[YiDi=0]=E[Y1iDi=1]E[Y0iDi=1]=E[Y1iY0iDi=1]=E[Y1iY0i]

也就是说,处理的平均因果效应等于接受治疗和不接受治疗的个体的期望健康状况之差。这就允许我们直接估计平均因果效应,而无需担心选择性偏误的问题。

2.3 对实验的回归分析

Y i = β 0 + β 1 D i + ϵ i Y_i = \beta_0 + \beta_1 D_i + \epsilon_i Yi=β0+β1Di+ϵi
其中, β 0 = E ( Y 0 i ) \beta_0=E(Y_{0i}) β0=E(Y0i) β 1 = ( Y 1 i − Y 0 i ) \beta_1=(Y_{1i}-Y_{0i}) β1=(Y1iY0i) ϵ i \epsilon_i ϵi Y 0 i Y_{0i} Y0i的随机部分,即 ϵ i = Y 0 i − E ( Y 0 i ) \epsilon_i=Y_{0i}-E(Y_{0i}) ϵi=Y0iE(Y0i)

对上面这个等式求数学期望:
E [ Y i ∣ D i = 1 ] = β 0 + β 1 + E [ ϵ i ∣ D i = 1 ] E[Y_i|D_i=1]=\beta_0 + \beta_1+E[\epsilon_i|D_i=1] E[YiDi=1]=β0+β1+E[ϵiDi=1]
E [ Y i ∣ D i = 0 ] = β 0 + E [ ϵ i ∣ D i = 0 ] E[Y_i|D_i=0]=\beta_0 +E[\epsilon_i|D_i=0] E[YiDi=0]=β0+E[ϵiDi=0]
两式相减, E [ Y i ∣ D i = 1 ] − E [ Y i ∣ D i = 0 ] = β 1 + E [ ϵ i ∣ D i = 1 ] − E [ ϵ i ∣ D i = 0 ] E[Y_i|D_i=1]-E[Y_i|D_i=0]=\beta_1+E[\epsilon_i|D_i=1]-E[\epsilon_i|D_i=0] E[YiDi=1]E[YiDi=0]=β1+E[ϵiDi=1]E[ϵiDi=0]

β 1 \beta_1 β1是处理效应, E [ ϵ i ∣ D i = 1 ] − E [ ϵ i ∣ D i = 0 ] E[\epsilon_i|D_i=1]-E[\epsilon_i|D_i=0] E[ϵiDi=1]E[ϵiDi=0]是选择性偏误

因此,选择性偏误意味着回归残差项 ϵ i \epsilon_i ϵi和回归元 D i D_i Di之间存在着相关性。

在随机化实验中,由于处理的分配是随机的,我们可以直接使用这个简单的回归模型来估计平均因果效应,而无需控制其他协变量。然而,在观察性研究中,我们通常需要将模型扩展为多元回归模型,以控制可能的混淆变量。例如:
Y i = β 0 + β 1 D i + β 2 X i + ϵ i Y_i = \beta_0 + \beta_1 D_i + \beta_2 X_i + \epsilon_i Yi=β0+β1Di+β2Xi+ϵi
其中, X i X_i Xi 是一个或多个协变量。在这个模型中, β 1 \beta_1 β1 仍然是处理的平均因果效应,但现在这个效应是在控制了 X i X_i Xi 的影响之后得到的。

你可能感兴趣的:(#,基本无害的计量经济学,因果推断)