专业名词对照表
中文 | 英文 |
---|---|
单元 | unit |
处理 | treatment |
控制 | control |
观察结果 | observed outcome |
未观察结果 | unobserved outcome |
潜在结果 | potential outcome |
处理效应 | treatment effect |
因果推断 | causal inference |
随机试验 | randomized experiment |
个体处理效应 | individual treatment effect, ITE |
平均处理效应 | average treatment effect, ATE |
处理的平均处理效应 | average treatment effect for the treated, ATT |
符号表
符号 | 意义 |
---|---|
i i i | 第 i i i 个事物(或人、群体) |
D i D_i Di | i i i 的处理(因果变量) |
Y i Y_i Yi | i i i 的观察结果 |
Y 0 i , Y 1 i Y_{0i}, Y_{1i} Y0i,Y1i | i i i 的潜在结果 |
一般地, D i D_i Di 是可以取多个值(比如医疗上有多重药物可以治疗同一种疾病)。但是,这里只讨论二元的情况,也就是处理和控制,即 D i ∈ { 0 , 1 } D_i \in \{0,1\} Di∈{0,1}。
ITE 定义为
τ i = Y 1 i − Y 0 i . \tau_i = Y_{1i} - Y_{0i}. τi=Y1i−Y0i.
直观地, i i i 的因果效应是处理情况下的潜在结果 Y 1 i Y_{1i} Y1i 与控制情况下的潜在结果 Y 0 i Y_{0i} Y0i 的差异。
τ i \tau_i τi 的值分以下三种情况:
τ i \tau_i τi | 说明 |
---|---|
= 0 =0 =0 | 没有因果效应 |
> 0 >0 >0 | 有益的因果效应 |
< 0 <0 <0 | 有害的因果效应 |
最重要的因果估计量是 ATE:
ATE ≡ E [ Y 1 i − Y 0 i ] = 1 N ∑ i = 1 N ( Y 1 i − Y 0 i ) = E [ Y 1 i ] − E [ Y 0 i ] , \text{ATE} \equiv E[Y_{1i} - Y_{0i}] = \frac{1}{N} \sum_{i=1}^{N} (Y_{1i} -Y_{0i}) = E[Y_{1i}] - E[Y_{0i}], ATE≡E[Y1i−Y0i]=N1i=1∑N(Y1i−Y0i)=E[Y1i]−E[Y0i],其中 N N N 为总体包含的事物个数。
给定样本,ATE 的一个可能估计值为组间均值差异(difference in group means,DIGM),其为观察结果在处理组和控制组之间的差异。假如对于 i ∈ { 1 , 2 , … , m } i \in \{1,2,\dots,m\} i∈{1,2,…,m}, D i = 1 D_i = 1 Di=1;对于 i ∈ { m + 1 , m + 2 , … , n } i \in \{m+1,m+2,\dots,n\} i∈{m+1,m+2,…,n}, D i = 0 D_i=0 Di=0。
即
i \bm{i} i | 1 | 2 | … \bm{\dots} … | m \bm{m} m | m + 1 \bm{m+1} m+1 | m + 2 \bm{m+2} m+2 | … \bm{\dots} … | n \bm{n} n |
---|---|---|---|---|---|---|---|---|
D i D_i Di | 1 | 1 | … \bm{\dots} … | 1 | 0 | 0 | … \bm{\dots} … | 0 |
DIGM 表示为
DIGM ≡ 1 m ∑ i = 1 m Y 1 i − 1 n − m ∑ i = m + 1 n Y 0 i . \text{DIGM} \equiv \frac{1}{m}\sum_{i=1}^{m}Y_{1i} - \frac{1}{n-m}\sum_{i=m+1}^{n}Y_{0i}. DIGM≡m1i=1∑mY1i−n−m1i=m+1∑nY0i.
由样本均值的无偏性可得,
E [ DIGM ] = E [ Y 1 i | D i = 1 ] − E [ Y 0 i | D i = 0 ] . E[\text{DIGM}] = E[Y_{1i} \left. \middle | \right. D_i = 1] - E[Y_{0i} \left. \middle | \right. D_i = 0]. E[DIGM]=E[Y1i∣Di=1]−E[Y0i∣Di=0].
另外当 D i = 1 D_i = 1 Di=1 时, Y i = Y 1 i Y_i = Y_{1i} Yi=Y1i;当 D i = 0 D_i = 0 Di=0 时, Y i = Y 0 i Y_i = Y_{0i} Yi=Y0i。
所以上式可以写做
E [ DIGM ] = E [ Y i | D i = 1 ] − E [ Y i | D i = 0 ] . E[\text{DIGM}] = E[Y_i \left. \middle | \right. D_i = 1] - E[Y_i \left. \middle | \right. D_i = 0]. E[DIGM]=E[Yi∣Di=1]−E[Yi∣Di=0].
那么,DIGM 是否是 ATE 的无偏估计值呢?
推导:
DIGM = 1 m ∑ i = 1 m Y 1 i − 1 n − m ∑ i = m + 1 n Y 0 i = 1 m ∑ i = 1 m ( Y 0 i + τ i ) − 1 n − m ∑ i = m + 1 n Y 0 i = 1 m ∑ i = 1 m τ i + 1 m ∑ i = 1 m Y 0 i − 1 n − m ∑ i = m + 1 n Y 0 i = 1 m ∑ i = 1 m τ 1 i + { 1 m ∑ i = 1 m Y 0 i − 1 n − m ∑ i = m + 1 n Y 0 i } . \begin{aligned} \text{DIGM} &= \frac{1}{m}\sum_{i=1}^{m}Y_{1i} - \frac{1}{n-m}\sum_{i=m+1}^{n}Y_{0i} \\ &= \frac{1}{m}\sum_{i=1}^{m} (Y_{0i} + \tau_i) - \frac{1}{n-m} \sum_{i=m+1}^{n}Y_{0i} \\ &= \frac{1}{m} \sum_{i=1}^{m} \tau_i + \frac{1}{m} \sum_{i=1}^{m} Y_{0i} - \frac{1}{n-m} \sum_{i=m+1}^{n}Y_{0i} \\ &= \frac{1}{m}\sum_{i=1}^{m} \tau_{1i} + \left\{ \frac{1}{m} \sum_{i=1}^{m} Y_{0i} - \frac{1}{n-m} \sum_{i=m+1}^{n}Y_{0i} \right\} \\ \end{aligned}. DIGM=m1i=1∑mY1i−n−m1i=m+1∑nY0i=m1i=1∑m(Y0i+τi)−n−m1i=m+1∑nY0i=m1i=1∑mτi+m1i=1∑mY0i−n−m1i=m+1∑nY0i=m1i=1∑mτ1i+{m1i=1∑mY0i−n−m1i=m+1∑nY0i}.
E [ DIGM ] = E [ τ i | D i = 1 ] + { E [ Y 0 i | D i = 1 ] − E [ Y 0 i | D i = 0 ] } = ATT + { selection bias } , \begin{aligned} E[\text{DIGM}] &= E[\tau_i \left. \middle | \right. D_i = 1] + \left\{E[Y_{0i} \left. \middle | \right. D_i = 1] - E[Y_{0i} \left. \middle | \right. D_i = 0] \right\} \\ &= \text{ATT} + \left\{\text{selection bias} \right\} \end{aligned}, E[DIGM]=E[τi∣Di=1]+{E[Y0i∣Di=1]−E[Y0i∣Di=0]}=ATT+{selection bias},其中 ATT 是 处理组的 ATE。
如果 ATT = ATE,则 DIGM 是 ATE 的无偏估计值。
如果 E [ Y 0 i ] E[Y_{0i}] E[Y0i] 在处理组和控制组相同,则不存在选择偏差。
以上三条保证了随机试验是起作用的。
时间 | 内容 |
---|