第一章主要是希望能够用数学符号和表达式表示因果关系的各种直觉;对这些数学符号的理解是非常必要的!以下是自己的整理和加了一丢丢自己的理解,可能理解有误!(假如有朋友看的话,烦请指出)
定义 | 读法 | 注释 |
---|---|---|
Y a = 1 Y^{a=1} Ya=1 | Y under treatment a=1 | 治疗变量取值 a = 1 a=1 a=1时观察到的结局变量; |
Y a = 0 Y^{a=0} Ya=0 | Y under treatment a=0 | 治疗变量取值 a = 0 a=0 a=0时观察到的结局变量; |
Y a Y^{a} Ya | potential outcomes, counterfactual outcomes | 潜在结局(现实中只能观察到一种结局),反事实结局(强调有些结局现实中不会出现); |
Y i a Y_i^a Yia | individual i i i has outcome Y a = 1 Y^a=1 Ya=1 | 指代某个个体时,由于我们假设个体的反事实结局是deterministic,所以 Y a = 1 Y^a=1 Ya=1不是一个随机变量;需要注明的是反事实结局的个数等于 A A A可能取值 a a a的个数(如若 A A A是二分变量,则反事实结局的个数为2); |
Def 1.1.1[个体因果效应 | Individual Causal Effects]:对每一个个体 i i i,有 Y i a = 1 ≠ Y i a = 0 Y^{a=1}_i\neq Y^{a=0}_i Yia=1=Yia=0;
ps:Def1.1仅是对二分变量 A A A的个体因果效应做了说明;
对于每个个体 i i i而言,其中的一个反事实结局是存在的;假设一个个体 i i i接受治疗 A = a A=a A=a,现实中观测到的结局记为 Y i Y_i Yi,则有 Y i = Y a Y_i=Y^a Yi=Ya,即现实观察到的结局等于反事实结局 Y a Y^a Ya。由此引出一致性的概念:
Def 1.1.2[一致性 | Consistency]:
这里 Y A Y^A YA原书中写的是denotes the counterfactual Y a Y^a Ya evaluated at the value a a a corresponding to the individual’s observed treatment A A A.
❓为什么一致性不直接写 Y = Y a Y=Y^a Y=Ya呢?
由上面定义可以看到,个体因果效应是定义在反事实结局的对比上,而对于每个个体来说,现实实际上可以被观测到的是其中一种反事实结局,其他的反事实结局是没有办法被观测到的,即其他的反事实结局为缺失数据。个体因果效应没有办法通过观测到的数据表示,即个体因果效应实际上是不可被识别的。
ps:这一节,治疗变量 A A A,结局变量 Y Y Y的例子都是二分的;
假设我们对一个总人数为 N N N的人群是否接受治疗( a = 1 , a = 0 a=1,a=0 a=1,a=0)最后的死亡情况( Y a = 1 = 1 , Y a = 0 = 1 Y^{a=1}=1,Y^{a=0}=1 Ya=1=1,Ya=0=1)感兴趣,同时我们假设既可以观察到所有人都接受治疗的结局 Y a = 1 Y^{a=1} Ya=1,以及所有人都不接受治疗的结局 Y a = 0 Y^{a=0} Ya=0,那么直观上
P r ( Y a = 1 = 1 ) = 所 有 人 接 受 治 疗 后 死 亡 的 人 数 总 人 数 Pr(Y^{a=1}=1)=\frac{所有人接受治疗后死亡的人数}{总人数} Pr(Ya=1=1)=总人数所有人接受治疗后死亡的人数
P r ( Y a = 0 = 1 ) = 所 有 人 未 接 受 治 疗 后 死 亡 的 人 数 总 人 数 Pr(Y^{a=0}=1)=\frac{所有人未接受治疗后死亡的人数}{总人数} Pr(Ya=0=1)=总人数所有人未接受治疗后死亡的人数
实际上上述比例是等同于人群中所有个体的反事实结局( Y a = 1 , Y a = 0 Y^{a=1},Y^{a=0} Ya=1,Ya=0)的均值,以 P r ( Y a = b ) Pr(Y^{a}=b) Pr(Ya=b)具体来说:
P r ( Y a = b ) = ∑ i N P r ( Y a = Y i a ) P r ( Y a = b ∣ Y a = Y i a ) = ∑ i N 1 N P r ( Y i a = b ) = ∑ i N 1 N I ( Y i a = b ) \begin{aligned} Pr(Y^{a}=b) &= \sum^N_iPr(Y^{a}=Y^{a}_i)Pr(Y^{a}=b|Y^{a}=Y^{a}_i)\\ &= \sum^N_i\frac{1}{N}Pr(Y^{a}_i=b)\\ &= \sum^N_i\frac{1}{N}\mathbb{I}(Y^{a}_i=b) \end{aligned} Pr(Ya=b)=i∑NPr(Ya=Yia)Pr(Ya=b∣Ya=Yia)=i∑NN1Pr(Yia=b)=i∑NN1I(Yia=b)
下面我们就用上述计算的比例来定义对于人群的因果效应;
Def 1.2.1[平均因果效应 | Average Causal Effect]: E ( Y a = 1 ) − E ( Y a = 0 ) E(Y^{a=1})- E(Y^{a=0}) E(Ya=1)−E(Ya=0)
在一个人群中,如果 P r ( Y a = 1 = 1 ) ≠ P r ( Y a = 0 = 1 ) Pr(Y^{a=1}=1)\neq Pr(Y^{a=0}=1) Pr(Ya=1=1)=Pr(Ya=0=1),那么就说明治疗 A A A对结局 Y Y Y存在因果效应;
E ( Y a = 1 ) ≠ E ( Y a = 0 ) E(Y^{a=1})\neq E(Y^{a=0}) E(Ya=1)=E(Ya=0):人群中存在平均因果效应;[推广至结局变量 Y Y Y非二分的情况]
Remark
以下简称{“因果效应”:“平均因果效应”;“因果零假设”:“效应均值的零假设”}
Def 1.3.1[因果效应的度量 | Measures of causal effect]:
- 人群中的因果性风险差是个体因果性风险差 Y i a = 1 − Y i a = 0 Y_i^{a=1}-Y_i^{a=0} Yia=1−Yia=0的均值 ⇒ \Rightarrow ⇒ 因果性风险差也是个体因果效应的度量;
- 人群中的因果性风险比不是个体因果性风险比 Y i a = 1 Y i a = 0 \frac{Y_i^{a=1}}{Y_i^{a=0}} Yia=0Yia=1的均值 ⇒ \Rightarrow ⇒因果性风险比不是个体因果效应的度量;
可以看到因果零假设如果用以上三个度量表示则为causal risk difference=0,causal risk ratio=1,causal odds ratio=1;
这些度量也被称为effect measures
,只是从不同的尺度去衡量同一个因果效应;每一个effect measure
何时使用是视我们的目标而定的,比如说关注倍数的话我们会倾向于选择因果性风险比(乘法尺度),如果关注绝对数值,则会倾向于选择因果性风险差(加法尺度);
首先抛出本节的结论,随机变异性来自两个方面:
- Sampling variability;
- Nondeterministic counterfactuals;
Sampling variability
实际上,我们只能从总体中抽样,获取所有抽样的人的所有信息;比如所有抽样的人接受治疗后死亡人数的比例是可以被精确计算的: P r ^ ( Y a = 1 = 1 ) \hat{Pr}(Y^{a=1}=1) Pr^(Ya=1=1),并以此作为整个人群中治疗取值为 a = 1 a=1 a=1时死亡人数比例 P r ( Y a = 1 = 1 ) Pr(Y^{a=1}=1) Pr(Ya=1=1)的估计;大数定律下,抽样的样本越多时, P r ^ ( Y a = 1 = 1 ) \hat{Pr}(Y^{a=1}=1) Pr^(Ya=1=1)会越接近 P r ( Y a = 1 = 1 ) Pr(Y^{a=1}=1) Pr(Ya=1=1),即我们称 P r ^ ( Y a = 1 = 1 ) \hat{Pr}(Y^{a=1}=1) Pr^(Ya=1=1)为 P r ( Y a = 1 = 1 ) Pr(Y^{a=1}=1) Pr(Ya=1=1)的一致估计;
由于我们得到的只是 P r ( Y a = 1 = 1 ) Pr(Y^{a=1}=1) Pr(Ya=1=1)的一致估计 P r ^ ( Y a = 1 = 1 ) \hat{Pr}(Y^{a=1}=1) Pr^(Ya=1=1),所以我们不能肯定是否存在因果效应,还需要通过统计的方法去衡量,再去判断因果零假设 P r ( Y a = 1 = 1 ) = P r ( Y a = 0 = 1 ) Pr(Y^{a=1}=1)=Pr(Y^{a=0}=1) Pr(Ya=1=1)=Pr(Ya=0=1)是否成立;
Nondeterministic counterfactuals
总结:人群中的每个个体不同,counterfatucal是随机变量,概率分布也不一样;
ps:在第十章之前,会忽略掉随机性,也就是说假设我们收集到了人群中所有人的数据,并且假设deterministic counterfactual;
定义 | 读法 | 注释 |
---|---|---|
P r ( Y = 1 ∣ A = a ) Pr(Y=1|A=a) Pr(Y=1∣A=a) | the proportion of individuals that developed the outcome Y Y Y among those individuals in the population of interest that happened to receive treatment value a a a | 治疗取值为 a a a的人中,结局为 Y Y Y的人的比例; |
Def 1.5.1[独立性 | A ⊥ ⊥ Y A\perp\!\!\!\perp Y A⊥⊥Y]: P r ( Y = 1 ∣ A = 1 ) = P r ( Y = 1 ∣ A = 0 ) Pr(Y=1|A=1)=Pr(Y=1|A=0) Pr(Y=1∣A=1)=Pr(Y=1∣A=0)
Def 1.5.2[相关性的度量]:
可以看到独立性如果用以上三个度量表示则为associational risk difference=0,associational risk ratio=1,associational odds ratio=1;
这些度量也被称为association measures
,只是从不同的尺度去衡量同一个相关性;
Def 1.5.3[相关性(population)]: E ( Y ∣ A = 1 ) ≠ E ( Y ∣ A = 0 ) E(Y|A=1)\neq E(Y|A=0) E(Y∣A=1)=E(Y∣A=0)
相当于对Y仅为二分变量这点进行了拓展,连续型也是可以的;
这张图太经典了!左边方块需要完全被涂白,完全被涂黑(就是需要获得两个方块的数据),这是要得到是否存在因果效应需要的数据,但是实际上我们是没有办法得到的这些数据的;而右边则是现实中我们能够得到的数据,也就是在我们确定治疗取值 A A A后的结局 Y Y Y,可以看到他们是可以拼成一块完整的方块的。所以从能够得到的数据出发判断是否因果效应的问题实际上是一个数据缺失的问题。后续的问题就变成如何用现实获取的数据进行因果推断~
因果性 | 相关性 | |
---|---|---|
提出的问题 | what if questions in counterfactual words |
questions in the actual world |
举例 | “如果所有人都xxx,死亡的风险是多少” | “在xxx中,死亡的风险是多少” |
符号 | P r ( Y a = 1 ) Pr(Y^a=1) Pr(Ya=1) | $Pr(Y=1 |
注释 | 边缘概率;整个人群 Y a Y^a Ya的风险; | 条件概率;治疗取值为 a a a时(整个人群的一个子集) Y Y Y的风险; |
总结 | 由同一个人群的不同治疗下( a = 0 , a = 1 a=0,a=1 a=0,a=1)的不同风险决定的; | 由整个人群中,实际接受了不同治疗( A = 0 , A = 1 A=0,A=1 A=0,A=1)的两个不相交子集的不同风险决定的; |
Fine Point & Technical Point 待补