Causal Inference: What If | 第一章 因果效应的定义

Causal Inference: What If | 第一章 因果效应的定义

文章目录

  • Causal Inference: What If | 第一章 因果效应的定义
    • 1.1 个体因果效应
    • 1.2 因果效应的均值
    • 1.3 因果效应的度量
    • 1.4 随机变异性
    • 1.5 因果性与相关性

第一章主要是希望能够用数学符号和表达式表示因果关系的各种直觉;对这些数学符号的理解是非常必要的!以下是自己的整理和加了一丢丢自己的理解,可能理解有误!(假如有朋友看的话,烦请指出)

1.1 个体因果效应

  • 考虑二分的治疗变量 A ( 1 : t r e a t e d ;   0 : u n t r e a t e d ) A(1:treated;\ 0:untreated) A(1:treated; 0:untreated),二分的结局变量 Y ( 1 : d e a t h ,   0 : s u r v i v a l ) Y(1:death,\ 0:survival) Y(1:death, 0:survival)
定义 读法 注释
Y a = 1 Y^{a=1} Ya=1 Y under treatment a=1 治疗变量取值 a = 1 a=1 a=1时观察到的结局变量;
Y a = 0 Y^{a=0} Ya=0 Y under treatment a=0 治疗变量取值 a = 0 a=0 a=0时观察到的结局变量;
Y a Y^{a} Ya potential outcomes, counterfactual outcomes 潜在结局(现实中只能观察到一种结局),反事实结局(强调有些结局现实中不会出现);
Y i a Y_i^a Yia individual i i i has outcome Y a = 1 Y^a=1 Ya=1 指代某个个体时,由于我们假设个体的反事实结局是deterministic,所以 Y a = 1 Y^a=1 Ya=1不是一个随机变量;需要注明的是反事实结局的个数等于 A A A可能取值 a a a的个数(如若 A A A是二分变量,则反事实结局的个数为2);

Def 1.1.1[个体因果效应 | Individual Causal Effects]:对每一个个体 i i i,有 Y i a = 1 ≠ Y i a = 0 Y^{a=1}_i\neq Y^{a=0}_i Yia=1=Yia=0

ps:Def1.1仅是对二分变量 A A A的个体因果效应做了说明;

​ 对于每个个体 i i i而言,其中的一个反事实结局是存在的;假设一个个体 i i i接受治疗 A = a A=a A=a,现实中观测到的结局记为 Y i Y_i Yi,则有 Y i = Y a Y_i=Y^a Yi=Ya,即现实观察到的结局等于反事实结局 Y a Y^a Ya。由此引出一致性的概念:

Def 1.1.2[一致性 | Consistency]

  • Y = Y A Y=Y^A Y=YA
  • 如果 A i = a A_i=a Ai=a,那么 Y i a = Y i A = Y i Y^a_i=Y^A_i=Y_i Yia=YiA=Yi

这里 Y A Y^A YA原书中写的是denotes the counterfactual Y a Y^a Ya evaluated at the value a a a corresponding to the individual’s observed treatment A A A.
❓为什么一致性不直接写 Y = Y a Y=Y^a Y=Ya呢?

​ 由上面定义可以看到,个体因果效应是定义在反事实结局的对比上,而对于每个个体来说,现实实际上可以被观测到的是其中一种反事实结局,其他的反事实结局是没有办法被观测到的,即其他的反事实结局为缺失数据。个体因果效应没有办法通过观测到的数据表示,即个体因果效应实际上是不可被识别的

1.2 因果效应的均值

ps:这一节,治疗变量 A A A,结局变量 Y Y Y的例子都是二分的;

  • 定义因果效应的均值,需要明确三个要素:
    1. 感兴趣的结局[结局变量]:比如二分的结局变量,我感兴趣最后有没有死亡(ps:这一章结局变量基本为二分类且对死亡这个结局感兴趣);
    2. 要比较的事件[治疗变量]:比如二分的治疗变量,要比较的事件就是 a = 1 a=1 a=1 a = 0 a=0 a=0
    3. 一个well-defined的人群:比较人群中的 Y a = 1 Y^{a=1} Ya=1 Y a = 0 Y^{a=0} Ya=0

​ 假设我们对一个总人数为 N N N的人群是否接受治疗( a = 1 , a = 0 a=1,a=0 a=1,a=0)最后的死亡情况( Y a = 1 = 1 , Y a = 0 = 1 Y^{a=1}=1,Y^{a=0}=1 Ya=1=1,Ya=0=1)感兴趣,同时我们假设既可以观察到所有人都接受治疗的结局 Y a = 1 Y^{a=1} Ya=1,以及所有人都不接受治疗的结局 Y a = 0 Y^{a=0} Ya=0,那么直观上
P r ( Y a = 1 = 1 ) = 所 有 人 接 受 治 疗 后 死 亡 的 人 数 总 人 数 Pr(Y^{a=1}=1)=\frac{所有人接受治疗后死亡的人数}{总人数} Pr(Ya=1=1)=
P r ( Y a = 0 = 1 ) = 所 有 人 未 接 受 治 疗 后 死 亡 的 人 数 总 人 数 Pr(Y^{a=0}=1)=\frac{所有人未接受治疗后死亡的人数}{总人数} Pr(Ya=0=1)=
实际上上述比例是等同于人群中所有个体的反事实结局( Y a = 1 , Y a = 0 Y^{a=1},Y^{a=0} Ya=1,Ya=0)的均值,以 P r ( Y a = b ) Pr(Y^{a}=b) Pr(Ya=b)具体来说:
P r ( Y a = b ) = ∑ i N P r ( Y a = Y i a ) P r ( Y a = b ∣ Y a = Y i a ) = ∑ i N 1 N P r ( Y i a = b ) = ∑ i N 1 N I ( Y i a = b ) \begin{aligned} Pr(Y^{a}=b) &= \sum^N_iPr(Y^{a}=Y^{a}_i)Pr(Y^{a}=b|Y^{a}=Y^{a}_i)\\ &= \sum^N_i\frac{1}{N}Pr(Y^{a}_i=b)\\ &= \sum^N_i\frac{1}{N}\mathbb{I}(Y^{a}_i=b) \end{aligned} Pr(Ya=b)=iNPr(Ya=Yia)Pr(Ya=bYa=Yia)=iNN1Pr(Yia=b)=iNN1I(Yia=b)
下面我们就用上述计算的比例来定义对于人群的因果效应;

Def 1.2.1[平均因果效应 | Average Causal Effect] E ( Y a = 1 ) − E ( Y a = 0 ) E(Y^{a=1})- E(Y^{a=0}) E(Ya=1)E(Ya=0)

  • 在一个人群中,如果 P r ( Y a = 1 = 1 ) ≠ P r ( Y a = 0 = 1 ) Pr(Y^{a=1}=1)\neq Pr(Y^{a=0}=1) Pr(Ya=1=1)=Pr(Ya=0=1),那么就说明治疗 A A A对结局 Y Y Y存在因果效应;

    • P r ( Y a = 1 = 1 ) − P r ( Y a = 0 = 1 ) = 0 Pr(Y^{a=1}=1)-Pr(Y^{a=0}=1)=0 Pr(Ya=1=1)Pr(Ya=0=1)=0时,即因果效应均值为零时,称因果效应均值的零假设为真;
  • E ( Y a = 1 ) ≠ E ( Y a = 0 ) E(Y^{a=1})\neq E(Y^{a=0}) E(Ya=1)=E(Ya=0):人群中存在平均因果效应;[推广至结局变量 Y Y Y非二分的情况]

  • Remark

  1. 当治疗变量 A A A不是一个二分变量时,我们需要指明感兴趣的对比;
  2. 人群的平均因果效应等于个体因果效应的均值[期望的线性性],均值的差等于差的均值:
    E ( Y a = 1 ) − E ( Y a = 0 ) = E ( Y a = 1 − Y a = 0 ) E(Y^{a=1})- E(Y^{a=0})=E(Y^{a=1}-Y^{a=0}) E(Ya=1)E(Ya=0)=E(Ya=1Ya=0)
  3. 1.1节提到个体因果效应是不可被识别的,而本节中人群的平均因果效应定义为个体因果效应的均值,理论上是无法进行人群的平均因果效应识别;第二章会介绍一些设计使得满足一些性质,从而可以使得我们可以对识别人群中的平均因果效应;

以下简称{“因果效应”:“平均因果效应”;“因果零假设”:“效应均值的零假设”}

1.3 因果效应的度量

Def 1.3.1[因果效应的度量 | Measures of causal effect]

  1. 因果性下的风险差 | causal risk difference: P r ( Y a = 1 = 1 ) − P r ( Y a = 0 = 1 ) Pr(Y^{a=1}=1)-Pr(Y^{a=0}=1) Pr(Ya=1=1)Pr(Ya=0=1)
  2. 因果性下的风险比 | causal risk ratio: P r ( Y a = 1 = 1 ) P r ( Y a = 0 = 1 ) \frac{Pr(Y^{a=1}=1)}{Pr(Y^{a=0}=1)} Pr(Ya=0=1)Pr(Ya=1=1)
  3. 因果性下的比值比 | causal odds ratio: P r ( Y a = 1 = 1 ) / P r ( Y a = 1 = 0 ) P r ( Y a = 0 = 1 ) / P r ( Y a = 0 = 0 ) \frac{Pr(Y^{a=1}=1)/Pr(Y^{a=1}=0)}{Pr(Y^{a=0}=1)/Pr(Y^{a=0}=0)} Pr(Ya=0=1)/Pr(Ya=0=0)Pr(Ya=1=1)/Pr(Ya=1=0)
  • 人群中的因果性风险差是个体因果性风险差 Y i a = 1 − Y i a = 0 Y_i^{a=1}-Y_i^{a=0} Yia=1Yia=0的均值 ⇒ \Rightarrow 因果性风险差也是个体因果效应的度量;
  • 人群中的因果性风险比不是个体因果性风险比 Y i a = 1 Y i a = 0 \frac{Y_i^{a=1}}{Y_i^{a=0}} Yia=0Yia=1的均值 ⇒ \Rightarrow 因果性风险比不是个体因果效应的度量;

​ 可以看到因果零假设如果用以上三个度量表示则为causal risk difference=0,causal risk ratio=1,causal odds ratio=1;

​ 这些度量也被称为effect measures,只是从不同的尺度去衡量同一个因果效应;每一个effect measure何时使用是视我们的目标而定的,比如说关注倍数的话我们会倾向于选择因果性风险比(乘法尺度),如果关注绝对数值,则会倾向于选择因果性风险差(加法尺度);

1.4 随机变异性

首先抛出本节的结论,随机变异性来自两个方面:

  1. Sampling variability;
  2. Nondeterministic counterfactuals;
  • Sampling variability

    • 实际上,我们只能从总体中抽样,获取所有抽样的人的所有信息;比如所有抽样的人接受治疗后死亡人数的比例是可以被精确计算的: P r ^ ( Y a = 1 = 1 ) \hat{Pr}(Y^{a=1}=1) Pr^(Ya=1=1),并以此作为整个人群中治疗取值为 a = 1 a=1 a=1时死亡人数比例 P r ( Y a = 1 = 1 ) Pr(Y^{a=1}=1) Pr(Ya=1=1)的估计;大数定律下,抽样的样本越多时, P r ^ ( Y a = 1 = 1 ) \hat{Pr}(Y^{a=1}=1) Pr^(Ya=1=1)会越接近 P r ( Y a = 1 = 1 ) Pr(Y^{a=1}=1) Pr(Ya=1=1),即我们称 P r ^ ( Y a = 1 = 1 ) \hat{Pr}(Y^{a=1}=1) Pr^(Ya=1=1) P r ( Y a = 1 = 1 ) Pr(Y^{a=1}=1) Pr(Ya=1=1)的一致估计;

      由于我们得到的只是 P r ( Y a = 1 = 1 ) Pr(Y^{a=1}=1) Pr(Ya=1=1)的一致估计 P r ^ ( Y a = 1 = 1 ) \hat{Pr}(Y^{a=1}=1) Pr^(Ya=1=1),所以我们不能肯定是否存在因果效应,还需要通过统计的方法去衡量,再去判断因果零假设 P r ( Y a = 1 = 1 ) = P r ( Y a = 0 = 1 ) Pr(Y^{a=1}=1)=Pr(Y^{a=0}=1) Pr(Ya=1=1)=Pr(Ya=0=1)是否成立;

  • Nondeterministic counterfactuals

    • 前面我们提到对于我们假设对于每一个个体他的反事实结局是固定的,就是说 Y i a Y^a_i Yia不是随机变量,我们称这个反事实结局是deterministic counterfactual;拿二分事实变量举个例子,他接受治疗后他肯定没死( Y i a = 1 = 0 Y^{a=1}_i=0 Yia=1=0),他没接受治疗后肯定死了( Y i a = 0 = 1 Y^{a=0}_i=1 Yia=0=1)。
    • 而另外一个随机性的来源则是nondeterministic counterfactual;即对于每一个个体,他的反事实结局是随机的,即 Y i a Y^a_i Yia是一个随机变量;也拿二分事实变量举个例子,他接受治疗的后可能死了也可能没死,没接收治疗后也是可能死了或者没死,即他的反事实结局 Y i a = 1 Y_i^{a=1} Yia=1 Y i a = 0 Y_i^{a=0} Yia=0的都是随机变量。
    • 接着上面nondeterministic counterfactual来说,既然对于每个个体来说每个 Y i a Y^a_i Yia都是随机变量,即存在概率分布;那么对于一个人群来说,可以认为每个个体是不一样的,那么各自的反事实结局的概率分布也是不一样的;

    总结:人群中的每个个体不同,counterfatucal是随机变量,概率分布也不一样;

  • ps:在第十章之前,会忽略掉随机性,也就是说假设我们收集到了人群中所有人的数据,并且假设deterministic counterfactual;

1.5 因果性与相关性

  • 实际上,我们不可能同时观测到每个个体所有治疗取值下的结局 Y i a Y_i^a Yia;现实中,只能观测到每个个体的治疗取值为 A A A时,真实的结局 Y i Y_i Yi。(注意 Y i Y_i Yi Y i a Y^a_{i} Yia区别开!!)
定义 读法 注释
P r ( Y = 1 ∣ A = a ) Pr(Y=1|A=a) Pr(Y=1A=a) the proportion of individuals that developed the outcome Y Y Y among those individuals in the population of interest that happened to receive treatment value a a a 治疗取值为 a a a的人中,结局为 Y Y Y的人的比例;

Def 1.5.1[独立性 | A ⊥  ⁣ ⁣ ⁣ ⊥ Y A\perp\!\!\!\perp Y AY] P r ( Y = 1 ∣ A = 1 ) = P r ( Y = 1 ∣ A = 0 ) Pr(Y=1|A=1)=Pr(Y=1|A=0) Pr(Y=1A=1)=Pr(Y=1A=0)

Def 1.5.2[相关性的度量]

  1. 相关性下的风险差 | associational risk difference: P r ( Y = 1 ∣ A = 1 ) − P r ( Y = 1 ∣ A = 0 ) Pr(Y=1|A=1)-Pr(Y=1|A=0) Pr(Y=1A=1)Pr(Y=1A=0)
  2. 相关性下的风险比 | associational risk ratio: P r ( Y = 1 ∣ A = 1 ) P r ( Y = 1 ∣ A = 0 ) \frac{Pr(Y=1|A=1)}{Pr(Y=1|A=0)} Pr(Y=1A=0)Pr(Y=1A=1)
  3. 相关性下的比值比 | associational odds ratio: P r ( Y = 1 ∣ A = 1 ) / P r ( Y = 0 ∣ A = 1 ) P r ( Y = 1 ∣ A = 0 ) / P r ( Y = 0 ∣ A = 0 ) \frac{Pr(Y=1|A=1)/Pr(Y=0|A=1)}{Pr(Y=1|A=0)/Pr(Y=0|A=0)} Pr(Y=1A=0)/Pr(Y=0A=0)Pr(Y=1A=1)/Pr(Y=0A=1)

​ 可以看到独立性如果用以上三个度量表示则为associational risk difference=0,associational risk ratio=1,associational odds ratio=1;

​ 这些度量也被称为association measures,只是从不同的尺度去衡量同一个相关性;

Def 1.5.3[相关性(population)] E ( Y ∣ A = 1 ) ≠ E ( Y ∣ A = 0 ) E(Y|A=1)\neq E(Y|A=0) E(YA=1)=E(YA=0)

相当于对Y仅为二分变量这点进行了拓展,连续型也是可以的;

这张图太经典了!左边方块需要完全被涂白,完全被涂黑(就是需要获得两个方块的数据),这是要得到是否存在因果效应需要的数据,但是实际上我们是没有办法得到的这些数据的;而右边则是现实中我们能够得到的数据,也就是在我们确定治疗取值 A A A后的结局 Y Y Y,可以看到他们是可以拼成一块完整的方块的。所以从能够得到的数据出发判断是否因果效应的问题实际上是一个数据缺失的问题。后续的问题就变成如何用现实获取的数据进行因果推断~

  • 因果性 v.s. 相关性
因果性 相关性
提出的问题 what if questions in counterfactual words questions in the actual world
举例 “如果所有人都xxx,死亡的风险是多少” “在xxx中,死亡的风险是多少”
符号 P r ( Y a = 1 ) Pr(Y^a=1) Pr(Ya=1) $Pr(Y=1
注释 边缘概率;整个人群 Y a Y^a Ya的风险; 条件概率;治疗取值为 a a a时(整个人群的一个子集) Y Y Y的风险;
总结 由同一个人群的不同治疗下( a = 0 , a = 1 a=0,a=1 a=0,a=1)的不同风险决定的; 由整个人群中,实际接受了不同治疗( A = 0 , A = 1 A=0,A=1 A=0,A=1)的两个不相交子集的不同风险决定的;

Fine Point & Technical Point 待补

你可能感兴趣的:(因果统计,其他)