【因果推断与机器学习】Causal Inference:Chapter_4_instrument_variables

Instrument Variables

Introduction

我们在因果识别中的目标是找到一种方法,用可观察的统计关系来表达两个特征之间的因果关系。在许多情况下,我们可以使用图形假设和do-calculus来理清我们对统计关系的观察,以确定因果关系。在图形假设不充分的情况下,参数假设有时会有所帮助。考虑一种情况该情况的假设因果图如下所示:

【因果推断与机器学习】Causal Inference:Chapter_4_instrument_variables_第1张图片
图1 工具变量的例子,变量Z可以帮助识别P(B|A)

在图1中的例子中如果我们希望确定 P ( B ∣ d o ( A ) ) P(B|do(A)) P(Bdo(A)) ,也就是判断事件A(或变量A)对变量B的影响,我们可以得出调整公式是不适合用于这种混杂变量是未被观察到的情况的,又因为变量A和变量B之间又没有中间变量,我们也不能运用前门路径法则。实际上,根据因果图的假设我们是不能判断识别变量A对变量B的因果效应的。

这种因果图挺常见的。例如,我们经常处于这样的情况,我们有能力进行部分随机化的实验,我们可以随机化 变量Z,但不直接控制变量 A 这是我们的主要关注点。这可能发生在对人的实验中,例如,我们可能通过推荐、鼓励或奖励来影响个人的决定,但在其他方面没有完全的控制权。这也可能发生在许多自然环境中,其中包括一些可观察到的独立因素,如天气,在决定变量A中起到部分作用。

然而,这边有个有趣的例子,变量Z对变量A的影响。因为变量Z被变量A给d分离了,我们就可以很容易的识别出 P r ( A ∣ d o ( Z ) ) = P r ( A ∣ Z ) Pr(A|do(Z))=Pr(A|Z) Pr(Ado(Z))=Pr(AZ),同样的我们也可以看出 P r ( B ∣ d o ( Z ) ) = P r ( B ∣ d o ( Z ) ) Pr(B|do(Z))=Pr(B|do(Z)) Pr(Bdo(Z))=Pr(Bdo(Z))

工具变量法是一种因果效应识别方法,遵循图6的图形结构的变量被称为辅助变量。工具变量设置满足几个标准:

  • Z和B是独立的,更正式的来说,Z和B在图 G n u l l ( A ) G_{null(A)} Gnull(A)中是d分离的。这意味着Z只能通过变量A的路径来影响B,而且由于共同原因A和B并不相关!
  • Z影响A,而且A和Z并不是d分离的因为 P ( A ∣ d o ( Z ) ) P(A|do(Z)) P(Ado(Z))是可识别的。
  • 相对于未观测变量U,Z对A和A对B的影响是均匀的。

前两个条件可以从因果图中读取,而第三个条件是附加的参数约束。第一个条件确保了无论Z对B有什么影响,它只能通过A。Z对Y不可能有不通过A的直接影响。此外, G n u l l ( A ) G_{null(A)} Gnull(A)中Z和B的d分离意味着Z独立于A的未观察混杂 U → B U\rightarrow B UB
第二个条件说明Z对a有非零的影响,并且这种影响是可识别的。直观地说,Z对B的影响可以被认为是Z对A的影响和A对B的作用的组合,因此,如果Z对A没有影响,它就不会给我们提供关于A的有用信息。
最后一个条件是,假设Z对A的影响是同质的(即,U不修改Z对B的影响),而A对B的效果也是均匀的(U不修改A对B影响)是合理的。这将使我们能够确保我们对Z对A的影响以及Z对B的间接影响的观察不会与未观察到的因素U的任何相互作用纠缠在一起。
接下来,我们将展示如何使用这两个已识别的成分和上述假设 P ( B ∣ Z ) P(B|Z) P(BZ) P ( A ∣ Z ) P(A|Z) P(AZ)来识别干预A对Z的影响。

连续变量情况下的推导

这里给出一个简单的推导,在图1中变量Z,B和变量A是连续的,如何根据 d B d Z \frac{dB}{dZ} dZdB d A d Z \frac{dA}{dZ} dZdA计算 d B d d o ( Z ) \frac{dB}{ddo(Z)} ddo(Z)dB.
第二,根据具有多个独立变量的导数的链式法则,我们可以将式子写作:
∂ B ∂ d o ( Z ) = ∂ B ∂ d o ( A ) ∂ A ∂ d o ( Z ) + ∂ B ∂ d o ( U ) ∂ U ∂ d o ( Z ) = ∂ B ∂ d o ( A ) ∂ A ∂ d o ( Z ) U独立于Z ∂ B ∂ d o ( A ) = ∂ B ∂ d o ( Z ) ∂ A ∂ d o ( Z ) rearranging terms ∂ B ∂ d o ( A ) = ∂ B ∂ d o ( Z ) ∂ A ∂ d o ( Z ) By non-interaction of U ∂ B ∂ d o ( A ) = d B d Z d A d Z    By earlier identification \begin{aligned} \frac{\partial{B}}{\partial{do(Z)}}&=\frac{\partial{B}}{\partial{do(A)}}\frac{\partial{A}}{\partial{do(Z)}}+\frac{\partial{B}}{\partial{do(U)}}\frac{\partial{U}}{\partial{do(Z)}} \\ &=\frac{\partial{B}}{\partial{do(A)}}\frac{\partial{A}}{\partial{do(Z)}} \qquad\text{U独立于Z}\\ \frac{\partial{B}}{\partial{do(A)}}&=\frac{\frac{\partial{B}}{\partial{do(Z)}}}{\frac{\partial{A}}{\partial{do(Z)}}}\qquad\qquad\quad\quad\text{rearranging terms}\\ \frac{\partial{B}}{\partial{do(A)}}&=\frac{\frac{\partial{B}}{\partial{do(Z)}}}{\frac{\partial{A}}{\partial{do(Z)}}}\qquad\qquad\quad\quad\text{By non-interaction of U}\\ \frac{\partial{B}}{\partial{do(A)}}&=\frac{\frac{dB}{dZ}}{\frac{dA}{dZ}}\qquad\qquad\qquad\quad\;\text{By earlier identification} \end{aligned} do(Z)Bdo(A)Bdo(A)Bdo(A)B=do(A)Bdo(Z)A+do(U)Bdo(Z)U=do(A)Bdo(Z)AU独立于Z=do(Z)Ado(Z)Brearranging terms=do(Z)Ado(Z)BBy non-interaction of U=dZdAdZdBBy earlier identification

在这个推导中,我们利用了我们的因果假设 U ⊥ Z U\bot Z UZ,我们从推导的第一行到第二行。在我们的工具变量设置中也就是图1,因为变量U和Z是d分隔的,我们知道 ∂ U ∂ d o ( Z ) \frac{\partial{U}}{\partial{do(Z)}} do(Z)U肯定是等于0的。我们也应用我们的效应同质性假设即 Z → A Z\rightarrow A ZA A → B A\rightarrow B AB来转换我们的偏导数从第四行到第五行, ∂ B ∂ d o ( Z ) \frac{\partial{B}}{\partial{do(Z)}} do(Z)B ∂ A ∂ d o ( Z ) \frac{\partial{A}}{\partial{do(Z)}} do(Z)A。这是至关重要的,因为否则,我们必须观察U来评估 ( U , Z ) (U,Z) (UZ)处的偏导数。知道它们独立于U,我们可以将它们转换为总导数,并仅在Z处对它们求值。因此,我们看到,在工具变量设置的假设下,我们可以使用对Z对B和Z对A的影响的观察来识别A对B的影响。这是一个强大的结果,使我们能够识别各种场景中特征对结果的影响,即使我们无法完全控制它们。
因此,我们看到,在工具变量设置的假设下,我们可以使用对Z对B和Z对A的影响的观察来识别A对B的影响。这是一个强大的结果,使我们能够识别各种场景中特征对结果的影响,即使我们无法完全控制它们。

二元变量或离散变量

该阶段博主直接略过感兴趣的同学自己搜索推导。

工具变量法的推广

【因果推断与机器学习】Causal Inference:Chapter_4_instrument_variables_第2张图片
图 2 更多IV图示例。(a) (b)和(c)对应于z作为有效的广义工具变量场景,而(d)和(e)表示无效的工具变量。(b)显示了常见的IV设置,其中a和b除了未观察到的混杂因素外,还观察到混杂因素。

虽然图1中描绘的标准工具变量场景呈现了只有几个变量的简单图形,但是我们可以将这些想法扩展到更复杂的场景。
最简单的扩展情形包括图2(a),在这里我们看到了另外几个可观察到的混杂变量 W 1 W_1 W1 W 2 W_2 W2。然而,这些附加变量都没有打破我们的初始要求,即Z和B在 G n u l l ( A ) G_{null(A)} Gnull(A)中是d分隔的,或者Z和B不在图G中d分隔, P ( B ∣ d o ( Z ) ) P(B|do(Z)) P(Bdo(Z))是可识别的,以及我们关于同质效应的假设。
更有趣的情形就来到了图2(b),这里我们看到可观察的混杂变量 W W W确实违背了我们对变量Z和变量B是独立的假设,然而我们如果限定 W W W的值我们就发现,我们重建了变量Z和变量B,d分离的必要条件。这种情形下的工具变量称为条件工具变量,接着我们修改我们的具有工具变量情况下因果图中的d分离必要条件:

  • 限定 W W W情况下,变量Z和变量B在图 G n u l l ( A ) G_{null(A)} Gnull(A)中是d分离的。
  • 给定 W W W的情况下Z和A不是d分离的,那么 P ( A ∣ d o ( Z ) , W ) P(A|do(Z),W) P(Ado(Z),W)是可判别的。
  • 相对于未观测变量U,Z对A和B的影响是同质的。

其中W是不包含B的任何后代的条件集合。
更仔细地考虑工具变量Z的作用,其目的是提供与未观察到的混杂因素U无关的A中的变化信息,我们认识到Z实际上不必是A的原因。还有其他关系也可能捕捉到我们分析所需的A中变化。在图2(c)中,我们看到一个这样的例子。这里,C是Z和A的一个未被观察到的原因。即使在这个图中Z不是A的原因,Z也不是与A分开的,并且通常与A相关。虽然这种放松使我们之前的工具变量证明变得复杂,但通常可以放松我们的第二个假设。
已经探索了工具变量方案的许多其他扩展,例如工具变量集合,其中在线性假设下,一组工具变量共同使得能够识别多种治疗对结果的影响。

你可能感兴趣的:(机器学习,人工智能,python)