【因果推断与机器学习】Causal Inference:Chapter_4_instrument_variables前世今生

Instrument variables Supplement

Groundtruth

在之前的章节中,我们介绍了调整公式、后门路径法则、前门路径法则和工具变量等方法帮助我们来构建一个因果图来表示我们要研究的系统。基于以上各种识别策略,我们可以开始重新考虑如何最好地对系统建模的问题——考虑模型的外生内生特征,以及在什么抽象级别对变量建模——以正确回答给定的因果推理问题。
在这里出现了两个陌生又陌生的词汇“内生”和外生,引用该博主的一句话和部分博文内容阐释一下:某个模型有内生性问题(endogeneity issue),是指模型中的一个或多个解释变量与误差项存在相关关系。其含义是指模型中的解释变量有内生性(endogeneity)。

一、可以简单理解为:
与干扰项项相关的变量称为内生变量(endogenous variable)。与干扰项不相关的变量称为外生变量(exogenous variable)对于线性回归模型中的解释变量 X X X,干扰项(不可观测到的因素) u u u,被解释变量 Y Y Y。 一般会有 Y = a X + u Y=aX+u Y=aX+u,也就是说 X X X会对 Y Y Y产生影响,干扰项 u u u也会对 Y Y Y产生影响,且干扰项 u u u X X X无关。那么此时,解释变量 X X X就是外生变量, Y Y Y u u u是相关的,所以可以说被解释变量 Y Y Y是内生变量。但是有时,可能由于某种原因,干扰项也会对 X X X产生一定影响,此时干扰项 u u u和解释变量相关,此时的解释变量 X X X为内生变量。
让我们从一个简单的多元线性回归的例子再次深入探讨一下这个问题,假如存在一个经典的多元回归模型: y = β 1 X 1 + β 2 X 2 + ⋯ + μ y=\beta_1X_1+\beta_2X_2+\dots+\mu y=β1X1+β2X2++μ。假设我们建立的这个多元回归模型中满足4个基本假设:

  1. 线性关系假定,被解释变量( Y Y Y)与解释变量存在线性随机函数关系。
  2. 当所有时期的解释变量X给定时,每一期的随机干扰项均值都为 0。
  3. 球形扰动假定。
  4. 无完全共线假定,解释变量之间无完全共线性。

那么我们借助多元回归模型对 β \beta β回归系数进行普通最小二乘估计(OLS)就是最优线性无偏估计量。在这里 β 1 \beta_1 β1或者 β i \beta_i βi也叫作回归系数,借用这位博主的一句话来说就是:

回归系数是表示变量之间的统计特征,也就是我们站在因果关系之梯第一层级用观测数据归纳出的,它只是对客观事实的描述, y = β 1 X 1 + β 2 X 2 ⋯ + μ y=\beta_1X_1+\beta_2X_2\dots+\mu y=β1X1+β2X2+μ不能说明 X 1 X_1 X1, X 2 X_2 X2就是Y的因。

为了解决模型中变量具有内生性的问题,最常见的方法就选择工具变量的方法。工具变量的方法在上一篇文章已经做过详细介绍,本篇不在展开详细赘述。
一句话来说工具变量的实质就是:
工具变量的实质:把内生解释变量X对Y的影响分成了两部分,即X自身对Y产生影响的外生性部分,以及与扰动项U相关的其他内生部分。

第一步:把X的外生性部分用工具变量Z表示出来。

第二步:然后再把Y对这个外生部分Z进行回归,而得到一致估计量。

reference link

[1] 通俗理解:内生性VS外生性 - 易懂财税的文章 - 知乎
https://zhuanlan.zhihu.com/p/502794801
[2] 因果推理初探(6)——干预工具(下) - 望止洋的文章 - 知乎
https://zhuanlan.zhihu.com/p/117471363

你可能感兴趣的:(人工智能)