因果推断深度学习工具箱 - Learning Decomposed Representation for Counterfactual Inference

文章名称

Learning Decomposed Representation for Counterfactual Inference

核心要点

沿袭了DR-CFR的思路,把covariates分解成confounder ,Adjustment 和instrument ,准确的找出confounder,解决因为控制非confounder而带来的bias。作者通过分析因果图,利用随机变量(条件)独立性,并最大化Adjustment 对outcome的预测能力,以及Instrument 对treatment的预测能力 ,做到尽量准确(不多不漏)的分解covariates到3中不同类型的latent variable(Instrument ,Adjustment 和confounder )。

方法细节

问题引入

同DR-CFR[1]一样,作者认为当前的因果推断方法,把所有的covariates都当做confounders反而会引入新的bias(比如,由于样本噪声,模型会用一些实际上不同时影响treatment assignment和outcome prediction的特征来进行样本平衡,造成对outcome的估计存在偏差。)。虽然DR-CFR[1]也把covariates分成了3中不同类型的latent variables,但是由于没有最大化对treatment的预测能力(DR-CFR[1]里没有对也就是这里的做限制),导致instrument 和confounder 不一定能够被有效的区分开(不仅仅是和区分不开会造成bias,区分不开和也会有bias,参见[2]),最极端的情况下,,。

covariates decomposition

具体做法

通过分析上边的因果图,可以发现,

  • Adjustment 和treatment 应该是完全独立的,即,添加这个限制可以保证和里的元素不会被嵌入到中(因为数据的相关性上,他们应该是和不独立的);应该能够尽可能的预测好,这样做能保证里的信息不要漏到别的要素里去;结合两者,尽可能做到不多不漏。
  • 如果balancing做的好,和将独立,并且和将没有关系,即。其实,这部分可以理解为,做好不同treatment下的confounder平衡之后,到的因果关系被去掉了,当给定的时候,本来collider结构和将不独立的,反而边独立了。更重要的是,本来可以通过影响,现在也变成独立了。在给定之后,将和完全独立(也就是前边的条件独立)。这样做的好处和一样,确保别的元素不会被嵌入到中。同时,应该能够尽可能的准确估计。这样做也是为了保证里的信息不要漏到别的要素里去。
  • 最后,我们发现outcome prediction是和与都有关系的。因此需要利用两部分的信息(平衡好的和),准确的估计factual和counterfactual。

基于上述分析结果,作者采用三种正则化的方式来分离covariates。

  • 第一个正则化是最小化不同treatment下,的分布差异,也就是。同时,最小化利用预测的损失。其中,disc是discrepancy,代表两个分布的差异,可以用IPM来表示,详情参见DR-CFR[1]。
    loss to split A
  • 第二个正则化是用来balancing不同treatment下的特征分布。如图所示,不同treatment下的confounder的分布差异将被最小化。值得注意的是,这里的特征的分布是被在样本级别加权的,之前的方法钟,加权只存在于factual prediction的loss里边。并且,这里的是学习出来的参数,并不是用propensity score来当做weight值的。
    loss to balance C
  • 第三个正则化是用来最小化,不同treatment下Instrument 的差异。同样,这里也在样本层面利用进行了加权。这样做的原因是,意味着样本在不同treatment下是平衡的,只要平衡了样本之后,和之间的依赖关系才被阻断,进而。所以,这里必须进行样本加权,并且权重和第一个loss里的权重是一致的。同时,外层的表示所以上做分布均衡,求和好里边的部分,意味着“给定”。
    loss to split $I$

    除此之外,还有一些加强效果的改进,比如正交正则化,强制进行covariaites分解。
  • 借鉴[2]中的思路,把神经网络的网络权重看做是输入对输出的影响的大小。那么,平均每一层的权重后得到的网络权重矩阵是输入对输出的整体影响的大小。代表对的影响,或者加成分解到的比率。其他同理(上标代表转置)。所以,如果能够充分分解,则这些矩阵应该是正交的(为了消除平凡接,矩阵的元素和为1)。
    image.png

    最后,需要对outcome进行预估,估计损失如下图所示,
    weighted factual loss

作者仍然采用交替优化的方式来优化权重和其他参数。值得注意点是,是在两个loss中都存在的。

alternative minimizing

代码实现

(留坑待填...)


pseudo code

心得体会

weighting in

在这里加权,其实是期望模拟balancing中的weighting方法,只不过结合了分布最小化的思路。如果权重是propensity score,那么其实就是IPW的方法。其他的weighting方法是直接学习对应的weight,来避免对propensity score模型的强依赖(IPW中propensity score模型不准,一切就都不准了)。

distribution discrepancy minimization means independency

其实,所有的disc都是用来让两种随机变量独立。其中,和独立,和独立(在给定的情况下),和独立。最小化分布差异的时候,用到的随机变量分布,和划分准则(即中的下标),代表了谁和谁独立。

multiple treatment/distribution disc

其实,可以利用pair-wise的方法来做多个treatment的独立。但是这样的计算量比较大,也许可以找一些边界,来进行夹逼。

文章引用

[1] N. Hassanpour and R. Greiner. Learning disentangled representations for counterfactual
regression. In International Conference on Learning Representations, 2020.
[2] K. Kuang, P. Cui, B. Li, M. Jiang, S. Yang, and F. Wang. Treatment effect estimation with
data-driven variable decomposition. In Thirty-First AAAI Conference on Artificial Intelligence,

你可能感兴趣的:(因果推断深度学习工具箱 - Learning Decomposed Representation for Counterfactual Inference)