因果推断深度学习工具箱 - LEARNING DISENTANGLED REPRESENTATIONS FOR COUNTERFACTUAL REGRESSION

文章名称

LEARNING DISENTANGLED REPRESENTATIONS FOR COUNTERFACTUAL REGRESSION

核心要点

同之前CFR-IS是同一批作者,也是在之前基础上的改进。文章主要针对binary treatment的场景,能够用来估计CATE(当然也可以估计ATE)。作者基于CFR-IS[1],结合RSB-Net[2]中提出的分解covariates为3种隐变量的思路,利用3个表示学习网络分别学习从原始covariates学习这三种隐变量的表示。随后,只利用这3种隐变量中和outcome预测相关的两种变量进行factual outcome的预测。并在预测factual outcome时利用confounder(即同时影响treatment assignment和outcome prediction的隐变量)隐变量对样本进行加权。并且,只在与outcome predictor相关的隐变量上减少不同treatment带来的差异(也就是计算discrepancy)。
个人认为亮点是,1)清晰地分解了covariates;2)同时,在不同场景更细致的利用了3种不同隐变量的组合。文章思路简洁清晰,ICLR。

方法细节

问题引入

熟悉因果推断的同学们知道(或者看过前边的文章),现在估计因果推断的方法需要解决的两个主要问题是1)missing counterfactual;2)selection bias。RSB-Net[2]的文章里已经提到了分解covariates,也就是说,并不是所有的covariates对selection bias都有贡献,一股脑的放进去做adjustment会带来方差,同时也会损失对outcome的预测信息。如果能拆出来只对treatment assignment有影响的covariates成分,只对outcome prediction有影响的covariates成分,以及同时对outcome prediction和treatment assignment有影响的covariates成分(也就是confounder),那么就能减缓上边说的问题。
同时,CFR-IS[1]中提到了,需要通过weighting来平衡样本,在factual prediction的时候,缓解selection bias。这个weighting的计算是依赖于propensity score的。IPW类方法的问题,就在于propensity score的估计可能不准确(比如,模型假设有问题)。所以,提升了propensity score的准确度,进一步提升了causal effect估计的准确度。

3 types of latent variables

此外,为了抽取信息,仍然要进行表示学习,所以 , , 都关于covariates的函数。

具体做法

作者建立了3个表示学习网络,,,两个outcome prediction网络,以及propensity score网络。按照CFR-IS[1]中提出的逻辑,计算公式(3),也就是weighted supervised learning of factual。值得注意的是,是只基于confounder的。的具体公式,可以参见CFR-IS[1]。公式(5)是为了更好的学习这个weight而引入的propensity score学习loss,也可以参见CFR-IS[1]。

loss function

值得重点关注的是公式(4),其不像CFR-IS[1]和[CFR][3]等一系列方法一样,直接在所有covariates学习到的样本表示上消减discrepancy。而是巧妙地利用了,collider的结构,在不观测到outcome 的情况下, 和 是相互独立的。所以,可以通过不断地消除不同treatment下 的差异,来减少selection bias。

代码实现

(留坑待填...)

心得体会

3 type or 2 type

与RSB不同,DR-CFR把三种隐变量拆解的很清楚,而没有把confounder和outcome predictor混合在一起。这样做的好处是,没有混合的confounder,可以单独的用来做样本加权来辅助解决selection bias的问题。同时confounder和treatment predictor可以用来更好的估计propensity score,而不会引入outcome predictor这种噪声。

make use of collider

利用collider结果,来消除的分布差异,从而减少selection bias是非常巧妙地思路。这样减少了需要计算分布差异的向量的维度(原来是维度很高的,现在是低维度的),能够解决CFR-IS[1]提出的disc过小的问题。

文章引用

[1] Hassanpour, N., & Greiner, R. (2019). CounterFactual Regression with Importance Sampling Weights. IJCAI.
[2] Zhang, Z., Lan, Q., Ding, L., Wang, Y., Hassanpour, N., & Greiner, R. (2019). Reducing Selection Bias in Counterfactual Reasoning for Individual Treatment Effects Estimation. ArXiv, abs/1912.09040.
[3] Shalit, U., Johansson, F.D., & Sontag, D. (2017). Estimating individual treatment effect: generalization bounds and algorithms. ICML.

你可能感兴趣的:(因果推断深度学习工具箱 - LEARNING DISENTANGLED REPRESENTATIONS FOR COUNTERFACTUAL REGRESSION)