文章名称

LEARNING DISENTANGLED REPRESENTATIONS FOR COUNTERFACTUAL REGRESSION

核心要点

同之前CFR-IS是同一批作者，也是在之前基础上的改进。文章主要针对binary treatment的场景，能够用来估计CATE（当然也可以估计ATE）。作者基于CFR-IS[1]，结合RSB-Net[2]中提出的分解covariates为3种隐变量的思路，利用3个表示学习网络分别学习从原始covariates学习这三种隐变量的表示。随后，只利用这3种隐变量中和outcome预测相关的两种变量进行factual outcome的预测。并在预测factual outcome时利用confounder（即同时影响treatment assignment和outcome prediction的隐变量）隐变量对样本进行加权。并且，只在与outcome predictor相关的隐变量上减少不同treatment带来的差异（也就是计算discrepancy）。
个人认为亮点是，1）清晰地分解了covariates；2）同时，在不同场景更细致的利用了3种不同隐变量的组合。文章思路简洁清晰，ICLR。

方法细节

问题引入

熟悉因果推断的同学们知道（或者看过前边的文章），现在估计因果推断的方法需要解决的两个主要问题是1）missing counterfactual；2）selection bias。RSB-Net[2]的文章里已经提到了分解covariates，也就是说，并不是所有的covariates对selection bias都有贡献，一股脑的放进去做adjustment会带来方差，同时也会损失对outcome的预测信息。如果能拆出来只对treatment assignment有影响的covariates成分，只对outcome prediction有影响的covariates成分，以及同时对outcome prediction和treatment assignment有影响的covariates成分（也就是confounder），那么就能减缓上边说的问题。
同时，CFR-IS[1]中提到了，需要通过weighting来平衡样本，在factual prediction的时候，缓解selection bias。这个weighting的计算是依赖于propensity score的。IPW类方法的问题，就在于propensity score的估计可能不准确（比如，模型假设有问题）。所以，提升了propensity score的准确度，进一步提升了causal effect估计的准确度。

3 types of latent variables

此外，为了抽取信息，仍然要进行表示学习，所以，，都关于covariates的函数。

具体做法

作者建立了3个表示学习网络，，，两个outcome prediction网络，以及propensity score网络。按照CFR-IS[1]中提出的逻辑，计算公式(3)，也就是weighted supervised learning of factual。值得注意的是，是只基于confounder的。的具体公式，可以参见CFR-IS[1]。公式(5)是为了更好的学习这个weight而引入的propensity score学习loss，也可以参见CFR-IS[1]。

loss function

值得重点关注的是公式(4)，其不像CFR-IS[1]和[CFR][3]等一系列方法一样，直接在所有covariates学习到的样本表示上消减discrepancy。而是巧妙地利用了，collider的结构，在不观测到outcome 的情况下，和是相互独立的。所以，可以通过不断地消除不同treatment下的差异，来减少selection bias。

代码实现

（留坑待填...）

心得体会

3 type or 2 type

与RSB不同，DR-CFR把三种隐变量拆解的很清楚，而没有把confounder和outcome predictor混合在一起。这样做的好处是，没有混合的confounder，可以单独的用来做样本加权来辅助解决selection bias的问题。同时confounder和treatment predictor可以用来更好的估计propensity score，而不会引入outcome predictor这种噪声。

make use of collider

利用collider结果，来消除的分布差异，从而减少selection bias是非常巧妙地思路。这样减少了需要计算分布差异的向量的维度（原来是维度很高的，现在是低维度的），能够解决CFR-IS[1]提出的disc过小的问题。

文章引用

[1] Hassanpour, N., & Greiner, R. (2019). CounterFactual Regression with Importance Sampling Weights. IJCAI.
[2] Zhang, Z., Lan, Q., Ding, L., Wang, Y., Hassanpour, N., & Greiner, R. (2019). Reducing Selection Bias in Counterfactual Reasoning for Individual Treatment Effects Estimation. ArXiv, abs/1912.09040.
[3] Shalit, U., Johansson, F.D., & Sontag, D. (2017). Estimating individual treatment effect: generalization bounds and algorithms. ICML.

因果推断深度学习工具箱 - LEARNING DISENTANGLED REPRESENTATIONS FOR COUNTERFACTUAL REGRESSION