因果推断深度学习工具箱 - On Inductive Biases for Heterogeneous Treatment Effect Estimation

文章名称

On Inductive Biases for Heterogeneous Treatment Effect Estimation

核心要点

在估计CATE的时候，通常做法是分别估计出不同的potential outcome的结果，而现有做法在单独估计potential outcome的时候没有有效的利用potential outcome之间的结构相似性。试想一下，如果treatment effect是0（干预无效），那么合理的假设是potential outcome是相似的。而现在通常的做法不经意的假设potential outcome是有差别的。比如，现有的方法中引入的一些正则化策略，隐式的鼓励模型在不同potential outcome下具有异质性（结果不相同），即便这种异质性可能并不存在。同时，这种正则化导致没有充分利用共享结构。作者提出了三种方法，包括改进的正则化方法，重参数化模型，以及一种更为灵活的多任务学习结构，这种结构不只是直接估计potential outcome，而结合直接估计effect的目标，间接地引入了potential outcome之间的相似性。

paper的切入点是探索potential outcomes之间结构的相似性，这个角度与现有各种调整confounding bias的方法是正交的，即便在随机实验下，探索potential outcomes之间结构的相似性也能够帮助我们更好的预测CATE和potential outcome。

方法细节

问题引入

文章关注的核心问题是，在Potential Outcome框架下，估计二值策略（binary treatment）的CATE。切入点是探索potential outcomes之间结构的相似性，这个角度与现有各种调整confounding bias的方法是正交的，即便在随机实验下，探索potential outcomes之间结构的相似性也能够帮助我们更好的预测CATE和potential outcome 。除了confounding的问题以外，作者认为CATE估计的另一个关键因素是两个potential outcome之间的差值（的结构）。这一点和现在主流causal effect估计方法首先关注反事实估计，再进行causal effect求解有一些不同。主要原因是，相比每个单独的potential outcome的函数结构来说，potential outcome的差值（在binary的情况下就是causal effect）的结构可能更加简单。
假设某种干预没有治疗效果，理所当然的两种不同的treatment下的potential outcome应该完全一样，在整个人群的分布上也具有同样的结构。同时，即便干预存在因果效应，我们也有理由认为这些potential outcome具有相似或者共享的结构。作者提出的主要依据是，在医学上存在两种biomarkers。一种被观察对象接受了哪一种干预，我们都可以用它（们）来预测potential outcome。另一种是用来预测treatment effect的biomarkers。个人理解，作者其实是在对potential outcome的predictor进行分解。
同时，数据里也观测到了如下图所示的potential outcome的结构与CATE的结构对比。可以看出关于covariates的potential outcome functions都是非线性的，而CATE却是线性的。

CATE structure is simpler than POs themselves

与监督学习和单纯的反事实估计模型不同，估计因果效应，需要准确估计的是两者的差值。假设估计某一个统计量的函数是，直接估计CATE的MSE的上界是分别估计两个potential outcome的MSE的和，即（感兴趣的同学可以参见论文的引文），因此，直接估计CATE能够加速收敛。

具体做法

解决上述问题的最简单的方法是直接估计causal effect，但是这类方法目前都是多阶段的，并且除了causal effect之外，不能给出对potential outcome的估计。但很多时候，我们对potential outcome也非常感兴趣。作者借鉴了最近的一些神经网络causal effect估计方法的观念，提出了一种充分利用共享结构，从而更好的同时估计causal effect和potential outcome的端到端的学习方法。作者称之为inductive bias（归纳偏差，因为通过归纳总结，我们知道不同potential outcome应该具有相似度function结构）。
作者尝试了三种方法，希望能够通过plugin的方式改善预测性能。第一种方法是利用正则化方法，鼓励potential outcome function具有相似度结构，这种方法能够比较容易的和已有方法结合。第二方法是通过重参数化的形式改变现有模型，直接在模型中引入potential outcome输出具有相似性的限制。第三种方法基于多任务学习，提出了一种新的结构网络结构（这种方法其实已经不能plugin了...）。

为了引入合理的inductive bias（不同的potential outcome的结构有比较大的相似），作者以TARNet和TNet（以NN为base model的T-learner）为例，进行改造。TARNet和TNet的区别仅在于，在两个不同treatment的prediction head之间是否有（学习到的）共享的feature space。与文章的改进比较相关的是最后的regularization的部分。通常不同的potential outcome的prediction head是分开进行正则化的，即loss中会加入形如的部分，在取0或1的时候分别表示分别表示对应prediction head的参数。这样的正则化由于没有充分利用结构相似这个信息，导致CATE的估计值很不稳定。

three methods for CATE estimation with inductive bias

第一种做法是，直接改变正则化的形式，即。这种正则化形式，显示的要求两个prediction head的形式相对接近，接近程度可以通过调节。
第二种做法是，把原来分别预测potential outcome的形式，改为分别预测和，而。再改变正则项，即，其中表示直接估计CATE的网络的权重。这样的做法不仅引入了potential outcome结构相似的信息，同时也引入了是和之和的信息。这样的假设有可能存在偏差，导致一些复杂关系学不到。其实这里相当于假设过强，导致heterogeneity被忽略了。
第三种做法，作者基于多任务学习和领域迁移的自主学习share哪些信息，保留哪些信息的idea，提出了FlexTENet。我们可以把网络看作三个信息提取流（器），不同于原有的网络结构，这三股信息提取流在神经网络的每一层都有，包括共享特征层和最终的potential outcome输出层（当然网络最终已经模糊了这两个层的分解）。中间的提取流学习共享信息，或者说学习特征的相似性以及potential outcome的结构相似性，这部分内容其实也起到了balance confounding的作用。同时，为不同的potential outcome分别构造网络进行预测。这样的结构保证每一层可以有不同的共享信息和独立信息。此外，FlexTENet把正则项修改为，，其中。这个正则项在对每一个单独的组成部分进行复杂度限制的同时，鼓励每个potential outcome的prediction head与共享层的距离不要太远

心得体会

covariates decomposition

作者提到的biomarkers，有一些类似于covariates decomposition。在最近一些主流神经网络因果模型中，经常见到的因果图如下。B是我们通常理解的confounder，而C和作者说的第一种biomarker类似，A这里作者没有提到。由于过滤了噪声，相当于进行了特征选择，这种decomposition能够帮助我们更准确的对potential outcome。这一idea已经成为最近很多paper的源泉。这里讲到这篇paper是从potential outcome的函数结构上来解释的，而这个函数是关于covariates的，所以，对函数结构的分解，其实是对covariates的分解。

covariates decomposition

directly predict CATE

paper中提到，直接估计CATE在大部分的时候会比直接估计potential outcome要简单。主要原因是causal effect相对于potential outcome来说会相对小。但是也不排除causal effect变化更为剧烈的情形。另外，X learner能够取得比较好的结果，其实也受益于中间构造的pseudo outcome，而这其实是在直接估计causal effect，间接地是在学习不同potential outcome之间的结构相关性。也许，同时估计causal effect和potential outcome也能带来效果提升。类的DragonNet中的propensity score head，可以再加一些估计相似结构的组件。
虽然，paper里提到了直接估计causal effect的好处，但其实只在第二种方法中实际应用了。

Theoretical justification

paper中没有给出详细的理论证明，只是提到了一些相似的领域有证明，所以主要是讲了一些idea。

因果推断深度学习工具箱 - On Inductive Biases for Heterogeneous Treatment Effect Estimation

文章名称

核心要点

方法细节

问题引入

具体做法

心得体会

covariates decomposition

directly predict CATE

Theoretical justification

你可能感兴趣的:(因果推断深度学习工具箱 - On Inductive Biases for Heterogeneous Treatment Effect Estimation)