因果推断深度学习工具箱 - On Inductive Biases for Heterogeneous Treatment Effect Estimation

文章名称

On Inductive Biases for Heterogeneous Treatment Effect Estimation

核心要点

在估计CATE的时候,通常做法是分别估计出不同的potential outcome的结果,而现有做法在单独估计potential outcome的时候没有有效的利用potential outcome之间的结构相似性。 试想一下,如果treatment effect是0(干预无效),那么合理的假设是potential outcome是相似的。而现在通常的做法不经意的假设potential outcome是有差别的。比如,现有的方法中引入的一些正则化策略,隐式的鼓励模型在不同potential outcome下具有异质性(结果不相同),即便这种异质性可能并不存在。同时,这种正则化导致没有充分利用共享结构。作者提出了三种方法,包括改进的正则化方法,重参数化模型,以及一种更为灵活的多任务学习结构,这种结构不只是直接估计potential outcome,而结合直接估计effect的目标,间接地引入了potential outcome之间的相似性。

paper的切入点是探索potential outcomes之间结构的相似性,这个角度与现有各种调整confounding bias的方法是正交的,即便在随机实验下,探索potential outcomes之间结构的相似性也能够帮助我们更好的预测CATE和potential outcome。

方法细节

问题引入

文章关注的核心问题是,在Potential Outcome框架下,估计二值策略(binary treatment)的CATE。切入点是探索potential outcomes之间结构的相似性,这个角度与现有各种调整confounding bias的方法是正交的,即便在随机实验下,探索potential outcomes之间结构的相似性也能够帮助我们更好的预测CATE和potential outcome 。除了confounding的问题以外,作者认为CATE估计的另一个关键因素是两个potential outcome之间的差值(的结构)。这一点和现在主流causal effect估计方法首先关注反事实估计,再进行causal effect求解有一些不同。主要原因是,相比每个单独的potential outcome的函数结构来说,potential outcome的差值(在binary的情况下就是causal effect)的结构可能更加简单。
假设某种干预没有治疗效果,理所当然的两种不同的treatment下的potential outcome应该完全一样,在整个人群的分布上也具有同样的结构。同时,即便干预存在因果效应,我们也有理由认为这些potential outcome具有相似或者共享的结构。作者提出的主要依据是,在医学上存在两种biomarkers。一种被观察对象接受了哪一种干预,我们都可以用它(们)来预测potential outcome。另一种是用来预测treatment effect的biomarkers。个人理解,作者其实是在对potential outcome的predictor进行分解。
同时,数据里也观测到了如下图所示的potential outcome的结构与CATE的结构对比。可以看出关于covariates的potential outcome functions都是非线性的,而CATE却是线性的。

CATE structure is simpler than POs themselves

与监督学习和单纯的反事实估计模型不同,估计因果效应,需要准确估计的是两者的差值。假设估计某一个统计量的函数是 ,直接估计CATE的MSE的上界是分别估计两个potential outcome的MSE的和,即 (感兴趣的同学可以参见论文的引文),因此,直接估计CATE能够加速收敛。

具体做法

解决上述问题的最简单的方法是直接估计causal effect,但是这类方法目前都是多阶段的,并且除了causal effect之外,不能给出对potential outcome的估计。但很多时候,我们对potential outcome也非常感兴趣。作者借鉴了最近的一些神经网络causal effect估计方法的观念,提出了一种充分利用共享结构,从而更好的同时估计causal effect和potential outcome的端到端的学习方法。作者称之为inductive bias(归纳偏差,因为通过归纳总结,我们知道不同potential outcome应该具有相似度function结构)。
作者尝试了三种方法,希望能够通过plugin的方式改善预测性能。第一种方法是利用正则化方法,鼓励potential outcome function具有相似度结构,这种方法能够比较容易的和已有方法结合。第二方法是通过重参数化的形式改变现有模型,直接在模型中引入potential outcome输出具有相似性的限制。第三种方法基于多任务学习,提出了一种新的结构网络结构(这种方法其实已经不能plugin了...)。

为了引入合理的inductive bias(不同的potential outcome的结构有比较大的相似),作者以TARNet和TNet(以NN为base model的T-learner)为例,进行改造。TARNet和TNet的区别仅在于,在两个不同treatment的prediction head之间是否有(学习到的)共享的feature space。与文章的改进比较相关的是最后的regularization的部分。通常不同的potential outcome的prediction head是分开进行正则化的,即loss中会加入形如的部分, 在 取0或1的时候分别表示分别表示对应prediction head的参数。这样的正则化由于没有充分利用结构相似这个信息,导致CATE的估计值很不稳定。

three methods for CATE estimation with inductive bias

第一种做法是,直接改变正则化的形式,即。这种正则化形式,显示的要求两个prediction head的形式相对接近,接近程度可以通过调节。
第二种做法是,把原来分别预测potential outcome的形式,改为分别预测和,而。再改变正则项,即,其中表示直接估计CATE的网络的权重。这样的做法不仅引入了potential outcome结构相似的信息,同时也引入了是和之和的信息。这样的假设有可能存在偏差,导致一些复杂关系学不到。其实这里相当于假设过强,导致heterogeneity被忽略了。
第三种做法,作者基于多任务学习和领域迁移的自主学习share哪些信息,保留哪些信息的idea,提出了FlexTENet。我们可以把网络看作三个信息提取流(器),不同于原有的网络结构,这三股信息提取流在神经网络的每一层都有,包括共享特征层和最终的potential outcome输出层(当然网络最终已经模糊了这两个层的分解)。中间的提取流学习共享信息,或者说学习特征的相似性以及potential outcome的结构相似性,这部分内容其实也起到了balance confounding的作用。同时,为不同的potential outcome分别构造网络进行预测。这样的结构保证每一层可以有不同的共享信息和独立信息。此外,FlexTENet把正则项修改为,,其中。这个正则项在对每一个单独的组成部分进行复杂度限制的同时,鼓励每个potential outcome的prediction head与共享层的距离不要太远

心得体会

covariates decomposition

作者提到的biomarkers,有一些类似于covariates decomposition。在最近一些主流神经网络因果模型中,经常见到的因果图如下。B是我们通常理解的confounder,而C和作者说的第一种biomarker类似,A这里作者没有提到。由于过滤了噪声,相当于进行了特征选择,这种decomposition能够帮助我们更准确的对potential outcome。这一idea已经成为最近很多paper的源泉。这里讲到这篇paper是从potential outcome的函数结构上来解释的,而这个函数是关于covariates的,所以,对函数结构的分解,其实是对covariates的分解。


covariates decomposition

directly predict CATE

paper中提到,直接估计CATE在大部分的时候会比直接估计potential outcome要简单。主要原因是causal effect相对于potential outcome来说会相对小。但是也不排除causal effect变化更为剧烈的情形。另外,X learner能够取得比较好的结果,其实也受益于中间构造的pseudo outcome,而这其实是在直接估计causal effect,间接地是在学习不同potential outcome之间的结构相关性。也许,同时估计causal effect和potential outcome也能带来效果提升。类的DragonNet中的propensity score head,可以再加一些估计相似结构的组件。
虽然,paper里提到了直接估计causal effect的好处,但其实只在第二种方法中实际应用了。

Theoretical justification

paper中没有给出详细的理论证明,只是提到了一些相似的领域有证明,所以主要是讲了一些idea。

你可能感兴趣的:(因果推断深度学习工具箱 - On Inductive Biases for Heterogeneous Treatment Effect Estimation)