Schölkopf B, Janzing D, Peters J, et al. On causal and anticausal learning[J]. arXiv preprint arXiv:1206.6471, 2012.
有点意思的类似综述的文章,不算solid。感觉Schölkopf大佬很喜欢挖一些很浅但是不太寻常的坑。这篇比较有意思的点是区分了因果对不同问题的影响程度(促进一些问题的解决、对其他问题没有帮助甚至有弊端)
迅速过一遍,基本放的是带笔记的翻译……
我们考虑在可以推断出基本因果模型的情况下进行函数估计的问题。这对流行的场景有影响,如协变量转移、概念漂移、转移学习和半监督学习。我们认为,对于一个特定的问题,因果知识可能会促进一些方法,而排除其他方法。特别是,我们为半监督学习何时能提供帮助提出了一个假设,并以经验结果证实了这一点。
机器学习的很大一部分研究旨在利用变量之间的统计关联或依赖关系来对某些变量进行预测。这在我们有大量的训练集,但没有详细的基础数据生成过程模型的情况下尤其有用。有人认为,统计学上的关联总是由于潜在的因果结构(Reichenbach, 1956)。这就提出了一个问题:机器学习如何能从这些结构的知识中获益。本文在最简单的情况下讨论了这个问题,即因果结构只包括因和果,而且没有未观察到的混杂因素。我们认为,在某些假设下(详见下文),联合分布中存在不对称性,对统计机器学习有影响。我们试图对这些影响给出一个系统的概述。本文并不证明定理;相反,它的目的是提供洞察力并建立联系。它不包含新的实验数据,而是对其他三项研究报告中的表现进行元分析,重点是因果结构对半监督学习的影响。我们相信,因果结构对机器学习的影响在概念上是很有趣的,我们希望它们能引起人们的兴趣。
一个说明统计观点和因果观点之间差异的例子是鹳鸟频率和人类出生率之间的相关性(Matthews, 2000)。我们也许能够训练出一个很好的出生率预测器,它使用鹳鸟的频率(以及其他特征)作为输入。然而,如果政治家问我们是否可以通过增加鹳鸟的数量来提高出生率,我们将不得不告诉他们,这种干预并不包括在统计学习的标准即定假设中。然而,在实践中,干预措施可能是相关的,分布可能会随着时间的推移而改变,我们可能想把在不同条件下或从不同但相关的规律中记录的数据结合起来。
我们简要地总结一下Pearl(2000);Spirtes等人(1993)开创的因果图解模型的一些方面。这些模型通常被认为是一组变量X1, . . Xn,以及一个有顶点Xi和表示直接因果影响的箭头的无环图。因果马尔科夫假设指出,每个顶点Xi在给定它的父母的条件下在图中是独立于它的非后代的,至关重要的是,这将因果语义(这对预测系统对干预的反应很重要)与具有经验上可测量的后果的东西联系起来。鉴于来自联合分布的观察结果,它允许我们测试依赖性声明中的条件,从而推断出(受制于被称为忠实性的通用性假设)哪些因果模型与观察到的分布一致。但这通常不会使我们得到一个独特的因果模型。
另一种方法被称为功能因果模型(又称结构因果模型或非线性结构方程模型),从一组共同独立的噪声变量开始,每个顶点一个,每个顶点计算其噪声变量和其父母的确定性函数。这些函数不仅描述观察结果之间的关系,而且还描述系统在干预下的行为方式:通过改变一些函数的输入,可以计算出将一些变量设置为特定值的效果。一个函数模型需要一个联合分布,它和图一起满足因果马尔可夫假设(Pearl, 2000)。反之亦然,每个因果图解模型都可以表达为一个功能性的因果模型。
功能性观点使我们能够提出在纯概率论观点中很难设想的因果模型的假设。这种假设(见下文)使我们能够区分X → Y和X ← Y。这一点无法通过条件独立性测试来实现,因为如果我们只有两个变量,就不存在非实质性的条件独立性。
因此,函数观点为推断输入-输出学习问题的因果方向提供了可能性。也许有些令人惊讶的是,学习问题并不需要总是从原因中预测效果,我们将论证预测的方向对哪些任务容易,哪些任务难有影响。
符号。我们考虑图1所示的因果结构,有两个观察变量,用随机变量建模。变量C代表原因,E代表结果。我们用P(C)和P(E)表示它们的分布(重载的符号P),用书法符号C和E表示域。为简单起见,我们假设它们的分布相对于某种乘积度量有一个联合密度。我们把这个密度的值写成P(c, e),把边际密度的值写成P(c)和P(e),同样记住这三个P是不同的函数--我们总是可以从参数中看出是指哪个函数。在一些地方,我们将使用条件密度,总是隐含地假设它们存在。
本文自始至终使用了以下假设。
因果充分性:我们假设有两个独立的噪声变量NC和NE,被建模为具有分布P(NC )和P(NE)的随机变量。
函数j和噪声NE通过E=\phi(C, NE)共同决定P(E|C)。我们认为P(E|C)是将原因C转化为效果E的机制。
机制和输入的独立性:我们最后假设机制是 "独立于 "原因的分布(即独立于P(C)=P(NC ),参见图1),即P(E|C)不包含关于P(C)的信息,反之亦然;特别是,如果P(E|C)在某个时间点发生变化,没有理由相信P(C)在同一时间发生变化。
在Lemeire & Dirkx (2007)的启发下,Janzing & Scholkopf ¨ (2010)已经使用了这个假设。如果我们处理的是一个自然界的机制,而这个机制并不关心我们向它提供的东西,那么这个假设是合理的。例如,在从基因组序列预测剪接模式的问题上,可以假设基本的剪接机制(由核糖体驱动)在进化上是稳定的,因此与物种无关(Schweikert等人,2009),即使基因组序列及其统计特性不同。直观地说,如果我们学习一个剪接的因果模型,我们可以希望对输入统计数据的变化更加稳健。
独立性假设引入了因果之间的不对称性,因为它通常会在向后的方向上被违反,即P(E)和P(C|E)是相关的,因为两者都继承了P(E|C)和P(C)的属性(Janzing & Scholkopf ¨, 2010; Daniusis等人ˇ, 2010)。
功能性因果模型的丰富性: 事实证明,双变量功能性因果模型非常丰富,以至于无法推断出因果方向。为了直观地理解该类模型的丰富性,请考虑简单的情况,即噪声NE只能取有限的值,例如{1, ... ... , v}. 例如,这种噪声可能会对j产生如下影响:有一组函数{jn: n = 1, . . . v},噪声在任何时候都随机切换其中一个,即j(c, n) = jn(c)。函数ϕn可以实现任意不同的机制,因此很难从这样一个复杂模型的经验数据中确定j。有鉴于此,令人惊讶的是,仅凭条件独立性就能让我们进行具有实际意义的因果推断,如PC和FCI算法所实现的那样(Spirtes等人,1993;Pearl,2000)。然而,防止噪声切换构造的额外假设可以大大促进从数据推断因果图的任务。直观地说,这种假设需要控制机制j对噪声NE的变化的敏感性,从而控制P(E|C)的复杂性
加性噪声模型:其中一个假设被称为ANM,代表加性噪声模型(Hoyer等人,2009)。这个模型假设ϕ(C, NE)=φ(C)+NE,针对某个函数φ:
并且已经证明在一般情况下,只要NE的均值为零,就可以推断出φ和NE。这意味着,除了一些例外情况,比如φ是线性的,NE是高斯的情况,两个实值随机变量X和Y的给定联合分布最多可以由一个ANM模型在一个方向(我们认为是因果方向)上拟合。后非线性ANM模型也有类似的说法(Zhang & Hyvarinen ¨ , 2009)E = ψ(φ(C) + NE),其中ψ是一个可逆函数。在实践中,可以通过将效应回归到原因上来拟合 ANM 模型,同时强制要求残余噪声变量独立于原因(Mooij 等人,2009)。如果这是不可能的,那么这个模型就是不正确的(例如,原因和结果是互换的,噪声不是加性的,或者有混杂因素;在后两种情况下,该方法不能找到因果方向)。
ANM在本文中起着重要的作用;首先,下面的方法将预设我们知道什么是因,什么是果;其次,我们将对ANM进行概括,以处理我们有几个形式为(1)、共享相同φ的模型的情况。下面几节概述了因果方向是如何影响各种学习情景的,其中部分内容依赖于ANM等假设。
Storkey(2009)的全面工作已经描述了第2.1.1节和3.2.1节讨论的情况,但没有描述其他需要进一步假设的情况。他还描述了P(C)和P(E|C)都发生变化的几种情况,例如,如果数据集是根据C和E的共同效应的值或E的效应通过样本选择获得的,以及数据集对应于C和E的共同原因的不同值的情况。 Pearl & Bareinboim(2011)介绍了一个标记不同领域或数据集的变量S,并解释了S与相关变量的因果关系的方式是如何与跨领域转移因果或统计陈述有关。他们的可迁移性概念采用了条件独立性来表达机制的不变性,这并不普遍,不足以包括我们所想到的所有类型的不变性。例如,代表因果机制的函数可以保持不变,而未观察到的噪声项可能在不同的数据集上有所不同。最后,我们指出,本工作的早期版本出现在(Scholkopf等人 ¨ ,2011)。
一些由因推断果的问题:
我们现在转向相反的方向,即我们将结果视为输入,并试图预测导致它的原因变量的值。这种情况,我们称之为反因果预测,可能看起来很不自然,但它实际上在机器学习中是无处不在的。例如,考虑从图像中预测一个手写数字的类别标签的任务。因果结构如下:比如说,一个人打算写数字7,这个意图导致了一个产生数字7图像的运动模式--在这个意义上,类标签Y导致了图像X。
【因果表征学习也可以分类到这一部分?学习符合因果的特征】
P(X|Y )代表从Y产生X的因果机制,它与原因的分布P(Y)是独立的。另一方面,P(Y |X)对P(Y)的分布变化很敏感。因此,一般来说,在估计P(Y |X)时,最好先对P(X|Y )进行建模,然后利用贝叶斯法则P(Y |X)=P(X|Y )P(Y )/P(X)构建P(Y |X)。
举个简单的例子,假设X = Y + NX,其中Y和NX都是相互独立且均匀分布的。图4显示了Y和X的散点图。期望值E(X|Y )在Y中是线性的,P(X|Y )可以很容易描述。然而,我们可以看到,E(Y |X)是相当复杂的;它在X中是非线性的,其形状在很大程度上取决于P(Y)的分布。
其实整个风格和因→果基本相同,目的还是学P(Y|X)或者Y=\Phi(X)+N_Y,但是实际上的因果关系是Y→X
Inverting Conditionals: 我们可以把条件P(Y |X)看作是将P(X)转化为P(Y)的机制。在某些情况下,我们不会因为这种机制而失去任何信息
定义1(injective conditionals)如果没有两个分布P(X)!=P_0(X),则条件分布P(Y |X)被称为注入式(injective),若
例1 (全等级随机矩阵) 设X, Y有有限的范围。那么P(Y |X)由一个随机矩阵M给出,并且当且仅当M具有全等级时是注入的。请注意,只有当|X|≤|Y|时,这才可能。
例2(后非线性模型)让X、Y为实值,让Y=ψ(φ(X)+NY ),NY⊥X是一个后非线性模型,其中φ和ψ是注入的。那么Y的分布唯一地决定了φ(X)+NY的分布,因为ψ是可逆的。这反过来又唯一地决定了φ(X)的分布,只要与P(NY)的卷积是可逆的。由于ψ是可逆的,这就唯一地决定了X的分布。
Localizing distribution change: 给出从P(C, E)采样的数据点和从P_0 (E) != P(E)采样的额外点,我们希望决定P(C)或P(E|C)是否发生了变化。(之后可以分别用P(C)和P(E|C)变化的情况处理)为了说明适当的假设使这个问题可以解决,我们粗略地提出一些想法。设E=φ(C)+NE,两个分布P(E, C)和P_0(E, C)的φ相同,但噪声NE的分布或C的分布发生变化。让P(φ(C))表示φ(C)的分布。5 那么效果的分布由以下几个方面给出
其中P'(φ(C))=P(φ(C))或P'(N_E)=P(N_E)。
例如,在以下情况下,我们可以决定哪种情况是真的:
1) 如果P(E)的傅里叶变换包含零点,那么其中一些对应于P(φ(C))的频谱中的零点,其他对应于P(NE)的频谱中的零点。然后我们可以检查哪些零点仍然出现在P 0(E)中。
2)假设P(φ(C))和P'(φ(C))是不可分解的,并且P(NE)和P'(NE)是零平均的高斯;那么分布P(E)=P(φ(C)) ∗ P(NE)通过将P(E)与仍能产生密度的最大可能宽度的高斯进行解卷,唯一地确定了P(φ(C))。
Estimating causal conditionals: 给定P' (E),在P(C)保持不变的假设下估计P' (E|C)。假设P(E,C)和P'(E,C)是由加性噪声模型E=φ(C)+NE产生的,P(C)和φ相同,而NE的分布发生了变化。我们有
。因此,P 0 (NE)可以通过去卷积得到,P 0 (NE) = P(φ(C)) ∗ -1 P 0 (E)。这样,我们就可以计算出新的条件P 0(E|C)。
Conditional ANM: 给出两个数据集,分别由E = φ(C) + NE和E0 = φ(C 0 ) + N0 E产生。我们修改Mooij等人(2009)的算法以获得共享函数φ,强制执行单独的独立性C⊥NE和C 0⊥N0 E。
这可以解释为一个广义的ANM模型,en强制条件独立在E|i = φ(C|i)+NE|i,其中i∈{1, 2}是一个索引,C⊥NE |i。
对所有描述的方法进行评估已经超出了本文的范围。我们着重于评估我们关于SSL难度的主要预测;关于在迁移学习中应用条件性ANM的一个玩具例子,见[1]。
半监督式分类 我们将SSL算法的性能与只使用标记数据的基础分类器的性能进行比较。对于许多例子来说,X是矢量值的。我们将每个数据集分配到三个类别中的一个:
1. Anticausal/Confounded:(a)数据集中至少有一个特征Xi是待预测的Y类的影响(Anticausal)(也包括Xi和Y之间的循环因果关系);(b)数据集中至少有一个特征Xi与待预测的Y类有一个未观察到的共同原因(Confounded)。在(a)和(b)中,机制P(Y |Xi)可以依赖于P(Xi)。对于这些数据集,来自P(X)的额外数据可能因此改善预测。
2. 因果关系:数据集中的一些特征是该类的原因,而没有任何特征(a)是该类的影响或(b)与该类有共同的原因。如果我们对原因和机制的独立性的假设成立,那么SSL在这些数据集上应该是徒劳的。
3. 不明确:难以被归入上述类别的数据集。这方面的一些原因是文件不完整或缺乏领域知识。
在实践中,当我们认为X和Y之间的依赖性主要是由于X导致了Y,尽管可能有额外的混杂影响,但我们已经把一个数据集算作因果关系。
我们首先分析一本关于SSL的书中的基准章节的结果(Chapelle等人(2006)的表21.11和21.13),对于100个标记的训练点的情况。该章将11种SSL方法与基础分类器1-NN和SVM进行了比较。在[1]中,我们详细介绍了我们对本章中使用的八个数据集的主观分类。
鉴于我们的假设,令人鼓舞的是(图5),SSL在一个因果数据集中没有明显提高准确率,但它在大多数反因果/证实的数据集中都有帮助。然而,从这一小部分数据集中很难得出结论;此外,还有两个问题可能会混淆视听:(1)实验是在归纳的环境下进行的。归纳法使用未标记的数据来得出分类器,然后将其应用于未知的测试集;相反,归纳法使用测试输入来进行预测。这有可能使性能的提高不受数据集是因果还是反因果的影响;(2)所使用的SSL方法涵盖了广泛的范围,并不是基础分类器的扩展;此外,SecStr数据集的结果是基于一套不同于其他基准的方法。
我们接下来考虑26个UCI数据集和六个不同的基础分类器。最初的结果来自于(Guo等人,2010)的表III和表IV,目前按照上述数据集的类别重新进行分析。Guo等人(2010)的综合结果让我们有了这样的奢望:(1)只考虑自我训练,这是监督学习对无标签数据的扩展,即如果无标签数据集是空的,我们会恢复基础方法的结果(在这种情况下,自我训练会在第一次迭代时停止)。这让我们可以将SSL方法与它的相关基础算法进行比较。此外,(2)我们只包括了Guo等人(2010)所考虑的归纳法,而不包括转化法(参考我们上面的讨论)。
网页[1]描述了我们对26个UCI数据集的主观分类,分为反因果/确证、因果或不明确。 e
在图6中,我们观察到SSL并没有明显降低三个因果数据集的错误率,但它确实提高了几个反因果/有根据的数据集的性能。这也符合我们的假设:如果机制和输入是独立的,SSL对因果数据集没有帮助。
半监督回归(SSR)分类问题往往是固有的不对称的,因为输入是连续的,输出是分类的。值得欣慰的是,我们在回归的情况下获得了类似的结果。为此,我们考虑了co-regularized least squares regression(co-RLSR)算法,与Brefeld等人(2006)在32个真实世界的数据集(其中两个是相同的,所以考虑了31个数据集)上的常规RLSR进行比较。在随后的分析之前,我们把它们分为因果关系/反因果关系/不清楚。
我们认为其中7个数据集是反因果的,即目标变量可以被认为是(部分)预测因子的原因;图7显示,在所有这些情况下,SSR降低了均方根误差(RMSE)。剩下的九个数据集可以被认为是因果关系,图8显示,这些数据集的性能通常没有什么改善。如同Brefeld等人(2006年)一样,我们使用Wilcoxon签名等级检验来评估在反因果和因果情况下,SSR是否优于超视距回归。无效假设是:SSR产生的RMSE与监督回归产生的RMSE之间的差异分布是围绕0对称的(即SSR没有帮助)。在反因果数据集上,P值为0.0156,而在因果数据集上为0.6523。因此,我们在5%的显著性水平上拒绝了反因果情况下的无效假设,但在因果情况下没有。
如果人们对从另一个变量中预测一个变量感兴趣,那么了解这些变量的因果结构是有帮助的。我们概述了因果和反因果方向的预测含义,特别是提出了这样一个假设:在因果机制和输入的独立假设下,半监督学习在反因果或混杂问题上比在因果问题上效果更好。我们对文献结果的初步元分析似乎支持这一说法。