【论文导读】Learning Causal Semantic Representation forOut-of-Distribution Prediction

(NeurIPS 2021)的一篇微软亚洲研究院的论文,看看。

这一篇论文主要是提出了一种新的方法CSG,可以识别因果变量和混杂因子,并通过ELBO的重述使得把这两个任务合并为一个。并给出了部分理论保证。

【补充】发现一个知乎上的整理 也贴在这里

《Learning Causal Semantic Representation for Out-of-Distribution Prediction》部分内容整理翻译 - 知乎本文使用 Zhihu On VSCode 创作并发布今天主要要介绍的论文,是被 NeurIPS 2021 接受的论文 《Learning Causal Semantic Representation for Out-of-Distribution Prediction》,作者为 Microsoft Research Asia …https://zhuanlan.zhihu.com/p/428892476

【摘要】

传统的监督学习方法,尤其是深度学习方法,被发现对分布外(OOD)的例子很敏感,这主要是因为学习到的表征由于它们在特定领域的相关性而将语义因素和变化因素混合在一起,而只有语义因素会引起输出。为了解决这个问题,我们提出了一个基于因果推理的因果语义生成模型(CSG),以便对这两个因素进行单独建模,并开发了从单一训练领域进行OOD预测的方法,这是一个常见的、具有挑战性的方法。这些方法基于因果不变性原则,采用变异贝叶斯的新颖设计,既能高效学习,又能轻松预测。理论上,我们证明在一定条件下,CSG可以通过拟合训练数据来识别语义因素,这种语义识别保证了OOD泛化误差的有界性和适应的成功。实证研究表明,OOD的性能比现有的基线有所提高。

【Introduction】

深度学习开启了人工智能的新时代,机器学习模型的潜力被大大释放出来。尽管取得了巨大的成功,但这些方法在很大程度上依赖于一个假设,即来自训练和测试领域的数据遵循相同的分布(即IID假设),而在实践中,测试领域往往是分布外(OOD),也就是说,测试数据的分布与训练数据不同。从输入(或协变量)x预测输出(或标签、响应、结果)y的流行模型在面对分布变化时被发现是错误的,即使是来自本质上不相关的扰动,如图像的位置移动或背景变化[91, 6, 102, 41, 2, 27]。这些现象对机器学习方法的鲁棒性和可信度构成了严重的担忧,并严重阻碍了它们在风险敏感场景中的应用。

纵观这个问题,虽然深度学习模型凭借其强大的近似能力可以提取抽象的表征进行预测,但由于语义因素s(如物体的形状)和变化因素v(如背景、物体位置)之间的相关性(如办公桌经常出现在工作区的背景中,而床则出现在卧室中),表征可能会无意识地将它们混合起来,因此模型也通过这种相关性依赖变化因素v进行预测。然而,这种相关性往往是表面的和虚假的(例如,书桌也可以出现在卧室中,但这并不意味着它是一张床),而且在一个新的领域中可能会发生巨大的变化,使来自v的影响产生误导。因此,我们希望能够学习一个能够识别s与v的表征。

从形式上看,这个目标的本质是利用因果关系进行预测,因为s和v之间的根本区别是只有s是y的原因。它们给机器学习带来的优点是,它们往往是跨领域的普遍性和不变性[97, 87, 93, 77, 16, 96, 98],因此为未见过的领域提供了最可转移和可靠的信息。这种因果关系的不变性已经被证明可以导致适当的领域适应[97, 123],较低的适应成本和较轻的灾难性遗忘[87, 9, 56]。

在这项工作中,我们提出了一个因果语义生成模型(CSG),遵循因果考虑,分别对语义(预测的原因)和变化的潜在因素进行建模,并开发了OOD预测方法,在理论上保证了OOD预测误差的可识别性和有界性。针对OOD预测和因果关系方法通常需要多领域或干预数据的问题,我们专注于最常见的也是最具挑战性的任务——其中只有一个单一的训练领域可用——包括OOD泛化和领域适应。在后者中,无监督的测试领域数据可额外用于训练。这些方法和理论是基于因果不变原则的,该原则建议在各领域之间共享生成机制,而潜在因素分布(即先验p(s, v))发生变化。我们认为,这种因果不变性比许多现有方法所采用的另一个方向的推理不变性更可靠[33, 101, 2, 66, 79]。对于我们的方法,我们设计了ELBO目标的 新颖和微妙 的重述,这样我们就避免了建立和学习两个推理模型的成本。在理论上,我们证明了在某些条件下,CSG可以识别单一训练领域的语义因素,甚至在存在s-v相关的情况下。我们进一步证明了这种识别的优点:对于OOD泛化来说,预测误差是有限度的;对于领域适应来说,测试领域的先验是可以识别的,这导致了准确的预测。总结一下我们的贡献。

- 据我们所知,我们是第一个在理论上保证(在适当的条件下)在单一训练域上识别预测的潜在原因(即语义因素),也是第一个显示这种识别对OOD预测的理论好处。这些结果也有助于生成性表征学习,以揭示学习的内容。

- 我们开发了有效的OOD泛化和领域适应方法,并在现实世界的图像分类任务中取得了比普遍方法更好的性能。

2 相关工作

OOD泛化与因果性。(OOD generalization with causality.)

有一些试验改善了判别性模型的因果行为。Bahadori等人[4]引入了一个正则器,根据其对输出的近似因果效应对输入维度进行重新加权,Shen等人[102]通过在输入样本中摊销因果效应来重新加权训练样本。然后,他们的线性输入-输出假设通过学习表示法得到扩展[4, 41]。最近的一些工作需要身份数据(比标签更细),并通过方差最小化强制执行推理不变性[42],或者利用强大的领域知识来增强图像作为对变异因素的独立干预[79]。这些方法没有引入额外的生成性建模工作,其代价是不变的因果机制的能力有限。

有因果关系的领域适应/泛化。(Domain adaptation/generalization with causality.)

有一些在各种因果假设下开发的方法[97, 123]或使用学习到的因果关系[93, 77]。Zhang等人[123]、Gong等人[35, 36]也考虑了某些机制变化的方式。考虑的因果关系是在直接观察到的变量之间,这可能不太适合像图像像素这样的一般数据,在这些数据中,因果关系反而在于概念上的潜在水平[75, 10, 59]。

为了考虑潜在因素,有领域适应[83, 5, 33, 73, 74]和泛化方法[80, 101, 113],学习具有领域不变的边际分布的表示。已经取得了值得注意的结果。然而,人们发现,这种不变性对于识别真正的语义或降低适应性错误来说,既不充分也不必要([54, 125];也见附录E)。此外,这些方法是基于推理不变性的,可能不如因果不变性可靠(见第3.2节)。

还有一些用于领域适应/泛化的生成方法,对潜在的因素进行建模。Cai等人[18]和Ilse等人[49]引入了一个语义因素和一个领域特征因素。他们假设这两个潜在因素在生成和推理模型中都是独立的,这是不现实的。然后考虑了相关因素[3]。但所有这些工作都没有为领域的变化调整先验,因此求助于推理不变性。Zhang等人[121]考虑了部分观察的操纵变量,同时在联合和后验中仍然假设其与输出的独立性,而适应性与因果不变性不一致。上述方法也没有显示出对识别其潜在因素的保证。Teshima等人[108]利用因果不变性并适应先验,但也假设潜伏独立性,没有分离语义因素。他们需要一些有监督的测试域数据,他们的确定性和可逆机制也表明推理的不变性。此外,大多数领域泛化方法需要多个训练域,但也有例外[89],它们仍在寻求增强领域。相比之下,CSG利用了因果不变性,并保证从单一训练域中识别语义因子,甚至与变异因子相关。

分离的潜在表征(Disentangled latent representations)

也是无监督学习中的兴趣所在。尽管在经验上取得了成功[22, 43, 21],Locatello等人[70]得出结论:在无监督的情况下,不可能保证不相干性。随后的工作引入了监督的方式,如一些潜在的变量观察[71]或样本相似性[20, 72, 104]。可识别的VAE[57]和扩展[58, 117]利用了潜变量的原因变量的数据,并在多样性条件下建立了理论保证。但这些作品没有描述领域的变化,因此不适合用于OOD预测。我们没有对潜在因素进行分解,而是专注于识别语义因素s(第5.1节)及其对OOD预测的益处。附录D显示了更多的相关工作。

3 因果语义生成模型 

为了明确地开发基于因果关系的模型,我们需要它的正式定义:两个变量具有因果关系,表示为 "因→果",if干预原因(通过改变所考虑的系统之外的外部变量)可以改变结果,但反之则不能[85, 88]。通过分析摄影师在一个场景中拍摄一张照片作为x,并将其标记为y的例子,我们按照这个定义建立我们的模型(图1a),附录C提供了其他角度的更多解释。

【论文导读】Learning Causal Semantic Representation forOut-of-Distribution Prediction_第1张图片

 (1)很可能y→x(例如,通过分散摄影师的注意力,用噪音干预标签,不会改变图像)和x→y都不成立(例如,通过打破相机传感器单元干预图像,不会改变摄影师的标签方式),这在[88,1.4节;59]中也有论证。因此,我们引入一个潜变量z来捕捉具有因果关系的因素。同样由于这个原因,我们需要一个生成模型(相对于只学习x→y的判别模型)。

(2) 潜变量z作为潜在的生成因素(如物体形状和质地,成像时的背景和光照),有可能导致x(如改变物体形状或背景会产生不同的图像,但打破相机不会改变形状或背景)和y(如如果物体形状不同,摄影师会给出不同的标签,但噪声破坏标签不会改变形状)。因此,我们将边定位在生成方向z → (x, y),这也是在[78, 88, 108]中采用的。这与之前的工作[18, 49, 48, 19]形成对比,后者将y作为语义因素的原因,当y也是一个噪声观测时,会产生不合理的影响(例如,在数据集中的标签中加入噪声会自动改变物体特征,从而改变图像,而改变物体特征并不会改变标签)。这个区别在[88,1.4节;59]中也有讨论。

(3) 我们将所有的x-y关系归结为某种潜在因素的存在[68,"纯粹的共同原因";51]并排除x-y的边。只要z持有足够的数据信息(例如,在形状、背景等固定的情况下,打破相机不改变标签,噪声破坏标签不改变图像)就可以实现。促进这种结构减少了解释x-y关系的任意性,从而有助于识别(部分)z。这与先前的工作[63, 121, 19]相反,这些工作将y视为x的原因,因为之间没有引入潜在变量。

(4) 并非所有的潜在因素都是y的原因(例如,改变形状可能会改变标签,而改变背景则不会)。因此,我们将潜变量拆分为z=(s,v),并删除v→y边,其中s代表导致y的语义因素,而v描述生成x的变化或多样性。

(5) 两个因素s和v经常有关系(例如,书桌/床的形状倾向于出现在工作区/卧室的背景下),但这通常是一种虚假的关联(例如,把书桌放在卧室里并不会自动改变房间为工作区,也不会把书桌变成床)。所以我们保留了不定向的S-V边缘。这与之前假设独立潜变量的工作[18, 49, 121, 108, 79]相反。虽然v不是y的原因,但明确地对它进行建模是值得的,因为否则它无论如何还是会通过s-v的相关性隐含地混入s中。我们在下面的定义中总结了这些结论。

 3.1 The Causal Invariance Principle

通过上述过程,我们看到(体现在先验p(s, v)中的)s-v相关性倾向于跨领域的变化。在因果观点下,这意味着领域的变化来自于对s或v或两者的(软)干预,导致不同的先验。另一方面,生成的过程可能是因果机制,所以它们享有著名的独立因果机制原则[88, 98],表明它们在对先验的干预下不会受到影响。这导致了 以下是CSG的因果不变性原则。

这种不变性反映了自然界基本规律的普遍性,并在一些先前的工作中得到了考虑[97, 88, 10, 16]。其他作品则引入了领域指数[18, 49, 48, 19]或操纵变量[121, 57, 58]来明确地模拟分布变化。然后,他们需要多个训练领域或额外的观察,而只要潜变量包括所有变化的因素,这种变化也可以在因果不变性下得到解释。

3.2 Comparison with Inference Invariances 

大多数领域适应和泛化方法(包括基于领域不变的表征[33, 101],基于不变的潜在预测者[2, 66, 79])使用跨领域的共享表征提取器。我们注意到在其支持性的例子中(例如,从图像中推断物体位置,从音频中提取基频),因果机制p(x|z)几乎是确定的和可逆的,这样它预先服务于z的信息。形式上,对于一个给定的x,只有一个单一的z值实现了正的p(x|z),而所有其他值导致零。后验通过贝叶斯规则p(z|x)∝p(z)p(x|z)给出的推断表征就集中在这个z值上,它只由因果机制p(x|z)决定,与特定领域的先验p(z)无关。因果不变性就意味着推理不变性。

在更普遍的情况下,因果机制可能是嘈杂的或退化的(图2),这样就有多个z值可以给出正的p(x|z),即它们都可以产生相同的x。由于先验在不同的领域会发生变化(例如,不同的标注者有不同的心态),那么推断规则就会发生本质上的变化,并不是不变的,而因果不变性反而是更基本和可靠的。为了利用因果不变性,我们对测试领域使用不同的先验(CSG-ind和CSG-DA),这比遵循推理不变性给出了不同的、更可靠的预测。 

4 方法 

我们现在开发了基于变异贝叶斯[55, 62]的方法,用于OOD泛化和使用CSG的领域适应。附录F.1显示了所有细节。

4.1 OOD泛化的方法

对于OOD泛化,人们只有来自训练域上的基础数据分布p∗(x,y)的监督数据。将CSG p :=< hp(s, v), p(x|s, v), p(y|s)>通过最大似然E_{p∗(x,y)} [log p(x, y)]拟合到数据上是难以实现的,因为p(x, y) := \int p(s, v, x, y) dsdv 其中p(s, v, x, y) := p(s, v)p(x|s, v) p(y|s), 很难估算。【直接将ELBO拟合很难,因为很难估算联合分布,因此想到采用ELBO】证据下限(ELBO)是一个有推理模型q(s, v|x, y)帮助的可操作代用品,它容易采样且容易进行密度评价。众所周知,)使得q(s, v|x, y)逼近后验p(s, v|x, y) := p(s,v,x,y) /p(x,y) ,同时使Lp, qs,v|x,y (x, y) 成为优化CSG p的log p(x, y)的更严格下界。

然而,监督学习的微妙之处在于,预测仍然很难,因为引入的模型q(s, v|x, y)并不能帮助估计p(y|x)。为了解决这个问题,我们建议采用一个辅助模型q(s, v, y|x),目标是p(s, v, y|x)。它允许在给定x的情况下轻松地对y进行抽样预测,也可以作为所需的推理模型:q(s, v|x, y) = q(s,v,y|x)/ q(y|x) ,其中q(y|x) := R q(s, v, y|x) dsdv也由q(s, v, y|x) 决定。ELBO目标Ep∗(x,y) [Lp, qs,v|x,y (x, y)]就变成了

作为q(s, v, y|x)(而不是q(s, v|x, y))和CSG p的函数,这个目标也促使他们向目标前进。第一项是标准交叉熵(CE)损失的负值,它促使q(y|x)朝着p∗(y|x)的方向发展,一旦实现了这一点,第二项就成为预期ELBO Ep∗(x) [Lp, qs,v,y|x (x)],它促使q(s, v, y|x)朝着p(s, v, y|x)发展,p(x)朝着p∗(x)发展。此外,由于q(s, v, y|x)的目标因子为p(s, v, y|x)=p(s, v|x)p(y|s)(由于图。1a),其中p(y|s)已经是已知的(CSG的一部分),我们可以采用一个较轻的推理模型q(s, v|x)来处理其中的最小难处理部分p(s, v|x),并使用q(s, v|x)p(y|s)作为q(s, v, y|x) 。这使得目标公式(1)变成:

其中q(y|x) := Eq(s, v|x) [p(y|s) ] 。在应用重新参数化技巧[62]之后,可以通过蒙特卡洛来估计期望值。这就是基本的CSG方法。

CSG-ind

为了积极改善OOD的泛化性能,我们考虑使用独立的先验用于测试域的预测(图1b),其中p(s)和p(v)是训练域先验p(s, v)的边际。直观地说,p⊥⊥(s, v)抛弃了训练域中s和v之间的虚假关联(例如,"书桌-工作区"、"床-卧室 "关联),并促进对未知的测试域关联的谨慎的中立信念,以防止所有的可能性(例如,"书桌-卧室"、"床-工作区 "关联)。【说了半天,其实假设因果变量和混杂变量独立是一个很经典的假设】从形式上看,p⊥⊥(s, v)比p(s, v)有更大的熵[24, Thm. 2.6.6],所以它减少了训练域的特定信息,鼓励依赖因果机制来实现更好的概括。这也相当于将do-operator[85]应用于图1a,通过独立的软干预s或v来代表一个随机实验。这样,因果不变性得到了适当的利用,做出了与遵循推理不变性不同且更可靠的预测。我们下面的理论也表明,p⊥⊥(s, v)会导致较小的泛化误差约束(Thm. 6 Remark)。

在方法上,我们需要测试域推理模型q⊥(s, v|x)来预测p⊥(y|x)≈Eq⊥(s,v|x) [p(y|s)],但也需要q(s, v|x)来在训练域上学习。为了节省建立和学习两个推理模型的成本,我们建议用q⊥⊥(s, v|x)来代表q(s, v|x)。注意到它们的目标是由p(s, v|x)=p(s,v) p⊥⊥(s,v) p ⊥⊥(x) p(x) p⊥⊥(s, v|x)关联的,我们制定q(s, v|x)=,因此,当且仅当q⊥⊥(s,v|x)实现其目标时,该q(s,v|x)才实现。这样,目标公式(1)就变成了:

其中。(注意p⊥(s, v)是由CSG p中的p(s, v)决定的)。

 4.2 领域适应的方法 

在领域适应中,人们也有来自测试领域的基础数据分布p˜ ∗ (x)的无监督数据。我们可以利用它们进行更好的预测。根据因果不变性原则(2),我们只需要一个新的先验p˜(s,v),用于测试域CSG p˜ :=< hp˜(s,v),p(x|s,v),p(y|s)>(图1c)。拟合测试域数据可以通过标准ELBO目标与测试域推理模型q˜(s, v|x)来完成:

 预测由p˜(y|x)≈Eq˜(s,v|x) [p(y|s)]给出。与CSG-ind的情况类似,我们仍然需要q(s, v|x)来拟合训练域数据,我们也可以通过使用q˜(s, v|x)来表示q(s, v|x)来避免一个单独的q(s, v|x)模型。按照它们之间的目标关系,我们让q(s, v|x)=p˜(x) p(x) p(s,v) p˜(s,v) q˜(s, v|x),将相同的训练域目标公式(1)重新表述为:

 其中π(y|x) := Eq˜(s,v|x) p(s,v) p˜(s,v) p(y|s) 。由此产生的方法,称为CSG-DA,同时解决两个优化问题Eqs.(4,5)。

4.3 实施和模型选择

为了实现这三种CSG方法,我们只需要在每个方法中建立一个推理模型。附录F.2显示了它从一个一般的判别模型的构造(例如,如何选择它的隐藏节点作为s和v)。在实践中,x的维度往往比y大得多,使得第一个监督项被公式(2,3,5)中的第二个无监督项所淹没。所以我们降低了第二个项的尺度。

正如最近强调的[39],OOD方法应该包括一个模型选择方法,因为它是不简单的,而且会大大影响性能[95, 120]。对于我们的方法,我们使用来自训练领域的验证集进行模型选择。这符合OOD的设置,也是我们下面的理论所建议的,它基于对训练域数据分布的良好拟合而给出了保证。对于CSG-ind/DA,学到的预测器针对的是测试域,所以我们不直接使用它来评估验证精度,而是通过归一化π(y|x)。附录F.3显示了细节。

5 理论

我们现在为语义因素(预测的原因)的识别以及OOD泛化和领域适应的后续优点建立理论。我们专注于分布层面的泛化,而不是从有限样本到相同分布下的未见过的样本,所以我们只考虑无限数据制度。附录A显示了所有的证明和辅助理论。

潜变量识别是很难的[65, 81, 116, 70],因为它超出了观察关系[51, 88]。因此,需要假设来得出明确的结论。

假设3. (Additive noise) 存在非线性函数f和g,其导数在三阶以内有约束,存在独立的随机变量μ和ν,这样p(x|s, v) = pμ(x - f(s, v)),对于连续的y,p(y|s) = pν(y - g(s));对于分类的y,p(y|s) = Cat(y|g(s))。 (Bijectivity) 假设f是bijective,g是injection。

加性噪声假设在因果发现中被广泛采用[51, 17]。它禁止在另一个方向上表达相同的联合[122, Thm. 8; 86, Prop. 23],因此CSG不必要地表示推理不变性。由于这个原因,我们排除了GAN[37]和基于流的[61]实现。双射性是可识别性的一个常见假设[51, 100, 57, 68]。对于更基本的[86, Prop.17; 88, Prop.7.4]因果关系最小化要求[86, p.2012; 88, Def.6.33],它是充分的[86, Prop.17; 88, Prop.7.4]。特别是,s和v可能会有f和g简单地忽略的虚拟维度,这对可识别性提出了另一个模糊性。另一方面,根据普遍承认的流形假设[115, 31],我们可以把X作为低维数据流形,这样的双射作为坐标图存在,它是对原始数据空间的注入,也允许dS + dV < dX 。

5.1 可识别性理论

我们首先正式确定识别语义因素的目标。

定义4(语义识别)。我们说一个学习的CSG p是语义识别的,如果在S×V上存在一个同构体Φ,使得(i)它在S中的输出维度与v无关。Φ^S (s, v) = Φ^S (s, v0 ), ∀v, v0 ∈ V(因此将Φ^S (s, v)表示为Φ^S (s)),并且 (ii) 它是ground truth CSG p ∗的重新参数化。Φ_#[p^∗_{s,v}] = p_{s,v, }p^∗ (x|s, v) = p(x|Φ(s, v)) and p ∗ (y|s) = p(y|Φ S (s)) 。

【一个语义识别】首先是一个同构体,维数与v无关(值有关?),保证先验分布一样,保持条件分布一致。

这里,Φ_#[p^∗_{s,v}]表示Φ对p ∗ s,v的推前分布5,即当(s, v)∼p ∗ s,v时Φ(s, v)的分布。由于ground-truth CSG最多只能通过数据分布p ∗ (x, y)来提供其信息,一个学习良好的CSG在实现p(x, y)= p ∗ (x, y)时,仍然具有参数化(s, v)的自由度。这是由这个重新参数化的Φ描述的(附录:Lemma 9)。在定义的核心,Φ S的v不变性意味着Φ是语义保全的:学习到的模型不会把ground-truth v混入其s中,因此学习到的s持有与ground-truth s等价的信息。

对于相关概念,这种识别不能以s和v之间的统计独立性为特征(与[18, 49, 121]相比),这既不充分[70],也不必要(由于存在虚假的相关关系)。它也比disentanglement[44, 11]弱,后者还要求学到的v是基础真理s的常数。 下面的定理表明,在某些条件下,语义识别可以在单一领域实现。 

 注释:

(1) (条件和直觉)与多域情况[87,93,2]相比,在单个训练域上的识别能力是有代价的,并且需要一定的条件。人们可以想象,在一些极端情况下,例如,所有的桌子都出现在工作区,所有的床都出现在卧室,无法区分y标记的是对象还是背景(不可学习的OOD问题[119])。该定理找到了一个排除此类情况的适当条件:当log p∗ (s,v)是有界的,不允许确定性的s-v关系,因为它们集中了p∗ 因此,s×v中的低维子空间上的(s,v)使其无界。

这也导致了可识别性的直觉:有界logp∗ (s,v)表示一个随机的s-v关系,因此将地面真实值v混合到学习的s中会使s的推断更加嘈杂,这是由于该v的内在多样性/不确定性。由于通过推断的s进行预测,这会降低预测精度,因此违反了“良好学习”的要求。与判别模型相比,CSG做出了更忠实的推断,其因果结构导致了对领域变化的正确描述。

(2) 在条件(i)中,1/σ2µ测量因果机制p(x|s,v)的强度。当它很大时,“强”p(x|s,v)有助于在生成给定x时消除(s,v的值的歧义。Thm公司。5’显示了足够大强度的定量参考。B给出了一个非渐近扩展,表明强度如何权衡定义4中等式的容差。条件(ii)超出了推理不变性。这大致意味着不同的(s,v)值a.s.产生不同的p(x|s,v,因此它们在生成x中的作用变得清晰,这有助于识别。

(3) 该定理与Locatello等人的不可能结果并不矛盾。[70],后者考虑将每个潜在维度与无约束(s,v)解纠缠→ (x,y),而我们只将s作为一个整体→ y边被去除,这破坏了s-v对称性。

5.2 OOD泛化理论

现在我们展示了语义识别对OOD泛化的益处,即预测误差是有界的。注意测试域上的最佳预测器E∗ [y|x]7由相应的地面真值CSG p~∗ 定义, p~∗ 仅在p之前的测试域p~∗∗ (s,v)中 与p∗不同(原则2)。

【论文导读】Learning Causal Semantic Representation forOut-of-Distribution Prediction_第2张图片

在界中,项是测量两个先验之间差异的Fisher散度。由于先前的变化是领域变化的唯一来源,因此该术语还根据对预测的影响来衡量“OOD程度”。该界限还表明,当因果机制p(x|s,v)很强(小σµ)时,由于泛化误差变小,它主导了对先验变化的预测。与其他方法相比,使用CSG强制了因果不变性,因此OOD泛化误差的有界性在实践中变得更合理。

注:边界还显示了CSG ind的优势(第4.1节)。Fisher散度被揭示[28]具有与正向KL散度相似的行为,它对p_{s,v}在p ~_{s,v}的支集的覆盖不足非常敏感,因为log(p ~_{s,v}/p_{s,v})在未覆盖区域上无限大。作为独立的先验p⊥⊥ s、 v具有比ps,v更大的支持,它不太可能错过p ~s,v的支持,因此它导致了通常更小的Fisher散度。因此,CSG ind通常具有比CSG更小的OOD泛化误差界限

5.3领域适应理论

CSG-DA(第4.2节)通过拟合无监督测试领域数据,学习新的先验p~_{s,v},共享因果机制。如果机制是语义识别的,则基本真理测试域先验p∗ s、 v也可以在学习的参数化下被识别,并且预测是精确的。

定理7(域自适应误差)。在Thm。5的条件下,对于具有语义保留重参数化Φ的训练域上的语义识别的CSG p,如果其新的先验p ̄s,v被很好地学习,使得p ̄(x)= ̄p∗ (x) ,则p ~s,v=Φ#[~p∗ s、 v],并且E~[y|x]=E~∗ 任意x的[y|x]∈ 支持(~p∗ x)。与现有的域自适应边界(Appx.E)不同,定理6、7允许在两个域中使用不同的推理模型,从而超越了推理不变性。 【论文导读】Learning Causal Semantic Representation forOut-of-Distribution Prediction_第3张图片

6.实验

对于OOD泛化基线,除了标准的ce损失优化之外没有太多选择,因为域适应方法需要测试域数据,并且大多数域泛化方法退化到具有一个训练域的CE。我们范围内的例外是因果判别法CNBB [41]。对于领域适应,我们考虑公认的方法DANN[33],DAN[73],CDAN [74]和最近引人注目的方法MDD [124]和BNM [25](显示在Appx。表2、3)。Appx。g显示了更多的细节、结果和讨论。10

转移-MNIST。我们首先考虑MNIST上的OOD预测任务,对数字“0”和“1”进行分类。为了实现伪相关,在训练数据中,我们将每个“0”随机水平移位δ_0N(5,1^2)像素,而每个“1”随机水平移位δ_1N(5,1^2)像素。我们考虑具有不同数位位置分布的两个测试域:每个数位在第一个域中不移动δ0 = δ1 = 0,在第二个域中随机移动δ0,δ1∾N(0,2 ^ 2)个像素。我们使用多层感知器来实现所有的方法,这种感知器不是自然的移位不变的。我们为非生成方法使用一个更大的架构来补偿生成方法的额外生成部分。

【论文导读】Learning Causal Semantic Representation forOut-of-Distribution Prediction_第4张图片

性能如表1所示(前2行)。对于OOD一般化,由于与数字的虚假相关,CE被更显著的位置因子误导,并且当位置不能提供预测信息时诉诸随机猜测(甚至更糟)。CNBB改善了立场的混乱,但没有建模因果机制的彻底。相比之下,我们的CSG在未知领域给出了更真实的预测,这要归功于语义因素的识别。CSG-ind的表现甚至更好,证明了使用独立先验进行预测的优点。对于领域适应,CSG-DA取得了最好的结果。现有的适应方法甚至恶化了结果(负迁移),因为误导的位置表示在无监督的测试数据上得到加强。CSG是受益于适应,以适当的方式,确定语义因素。

ImageCLEF-DA是领域适配的标准基准[1]。它有12个类别和三个领域的真实世界图像:加州理工学院-256,ImageNet,帕斯卡VOC 2012。我们选择了四个OOD预测任务C↔P,I↔P,还没有看到足够好的结果。我们采用与[74]相同的设置。如表1(中间4行)所示,CSG-ind再次实现了最好的OOD泛化结果,甚至优于一些域自适应方法。我们的CSG也大多跑赢基线。对于领域适应,CSG-DA在大多数情况下是最好的,在其他情况下与最好的不相上下。

PACS是一个更新的基准数据集[69]。它有7个类别,并以其四个领域命名:照片、艺术、漫画、素描;每个都包含某种风格的图像。我们遵循与[39]相同的设置;特别地,我们将除了测试域之外的所有域汇集在一起作为单个训练域。表1中的结果(底部4行)显示了相同的趋势。CSG-DA甚至优于[39]中报道的大多数领域概括方法,这些方法提供了更多的信息。Appx。表2,3还显示了一个更大的数据集VLCS [30]的结果,其中提出了类似的观察。

可视化。Appx。图5使用LIME [91]将学习到的模型可视化。结果表明,我们的方法更关注语义区域和形状,表明因果表示是学习的。数据集分析。结果表明我们的方法在移位MNIST和PACS(以及VLCS)上比ImageCLEF-DA更有效。这符合可识别性的直觉(Thm。备注(1)):随机位置或汇集的训练域对于每个s显示了不同的v(同时具有误导性的伪相关性),因此更好地保证了识别以克服伪相关性。

消融研究。为了显示分别对s和v建模的好处,我们与CSG的对等物进行比较,该对等物将s和v视为一个整体(等价地,v → y保持不变;参见Appx。方法详情见F.1.4)。Appx。表2,3显示我们的方法在所有情况下都优于这个基线。这表明分离建模使得CSG有意识地将语义表征驱动到专用变量s中.

7结论和讨论

我们提出了一个用于单域OOD预测任务的因果语义生成模型,该模型建立在因果推理的基础上,并分别对语义(预测的原因)和变化因素进行建模。通过因果不变性原理,我们开发了新颖有效的学习和预测方法,并证明了语义可识别性和随之而来的有界泛化误差以及适应的成功。实验表明,性能优于主流基线。

值得注意的是,我们回答了最近关于因果表征学习的前瞻性论文[98]中的问题:我们发现了一个“因果变量可以被恢复”的适当条件,并提供了“关于(因果建模)在泛化方面的优势的令人信服的证据”。此外,将语义从变化中分离出来可以扩展到更广泛的例子。发现神经网络在不同的纹理下改变它们的预测[34,15]。敌对脆弱性[107,38,67]将变异因素扩展到人类不可察觉的特征,即敌对噪声,发现其与语义有很强的相关性[50]。当敏感的变化因素可能影响预测时,这种分离对于公平性也很重要。这项工作也启发了因果表征学习(“给定图形填空”)和因果发现(“给定观察变量链接节点”)之间的双重联系。我们的理论表明,因果发现的可识别性条件(加性噪声假设)也使得因果表征可识别。研究这两项任务之间的一般联系是一项有趣的未来工作。

你可能感兴趣的:(机器学习,人工智能,深度学习)