SYNERGIES BETWEEN DISENTANGLEMENT AND SPARSITY: A MULTI-TASK LEARNING PERSPECTIVE

SYNERGIES BETWEEN DISENTANGLEMENT AND SPARSITY: A MULTI-TASK LEARNING PERSPECTIVE 解偶与稀疏性之间的协同作用:多任务学习的视角

  • Abstract
  • 1. Introduction
    • 1.1. Contributions
    • 1.2 Background
  • 2. Disentanglement and Sparse Task-Specific Predictors Improve Generalization
    • 2.1. MLE invariance to linear feature transformations
    • 2.2. An advantage of disentangled representations
  • 3. Sparse Multi-Task Learning for Disentanglement
    • 3.1. Task & data generating process
    • 3.2. Main identifiability result
    • 3.3. Assumptions of Theorem 3.1
    • 3.4. Tractable bilevel optimization problems for sparse multitask learning
  • 4. Related Work
  • 5. Experiments
    • 5.1. Disentanglement in 3D Shapes
    • 5.2. Sparse task-specific predictors in few-shot learning
      • D.3 META-LEARNING EXPERIMENTS

SPARSITY: A MULTI-TASK LEARNING PERSPECTIVE
解偶与稀疏性之间的协同作用:多任务学习的视角

在这里插入图片描述

Abstract

虽然人们常说解偶表示 (disentangled representations) 对于下游任务有益,但目前对其的经验和理论理解有限。在这项工作中,我们提供了证据表明,结合稀疏基预测器的解偶表示改善了泛化性能。在多任务学习的背景下,我们证明了一个新的可辨识的 (identifiability) 结果,它提供了最大稀疏基预测器产生解偶表示的条件。在这一理论结果的启发下,我们提出了一种基于稀疏促进的双层优化问题的实际学习解偶表示的方法。最后,我们探索了基于群lasso多类SVM基预测器的这种算法的元学习版本,并导出了一个可行的对偶形式。它在标准的少样本分类基准测试中取得了有竞争力的结果,而每个任务只使用了部分学习到的表示。

1. Introduction

最近关于自监督学习的文献提供了证据,即在大规模数据集上学习表示可以在各种下游任务上取得强大的性能(Devlin等,2018; Chen等,2020),特别是在训练数据有限的少样本学习场景中(Brown等,2020b; Dosovitskiy等,2021; Radford等,2021)。除了在多个任务之间进行迁移外,这些学到的表示还能提高对分布变化的鲁棒性(Wortsman等,2022),并实现了令人惊叹的基于文本条件的图像生成(Ramesh等,2022)。然而,对后者的初步评估已经凸显了与组合性相关的缺点(Marcus等,2022),这表明需要新的算法创新来取得进一步的进展。

另一条研究线路主张将因果推理的思想与机器学习系统集成,以实现更强大和可迁移的机器学习系统(Pearl,2019;Schölkopf,2019;Goyal&Bengio,2022)。因果表示学习最近作为一个旨在定义和学习适用于因果推理的表示的领域而出现(Schölkopf等人,2021)。这些思想与学习解偶表示(Bengio等人,2013)密切相关。非正式地说,当表示的组成部分与自然且可解释的变化因素(如物体位置、颜色或形状)一一对应时,表示被认为是解偶的。尽管有大量的研究通过可识别性的视角调查了在哪些条件下解偶是可能的(Hyvärinen&Morioka,2016;2017;Hyvärinen等人,2019;Khemakhem等人,2020a;Locatello等人,2020a;Klindt等人,2021;Von Kügelgen等人,2021;Gresele等人,2021;Lachapelle等人,2022;Lippe等人,2022b;Ahuja等人,2022c),但较少有研究探讨解偶表示如何对下游任务有益。其中一些工作主要提供经验而非理论上的证据,证明解偶表示对其有用性的支持或反对(Locatello等人,2019;van Steenkiste等人,2019;Miladinovic ́等人,2019;Dittadi等人,2021;Montero等人,2021)。我们相信我们的工作可以为何时以及为什么解偶表示有助益提供一些理论上的见解。

在这项工作中,我们探索了解偶表示和稀疏任务特定预测器在多任务学习中的协同作用。我们的贡献的核心是假设对于每个下游任务,只有少数一部分因素对任务是有用的,并且这个子集可能会从一个任务变化到另一个任务。我们将这样的任务称为稀疏任务,将它们对应的有用因素的集合称为它们的支撑集。这个假设最初是由Bengio等人(2013年第3.5节)提出的:“正在训练的特征集可能被用于多个具有不同(且未知)相关特征子集的任务。考虑到这些因素,我们得出结论,特征学习的最稳健方法是尽可能地解偶因素,尽量少地丢失关于数据的信息”。这个策略与当前的自监督学习趋势(Radford等人,2021)一致,只是它更注重解偶表示。

1.1. Contributions

我们的主要贡献如下:

  • 本文将“稀疏任务假设”形式化,并从理论和实证的角度论证了当该假设成立时,解偶表示结合稀疏正则化的任务特定预测器可以比偶合表示及其对应的预测器更好地进行泛化(第2节)。
  • 我们引入了一个新的可辨识性结果(定理3.1),该结果展示了如何通过将任务特定预测器正则化为最大稀疏性来利用多个稀疏监督任务学习共享的解偶表示(第3.2节)。我们注意到,使用监督是与许多最近的结果相一致的,这些结果利用了更或多或少弱的监督形式来保证可辨识性。与许多现有的可辨识性结果相反,我们的结果允许统计上相关的潜在因素以及观测和潜在因素之间的非可逆映射。
  • 受到这一结果的启发,我们提出了一个可行的双层优化问题(问题(6)),用于学习共享表示并将任务特定预测器正则化为稀疏表示(第3.4节)。我们通过展示我们的方法确实可以在基于3D Shapes数据集(Burgess和Kim,2018)构建的任务上解偶潜在因素来验证我们的理论。
  • 最后,我们将这个双层优化问题与元学习文献中的形式进行了联系。受到我们的可辨识性结果的启发,我们改进了现有的方法(Lee等人,2019),其中任务特定预测器现在是分组稀疏支持向量机(SVM)。我们展示了这种新的元学习算法在miniImageNet基准测试(Vinyals等人,2016)上实现了有竞争力的性能,同时只使用了一小部分表示。

我们强调,尽管相关,第2节和第3节的理论贡献是独立且独特的。事实上,第2节展示了如何通过解偶表示结合稀疏正则化来改善泛化能力,而第3节则展示了如何通过将任务特定预测器正则化为稀疏表示来在多任务学习环境中诱导解偶。

Section 2的理论贡献是展示了解偶表示和稀疏正则化如何改善泛化能力。它强调了解偶表示和稀疏性之间的关系,并解释了为什么这种组合可以在多任务学习中表现出更好的性能。
Section 3的理论贡献是提出了一种可辨识性结果,该结果说明通过将任务特定预测器正则化为最大稀疏性,可以在多个稀疏监督任务中学习共享的解偶表示。它强调了在多任务学习设置中如何通过稀疏正则化来诱导解偶,并提供了相应的数学分析。

1.2 Background

在这一部分,我们正式介绍了偶合(entangled)和解偶(disentangled)表示的概念。首先,我们假设存在某个真值编码器函数 f θ : R d → R m f_\theta: \mathbb{R}^d \rightarrow \mathbb{R}^m fθ:RdRm,它将观测值 x ∈ X ⊆ R d x \in X \subseteq \mathbb{R}^d xXRd(例如图像)映射到其相应的可解释且通常是较低维度的表示 f θ ( x ) ∈ R m f_\theta(x) \in \mathbb{R}^m fθ(x)Rm,其中 m ≤ d m \leq d md。这个真值编码器的确切形式取决于具体的任务,也取决于机器学习从业者认为什么是可解释的。学习得到的编码器函数用 f θ ^ : R d → R m f_{\hat{\theta}}: \mathbb{R}^d \rightarrow \mathbb{R}^m fθ^:RdRm表示,不应与真值表示 f θ f_\theta fθ混淆。例如, f θ ^ f_{\hat{\theta}} fθ^可以由一个神经网络参数化。在整个过程中,我们将使用以下关于解偶的定义。

Definition 1.1(解偶表示 Disentangled Representation)(Khemakhem等,2020a; Lachapelle等,2022)。对于学习到的编码器函数 f θ ^ : R d → R m f_{\hat{\theta}}: \mathbb{R}^d \rightarrow \mathbb{R}^m fθ^:RdRm,如果存在一个可逆对角矩阵 D D D和一个排列矩阵(a permutation matrix) P P P,使得对于所有 x ∈ X x \in \mathcal X xX f θ ^ ( x ) = D P f θ ( x ) f_{\hat{\theta}}(x) = DP f_{\theta}(x) fθ^(x)=DPfθ(x),则称其相对于真值表示 f θ f_{\theta} fθ是解偶的。否则,编码器 f θ ^ f_{\hat{\theta}} fθ^被称为偶合的。

这个P排列矩阵(permutation matrix)在定义中的作用是对真值表示的分量进行重新排序,以使其与学习得到的编码器表示的分量一一对应。这种重新排序可以通过排列矩阵的乘法来实现。
具体而言,当真值表示的分量和学习得到的编码器表示的分量之间存在不同顺序或错位时,可以使用排列矩阵来重新排列地面真值表示的分量,使其与学习得到的编码器表示的分量一致。
排列矩阵是一个方阵,其中每一行和每一列只有一个元素为1,其余元素均为0,且每一行和每一列的1的位置都不相同。通过乘以排列矩阵,可以将真值表示的分量按照一定的顺序重新排列,以与学习得到的编码器表示的分量对应起来。

直观地说,当表示的各个组件与真值表示的组件之间存在一对一的对应关系(可通过重新缩放实现),则表示是解偶的。需要注意的是,还存在一些较为宽松的解偶概念,允许对因素进行逐个非线性可逆变换(Hyvärinen&Morioka,2017; Hyvärinen等,2019)。

Notion
大写粗体字母表示矩阵,小写粗体字母表示向量。整数集合从1到n用 [ n ] [n] [n]表示。我们用 ∣ ∣ ⋅ ∣ ∣ || \cdot || ∣∣∣∣表示向量的欧几里德范数和矩阵的Frobenius范数。对于矩阵 A ∈ R k × m A \in \mathbb{R}^{k \times m} ARk×m ∣ ∣ A ∣ ∣ 2 , 1 = ∑ j = 1 m ∣ ∣ A : j ∣ ∣ ||A||_{2,1} = \sum_{j=1}^m ||A_{:j}|| ∣∣A2,1=j=1m∣∣A:j∣∣ ∣ ∣ A ∣ ∣ 2 , 0 = ∑ j = 1 m 1 ∣ ∣ A : j ∣ ∣ ≠ 0 ||A||_{2,0} = \sum_{j=1}^m \mathbb{1}_{||A_{:j}|| \neq 0} ∣∣A2,0=j=1m1∣∣A:j∣∣=0,其中 1 1 1是指示函数。编码器函数的真值参数为 θ \theta θ,而学习得到的表示的参数为 θ ^ \hat{\theta} θ^。在整个过程中,我们遵循这种约定处理所有参数。附录A中的表1. 总结了所有符号。

2. Disentanglement and Sparse Task-Specific Predictors Improve Generalization

在本节中,我们比较了偶合和解偶表示在稀疏下游任务上的泛化性能。首先展示了在线性等价表示(偶合或解偶)上计算的最大似然估计器(在问题(1)中定义)会得到相同的模型(命题2.2)。然而,当与稀疏基预测器结合时,解偶表示具有更好的泛化性能(命题2.4和图1)。

  • Assumption 2.1 (Linear equivalence). 首先,假设学习得到的表示 f θ ^ f_{\hat{\theta}} fθ^与真值表示 f θ f_{\theta} fθ是线性等价的,即存在一个可逆矩阵 L L L,使得对于所有 x ∈ X x \in \mathcal X xX f θ ^ ( x ) = L f θ ( x ) f_{\hat{\theta}}(x) = Lf_{\theta}(x) fθ^(x)=Lfθ(x)

需要注意的是,尽管假设它们线性等价,但学习得到的表示 f θ ^ f_{\hat{\theta}} fθ^可能并非解偶的(按照定义1.1);在这种情况下,我们称该表示为线性偶合的。当我们提到解偶表示时,我们令 L : = D P L := DP L:=DP。Roeder等人(2021)已经证明了许多常见的方法学习得到的表示在线性等价的意义上是可识别(identifiable)的,例如用于分类的深度神经网络、对比学习(Oord等,2018; Radford等,2021)和自回归语言模型(Mikolov等,2010; Brown等,2020a)

可识别性是指能够唯一地识别生成表示的表示形式或一组参数

2.1. MLE invariance to linear feature transformations

考虑以下最大似然估计器(MLE):
W ^ n ( θ ^ ) : = arg ⁡ max ⁡ W ~ ∑ ( x , y ) ∈ D log ⁡ p ( y ; η = W ~ f θ ^ ( x ) ) (1) \hat W_n(\hat{\theta}) := \arg \max_{\tilde W} \sum_{(x,y)\in \mathcal D}\log p(y;\eta = \tilde{W} f_{\hat{\theta}}(x)) \tag{1} W^n(θ^):=argW~max(x,y)Dlogp(y;η=W~fθ^(x))(1)其中, y y y表示标签, D : = ( x ( i ) , y ( i ) ) i = 1 n D := {(x^{(i)}, y^{(i)})}_{i=1}^n D:=(x(i),y(i))i=1n是数据集, p ( y ; η ) p(y; \eta) p(y;η)是由参数 η ∈ R k \eta \in \mathbb{R}^k ηRk参数化的标签分布, W ^ ∈ R k × m \hat W \in \mathbb{R}^{k \times m} W^Rk×m是任务特定的预测器。以下结果表明,在问题(1)中定义的最大似然估计器对特征的可逆线性变换是不变的。请注意,这几乎是由于MLE对重参数化的不变性而直接推导出来的。

  • Proposition 2.2.(MLE Invariance to Invertible Linear Transformations of the Features MLE对特征的可逆线性变换的不变性) W ^ n ( θ ^ ) \hat W_n ^{(\hat \theta)} W^n(θ^) W ^ n ( θ ) \hat W_n^{(\theta)} W^n(θ)分别是使用表示 f θ ^ f_{\hat \theta} fθ^ f θ f_\theta fθ解决问题(1)的解(我们假设它们在 D D D上是唯一的)。如果存在可逆矩阵 L L L,使得对于所有 x ∈ X x \in \mathcal X xX f θ ^ ( x ) = L f θ ( x ) f_{\hat \theta}(x) = Lf_\theta(x) fθ^(x)=Lfθ(x),那么我们有对于所有 x ∈ X x \in \mathcal X xX W ^ n ( θ ^ ) f θ ^ ( x ) = W ^ n ( θ ) f θ ( x ) \hat W_n^{(\hat \theta)}f_{\hat \theta}(x) = \hat W_n^{(\theta)}f_\theta(x) W^n(θ^)fθ^(x)=W^n(θ)fθ(x).

SYNERGIES BETWEEN DISENTANGLEMENT AND SPARSITY: A MULTI-TASK LEARNING PERSPECTIVE_第1张图片

命题2.2 表明,由问题(1)学习得到的模型 p ( y ; W ^ n ( θ ^ ) f θ ^ ( x ) p(y; \hat W_n^{(\hat \theta)}f_{\hat \theta}(x) p(y;W^n(θ^)fθ^(x) L L L无关,即模型在解偶和线性偶合的表示上是相同的。因此,我们期望解偶和线性偶合的表示在下游任务上的表现相同。

2.2. An advantage of disentangled representations

现在我们将看到,在实际数据生成过程真正稀疏时,将稀疏正则化添加到问题(1)中如何有利于解偶表示

  • Assumption 2.3 (Data generation process). 输入-标签对(input-label pairs)是从分布 p ( x , y ) : = p ( y ∣ x ) p ( x ) p(x,y) := p(y | x)p(x) p(x,y):=p(yx)p(x)中独立同分布(i.i.d.)抽样得到的,其中 p ( y ∣ x ) : = p ( y ; W f θ ( x ) ) p(y | x) := p(y;Wf_\theta(x)) p(yx):=p(y;Wfθ(x)),其中 W ∈ R k × m W \in \mathbb{R}^{k \times m} WRk×m是真实的系数矩阵使得 ∣ ∣ W ∣ ∣ 2 , 0 = l ||W||_{2,0} =l ∣∣W2,0=l

为了形式化假设,即只有特征 f θ ( x ) f_\theta(x) fθ(x)的子集实际上对预测目标 y y y有用,我们假设真实的系数矩阵 W W W是列稀疏的,即 ∣ ∣ W ∣ ∣ 2 , 0 = l < m ||W||_{2,0} = l < m ∣∣W2,0=l<m。在这个假设下,将最大似然估计(MLE)受限制如下是合理的: W ^ n ( θ ^ , l ) : = arg ⁡ max ⁡ ∣ ∣ W ~ ∣ ∣ 2 , 0 ≤ l ∑ ( x , y ) ∈ D log ⁡ p ( y ; W ~ f θ ^ ( x ) ) (2) \hat W_n^{(\hat{\theta},l)} := \arg \max_{||\tilde{W}||_{2,0} \leq l} \sum_{(x,y)\in \mathcal D}\log p(y;\tilde{W} f_{\hat{\theta}}(x)) \tag{2} W^n(θ^,l):=arg∣∣W~2,0lmax(x,y)Dlogp(y;W~fθ^(x))(2)为了分析这个额外约束对泛化误差的影响,我们分别考虑估计误差(也称为方差)和逼近误差(也称为偏差bias)。

估计误差是指参数的真实值与从统计模型获得的估计值之间的差值。
逼近误差是指模型的预测输出与实际输出之间的差值。

估计误差: 问题(2)的稀疏约束减小了被考虑的假设类的大小,可以最小化负对数似然,并且因此应该减少偶合和解偶表示的估计误差(即减少过拟合)。稀疏正则化是一种控制预测器复杂度的被广泛理解的方法,例如参考 Bickel et al. (2009)、Lounici et al. (2011a) 和 Mohri et al. (2018)。

逼近误差: 解偶表示和偶合表示在问题(2)的稀疏约束对其逼近误差的影响上存在差异。下面的命题将帮助我们了解这种正则化如何有利于解偶表示而不利于偶合表示。

  • Proposition 2.4 (Population MLE for Linearly Entangled Representations). (线性偶合表示的总体最大似然估计). 设 W ^ ∞ ( θ ^ ) \hat W_\infty^{(\hat{\theta})} W^(θ^)是基于总体的最大似然估计的解,即 W ^ ∞ ( θ ^ ) = arg ⁡ max ⁡ W ~ E p ( x , y ) log ⁡ p ( y ; W ~ f θ ^ ( x ) ) \hat W_\infty^{(\hat{\theta})} = \arg \max_{\tilde{W}} \mathbb{E}_{p(x,y)} \log p(y; \tilde{W} f_{\hat \theta}(x)) W^(θ^)=argmaxW~Ep(x,y)logp(y;W~fθ^(x))(假设解是唯一的)。如果假设2.1( f θ ^ f_{\hat \theta} fθ^ f θ f_\theta fθ是线性等价)和假设2.3(数据生成过程)成立,则有 W ^ ∞ ( θ ^ ) = W L − 1 \hat W_\infty^{(\hat{\theta})}= W L^{-1} W^(θ^)=WL1.

SYNERGIES BETWEEN DISENTANGLEMENT AND SPARSITY: A MULTI-TASK LEARNING PERSPECTIVE_第2张图片

根据命题2.4,如果表示 f θ ^ f_{\hat \theta} fθ^是解偶的,即 L = D P L=DP L=DP,那么 ∣ ∣ W ^ ∞ ( θ ^ ) ∣ ∣ 2 , 0 = ∣ ∣ W ( D P ) − 1 ∣ ∣ 2 , 0 = ∣ ∣ W ∣ ∣ 2 , 0 = l ||\hat W_\infty^{(\hat{\theta})}||_{2,0} = ||W(DP)^{-1}||_{2,0} = ||W||_{2,0} = l ∣∣W^(θ^)2,0=∣∣W(DP)12,0=∣∣W2,0=l。因此,在这种情况下,问题(2)中的稀疏约束不会将总体最大似然估计器排除在其假设空间之外,并且在不引入估计器偏差的情况下减少了泛化差距(Bickel et al., 2009; Lounici et al., 2011a; Mohri et al., 2018)。相反,当 f θ ^ f_{\hat \theta} fθ^是线性偶合的时,总体最大似然估计可能具有比真实值更多的非零列,从而被问题(2)的假设空间排除在外,进而导致估计器偏差。

conclusion 上述观点表明,如果实际任务足够稀疏,并且样本数量较少,那么解偶表示应该会从稀疏正则化中受益,因为它可以减少估计误差(方差)而不增加逼近误差(偏差)。相比之下,如果逼近误差的增加比估计误差的减少更为重要,偶合表示可能不会从稀疏正则化中受益。

Empirical validation 经验验证 现在我们展示一个简单的模拟实验,以说明上述观点:解偶表示与稀疏正则化相结合可以获得更好的泛化性能。图1比较了 L 1 L_1 L1 L 2 L_2 L2正则化线性回归(Tibshirani,1996; Hoerl&Kennard,1970)的泛化性能,计算结果基于解偶表示和线性偶合表示,这些表示在训练过程中被冻结。当 l / m = 5 % l/m = 5\% l/m=5%且样本数量非常小的情况下,与其他选择相比,与解偶表示相结合的 L 1 L_1 L1正则化线性回归获得了更好的泛化性能。可以看到,解偶、稀疏正则化以及真实数据生成过程中的足够稀疏性是实现显著改进的必要条件,这与我们的讨论一致。最后,当样本数量增加时,所有方法的性能相似。有关更多详细信息和讨论,请参阅附录D.1。

SYNERGIES BETWEEN DISENTANGLEMENT AND SPARSITY: A MULTI-TASK LEARNING PERSPECTIVE_第3张图片

D.1:
我们考虑以下的数据生成过程:我们从高斯分布 N ( 0 , Σ ) N(0,\Sigma) N(0,Σ)中采样真实特征 f θ ( x ) f_{\theta}(x) fθ(x),其中 Σ ∈ R m × m \Sigma \in \mathbb{R}^{m \times m} ΣRm×m,且 Σ i , j = 0. 9 ∣ i − j ∣ \Sigma_{i,j} = 0.9^{|i-j|} Σi,j=0.9ij。标签由 y = w ⋅ f θ ( x ) + ϵ y = w \cdot f_{\theta}(x) + \epsilon y=wfθ(x)+ϵ给出,其中 w ∈ R m w \in \mathbb{R}^m wRm ϵ ∼ N ( 0 , 0.04 ) \epsilon \sim N(0,0.04) ϵN(0,0.04),且 m = 100 m = 100 m=100。真实权重向量 w w w N ( 0 , I m × m ) N(0,I_{m \times m}) N(0,Im×m)中采样一次,并将其中一些分量掩盖为零:我们在有意义特征的比例 (l/m) 上进行变化,从非常稀疏的设置 (l/m = 5%) 到较少稀疏的设置 (l/m = 80%)。对于每种情况,我们通过改变训练样本数量从 25 到 150 来研究样本复杂度,但在更大的测试数据集(1000 个样本)上评估泛化性能。

为了生成线性偶合表示,我们将真实的潜变量 f θ ( x ) f_{\theta}(x) fθ(x)乘以一个随机采样的正交矩阵 L,即 f θ ^ ( x ) : = L f θ ( x ) f_{\hat{\theta}}(x) := Lf_{\theta}(x) fθ^(x):=Lfθ(x)。对于解偶表示,我们简单地将真实潜变量考虑为 f θ ^ ( x ) : = f θ ( x ) f_{\hat{\theta}}(x) := f_{\theta}(x) fθ^(x):=fθ(x)需要注意的是,原则上我们可以考虑一个非正交的可逆矩阵 L 作为线性偶合表示,并对解偶表示进行分量级别的重新缩放。我们之所以选择不这样做并采用我们的方法,是因为 f θ ^ ( x ) f_{\hat{\theta}}(x) fθ^(x)的协方差矩阵的条件数对于线性偶合表示和解偶表示是相同的,因此可以进行更公平的比较。

对于缠绕表示和解偶表示的情况,我们使用Lasso回归和Ridge回归解决回归问题,其中关联的超参数(正则化强度)通过在输入训练数据集上进行5折交叉验证来确定。同时使用Lasso回归和Ridge回归可以帮助我们展示鼓励稀疏性的效果。

在图1中最稀疏的情况( l / m = 5 % l/m = 5\% l/m=5%)下,我们观察到Disentangled-Lasso方法在训练样本较少时具有最好的性能,而Entangled-Lasso方法表现最差。随着训练样本数量的增加,Entangled-Lasso的性能接近Disentangled-Lasso,然而,Disentangled-Lasso方法在样本效率上更高。Disentangled-Lasso在仅有25个训练样本时就可以获得大于0.5的 R 2 R^2 R2值,而其他方法的 R 2 R^2 R2接近于零。此外,Disentangled-Lasso在仅有50个训练样本时就收敛到最优 R 2 R^2 R2值,而Entangled-Lasso需要150个样本才能达到相同的结果。

需要注意的是,由于 L 2 L_2 L2范数在正交变换下是不变的,所以预期中Disentangled-Ridge和entangled-Ridge方法之间没有区别,因此Disentangled-Ridge和entangled-Ridge的方法之间没有改进。另外,在底层任务中具有稀疏性是重要的。对于l/m = 5%的情况,Disentangled-Lasso显示出最大的改进,随着底层任务的稀疏性降低(l/m = 80%),这种改进减小。

R²(R-squared,又称为判定系数或拟合优度)是统计学中用于衡量回归模型拟合程度的指标。它表示模型对因变量变化的解释程度,取值范围在0到1之间。具体来说,R²表示因变量的变异程度有多少百分比能够由自变量来解释。其计算公式为:
R 2 = 1 − 残差平方和 总平方和 R^2 = 1 - \frac{\text{残差平方和}}{\text{总平方和}} R2=1总平方和残差平方和其中,残差平方和表示模型预测值与实际观测值之间的差异的平方和,总平方和表示因变量的总变异。R²的取值范围从0到1,值越接近1表示模型对数据的拟合越好,即模型能够解释更多的因变量的变异。

3. Sparse Multi-Task Learning for Disentanglement

在第2节中,我们论述了当解偶表示与稀疏的任务特定预测器结合时可以改善泛化性能,但我们没有提及如何先获得解偶表示。在本节中,我们首先提供一个新的可识别(identification) 结果(定理3.1,第3.2节),该结果表明在多任务学习设置中,将任务特定预测器规范化为稀疏形式可以产生解偶表示。然后,在第3.4节中,我们提供了一种实际的学习解偶表示的方法,这个方法受到我们的可识别性结果的启发。

3.1. Task & data generating process

在本节中,我们假设学习器获得了一组 T T T 个数据集 { D 1 , … , D T } \{D_1, \ldots, D_T\} {D1,,DT},其中每个数据集 D t : = ( x ( t , i ) , y ( t , i ) ) i = 1 n D_t := {(x^{^{(t,i)}},y^{^{(t,i)}})}_{i=1}^{n} Dt:=(x(t,i),y(t,i))i=1n包含 n n n个输入 x ∈ R d x \in \mathbb{R}^d xRd和标签 y ∈ Y y \in \mathcal{Y} yY的样本对。标签集 Y \mathcal{Y} Y可能包含类别索引或实数值,具体取决于我们关注的是分类任务还是回归任务。

对于每个任务t,数据集 D t D_t Dt由从分布 p ( x , y ∣ W ( t ) ) : = p ( y ∣ x , W ( t ) f θ ( x ) ) p ( x ∣ W ( t ) ) (3) p(x,y | W^{(t)}) := p(y | x,W^{(t)}f_\theta(x))p(x | W^{(t)}) \tag{3} p(x,yW(t)):=p(yx,W(t)fθ(x))p(xW(t))(3)中独立同分布采样的样本组成,其中, f θ f_\theta fθ是在所有任务中共享, W ( t ) ∈ R k × m W^{(t)} \in \mathbb{R}^{k \times m} W(t)Rk×m是特定任务的真实系数矩阵。此外,矩阵 W ( t ) W^{(t)} W(t)是从某个概率测度 P W \mathbb P_W PW中独立同分布采样得到的样本,该概率测度的支撑为 W \mathcal W W。对于所有的 W ∈ W W \in \mathcal W WW x x x的分布在不同任务之间是可以改变的,但是 p ( x ∣ W ) p(x | W) p(xW)的支撑集为 X ⊆ R d \mathcal X \subseteq \mathbb{R}^d XRd,我们假设在任务之间保持不变。

上述假设表明:(i) 真值系数矩阵 W ( t ) W^{(t)} W(t)是任务特定的,而表示 f θ f_\theta fθ是在所有任务中共享的;(ii) 任务特定的 W ( t ) W^{(t)} W(t)是从某个分布 P W \mathbb P_W PW中独立同分布采样得到的;(iii) 输入 x x x的支撑集在所有任务中是共享不变的。
我们将在第3.3节中看到,我们理论的关键假设涉及 P W \mathbb P_W PW

3.2. Main identifiability result

我们现在准备展示本工作的主要理论结果,该结果提供了一个双层优化问题,保证最优表示是解偶的。它假设观察到无限多个任务,其中任务特定的真实矩阵 W W W是从 P W \mathbb P_W PW中采样得到的。我们用 W ^ ( W ) \hat W^{(W)} W^(W)表示对 W W W的任务特定估计器。我们将其技术假设的详细介绍推迟到第3.3节。

SYNERGIES BETWEEN DISENTANGLEMENT AND SPARSITY: A MULTI-TASK LEARNING PERSPECTIVE_第4张图片

直观上,这个优化问题有效地选择了一个表示 f θ ^ f_{\hat{\theta}} fθ^,它(i)可以完美拟合数据分布,并且(ii)允许任务特定估计器 W ^ ( W ) \hat W^{(W)} W^(W)与真实的 W W W一样稀疏。定理保证了这样的表示必须是解偶的。

在相同的假设和具有相同解偶保证的情况下,附录B中的定理B.6呈现了问题(4)的一种变体,该变体强制执行较弱的约束条件 E P W ∣ ∣ W ^ ( W ) ∣ ∣ 2 , 0 ≤ E P W ∣ ∣ W ∣ ∣ 2 , 0 E_{\mathbb P_W}||\hat{W}^{(W)}||_{2,0} \leq E_{\mathbb P_W}||W||_{2,0} EPW∣∣W^(W)2,0EPW∣∣W2,0,而不是对每个任务W分别满足 ∣ ∣ W ^ ( W ) ∣ ∣ 2 , 0 ≤ ∣ ∣ W ∣ ∣ 2 , 0 ||\hat{W}^{(W)}||_{2,0} \leq ||W||_{2,0} ∣∣W^(W)2,0∣∣W2,0

Characteristic features of our theory.
(i) 与大多数关于解偶的可识别性结果(第4节)相反,我们不假设观测值 x x x是通过将潜在随机向量 z z z通过一个双射解码器 g g g进行变换而生成的。相反,我们假设存在一个不一定是可逆的真实特征提取器 f θ ( x ) f_θ(x) fθ(x),每个任务只使用其部分组件来预测标签。
(ii) 大多数先前的工作对潜在因素的分布做出假设,例如(条件)独立性、指数族或其他参数假设。相比之下,我们除了对真实特征的支撑(假设3.3)有一个相对较弱的假设外,没有做出任何这样的假设。重要的是,这允许统计上相关的潜在因素,我们在5.1节中进行实证探讨。

3.3. Assumptions of Theorem 3.1

现在我们介绍定理3.1的假设。为了使 f θ f_{\theta} fθ可识别,参数 η \eta η必须能够从 p ( y ; η ) p(y; \eta) p(y;η)中确定。

  • Assumption 3.2 (Identifiability of η) 参数 η \eta η的可识别性
    参数 η \eta η可以从 p ( y ; η ) p(y;\eta) p(y;η)中识别出来,即 K L ( p ( y ; η ) ∣ ∣ p ( y ; η ~ ) ) = 0 ⇒ η = η ~ KL(p(y;\eta) ||p(y;\tilde \eta)) = 0 \Rightarrow \eta =\tilde \eta KL(p(y;η)∣∣p(y;η~))=0η=η~

这个性质通常适用于以通常的 μ , σ 2 μ,σ^2 μ,σ2参数化表示的高斯分布 p ( y ; η ) p(y;\eta) p(y;η)。一般来说,它也适用于指数族的最小参数化表示(Wainwright & Jordan, 2008)。

可识别性(identifiability)指的是能够唯一确定模型参数或变量的性质。如果一个模型具有可识别性,那么不同的参数值会导致不同的观测结果,从而可以准确地估计出参数值。换句话说,模型的参数可以通过观测数据进行推断,并且不会存在多个不同的参数组合对应相同的观测结果。
参数 η 的可识别性意味着从概率分布 p(y; η) 中可以唯一确定参数 η,以使得函数 f θ f_{\theta} fθ也能够被唯一确定。这种可识别性的要求确保了模型的参数可以准确地根据观测数据进行估计和推断。

下面的假设要求真值表示 f θ ( x ) f_\theta(x) fθ(x)变化足够大,以至于它的图像不能被限制在一个适当的子空间内。

  • Assumption 3.3(Sufficient representation variability)存在 x ( 1 ) , . . . , x ( m ) ∈ X x^{(1)},...,x^{(m)} \in \mathcal X x(1),...,x(m)X,使得矩阵 F : = [ f θ ( x ( 1 ) ) , . . . , f θ ( x ( m ) ) ] F := [f_\theta(x^{(1)}), ..., f_\theta(x^{(m)})] F:=[fθ(x(1)),...,fθ(x(m))]是可逆的。

下面的假设要求分布 P W \mathbb P_W PW的支撑集足够丰富。

  • Assumption 3.4(Sufficient task variability) 存在 W ( 1 ) , . . . , W ( m ) ∈ W W^{(1)},...,W^{(m)} \in \mathcal W W(1),...,W(m)W和行索引 i 1 , . . . , i m ∈ [ k ] i_1,...,i_m \in [k] i1,...,im[k],使得行 W i 1 , : ( 1 ) , . . . , W i m , : ( m ) W^{(1)}_{i_1,:},...,W^{(m)}_{i_m,:} Wi1,:(1),...,Wim,:(m)线性无关。

在假设3.2到假设3.4的条件下,表示 f θ f_\theta fθ是可识别的,最多相差一个线性等价性(详见附录B的定理B.4)。

SYNERGIES BETWEEN DISENTANGLEMENT AND SPARSITY: A MULTI-TASK LEARNING PERSPECTIVE_第5张图片
在这里插入图片描述
SYNERGIES BETWEEN DISENTANGLEMENT AND SPARSITY: A MULTI-TASK LEARNING PERSPECTIVE_第6张图片
SYNERGIES BETWEEN DISENTANGLEMENT AND SPARSITY: A MULTI-TASK LEARNING PERSPECTIVE_第7张图片
SYNERGIES BETWEEN DISENTANGLEMENT AND SPARSITY: A MULTI-TASK LEARNING PERSPECTIVE_第8张图片

下面的假设将确保解偶。

为了形式化直观的观点,即大多数任务不需要所有特征,我们将用 S ( t ) S^{(t)} S(t)表示矩阵 W ( t ) W^{(t)} W(t)的支集,即 S ( t ) : = { j ∈ [ m ] ∣ W : j ( t ) ≠ 0 } S^{(t)} := \{j \in [m] | W_{:j}^{(t)} \neq \mathbf 0\} S(t):={j[m]W:j(t)=0}换句话说, S ( t ) S^{(t)} S(t)是在第 t t t个任务中用于预测 y y y的特征集合;对于学习器来说,它是未知的。为了进行我们的分析,我们将 P W \mathbb P_W PW分解为: P W = ∑ S ∈ P ( [ m ] ) p ( S ) P W ∣ S (5) \mathbb P_W = \sum_{S\in \mathcal{P}([m])}p(S)\mathbb P_{W|S} \tag{5} PW=SP([m])p(S)PWS(5)其中 P ( [ m ] ) \mathcal P([m]) P([m])是集合 [ m ] [m] [m]的所有子集的集合, p ( S ) p(S) p(S) W W W的支集为 S S S的概率, P W ∣ S \mathbb P_{W|S} PWS是给定支集为 S S S条件下的 W W W的条件分布。令 S \mathcal S S为分布 p ( S ) p(S) p(S)的支集,即 S : = { S ∈ P ( [ m ] ) ∣ p ( S ) > 0 } \mathcal S := \{S ∈ P([m]) | p(S) > 0\} S:={SP([m])p(S)>0}。集合 S \mathcal S S在假设 3.6 中具有重要作用。

下面这个假设要求 P W ∣ S \mathbb P_{W|S} PWS不会将质量集中在某些适当的子空间上。

  • Assumption 3.5 (Intra-support sufficient task variability).
    对于所有的 S ∈ S S \in \mathcal{S} SS和所有的 a ∈ R ∣ S ∣ \ { 0 } a \in \mathbb{R}^{|\mathcal{S}|}\backslash\{0\} aRS\{0},满足以下条件: P W ∣ S { W ∈ R k × m ∣ W : S a = 0 } = 0. \mathbb P_{W|S}\{W\in \mathbb R^{k×m} |W_{:S}\mathbf a=\mathbf 0\}=0. PWS{WRk×mW:Sa=0}=0.我们在 k = 1 k=1 k=1的简化情况下说明上述假设。例如,当 W 1 , S ∣ S W_{1,S}|S W1,SS的分布相对于 R ∣ S ∣ \mathbb R^{|S|} RS上的勒贝格测度具有密度时,假设3.5成立。这在 W 1 , S ∣ S ∼ N ( 0 , Σ ) W_{1,S}|S \sim N(0, \Sigma) W1,SSN(0,Σ)且协方差矩阵 Σ \Sigma Σ是满秩的情况下成立(图2中的红色分布)。然而,如果 Σ \Sigma Σ不是满秩的, W 1 , S ∣ S W_{1,S}|S W1,SS的概率分布会将其质量集中在 R ∣ S ∣ \mathbb R^{|S|} RS的某个合适的线性子空间 V ⊊ R ∣ S ∣ V \subsetneq \mathbb{R}^{|S|} VRS上,这违反了假设3.5(图2中的蓝色分布)。另一个重要的反例是当 P W ∣ S P_{W|S} PWS将其质量集中在点 W ( 0 ) W^{(0)} W(0)上,即 P W ∣ S { W ( 0 ) } > 0 \mathbb P_{W|S}\{W^{(0)}\}>0 PWS{W(0)}>0时(图2中的橙色分布),我们提供了一个具体的数值示例,说明当 P W ∣ S \mathbb P_{W|S} PWS的支集有限时可能出现的问题(附录B.4)。有趣的是,存在 W 1 , S ∣ S W_{1,S}|S W1,SS上的分布,它们对于勒贝格测度来说没有密度,但仍然满足假设3.5。例如,当 W 1 , S ∣ S W_{1,S}|S W1,SS R ∣ S ∣ \mathbb R^{|S|} RS中的一个以零为中心的 ( ∣ S ∣ − 1 ) (|\mathcal{S}|-1) (S1)维球面上均匀分布时,就是这种情况(见附录B.6的解释)。

SYNERGIES BETWEEN DISENTANGLEMENT AND SPARSITY: A MULTI-TASK LEARNING PERSPECTIVE_第9张图片

B.4. What can go wrong when Assumption 3.5 is violated?
根据Theorem B.4,我们可以得出结论:对于几乎所有的 W,有 W ^ ( W ) = W L \hat{W}^{(W)} = W L W^(W)=WL,并且对于所有的 x ∈ X x \in X xX,有 L f θ ^ ( x ) = f θ ( x ) Lf_{\hat{\theta}}(x) = f_{\theta}(x) Lfθ^(x)=fθ(x)。之后的论证过程基本上是在说明对于所有的 W ∈ W W \in \mathcal{W} WW,如果满足 ∣ ∣ W ^ ( W ) ∣ ∣ 2 , 0 ≤ ∣ ∣ W ∣ ∣ 2 , 0 || \hat{W}^{(W)}||_{2,0} \leq || W ||_{2,0} ∣∣W^(W)2,0∣∣W2,0,则 L L L必须是一个置换-缩放矩阵。直观上讲,要求 ∣ ∣ W L ∣ ∣ 2 , 0 ≤ ∣ ∣ W ∣ ∣ 2 , 0 ||W L ||_{2,0} \leq ||W||_{2,0} ∣∣WL2,0∣∣W2,0对于所有地方,将迫使 L L L是一个稀疏矩阵,而最大稀疏性恰好是当 L L L是一个置换-缩放矩阵时。但是我们需要多少个 W W W以及它们应该有多么不同,以使得这个论证具体起来?我们的答案由Assumption 3.5给出。但是当这个假设不满足时会发生什么问题?为了回答这个问题,我们构造了一个反例,其中分布 P W \mathbb P_W PW满足Assumption 3.6但不满足Assumption 3.5,且矩阵 L L L满足约束条件 ∣ ∣ W L ∣ ∣ 2 , 0 ≤ ∣ ∣ W ∣ ∣ 2 , 0 ||W L||_{2,0} \leq ||W||_{2,0} ∣∣WL2,0∣∣W2,0对于所有地方,但它不是一个置换-缩放矩阵。考虑一个具有支撑 W : = { [ 1 , 1 , 0 ] , [ 1 , 0 , 1 ] , [ 0 , 1 , 1 ] } W := \{[1, 1, 0], [1, 0, 1], [0, 1, 1]\} W:={[1,1,0],[1,0,1],[0,1,1]}(有限支撑)的分布 P W \mathbb P_W PW并且令
L : = [ 3 − 1 − 1 − 1 1 3 1 3 3 ] L:=\left[ \begin{matrix} 3 & -1 & -1 \\ -1 & 1 & 3 \\ 1 &3& 3 \end{matrix} \right] L:= 311113133

当然,这不是一个置换-缩放矩阵。然后,我们可以计算来证明稀疏性约束适用于所有的 W ∈ W W\in \mathcal W WW ∥ [ 1   1   0 ] L ∥ 2 , 0 = ∥ [ 2   0   2 ] ∥ 2 , 0 ≤ 2 = ∥ [ 1   1   0 ] ∥ 2 , 0 ∥ [ 1   0   1 ] L ∥ 2 , 0 = ∥ [ 4   2   0 ] ∥ 2 , 0 ≤ 2 = ∥ [ 1   0   1 ] ∥ 2 , 0 ∥ [ 0   1   1 ] L ∥ 2 , 0 = ∥ [ 0   4   4 ] ∥ 2 , 0 ≤ 2 = ∥ [ 0   1   1 ] ∥ 2 , 0 ∥[1\ 1\ 0]L∥_{2,0} = ∥[2\ 0\ 2]∥_{2,0} ≤ 2 = ∥[1\ 1\ 0]∥_{2,0}\\ ∥[1\ 0\ 1]L∥_{2,0} = ∥[4\ 2\ 0]∥_{2,0} ≤ 2 = ∥[1\ 0\ 1]∥_{2,0}\\ ∥[0\ 1\ 1]L∥_{2,0} = ∥[0\ 4\ 4]∥_{2,0} ≤ 2 = ∥[0\ 1\ 1]∥_{2,0} [1 1 0]L2,0=[2 0 2]2,02=[1 1 0]2,0[1 0 1]L2,0=[4 2 0]2,02=[1 0 1]2,0[0 1 1]L2,0=[0 4 4]2,02=[0 1 1]2,0

这意味着,有了这样一个 P W \mathbb P_W PW,是定理3.1的双层问题解并不一定会是一个解偶表示,它可能会落在一个“坏的” L L L上,比如上面定义的那个。

B.6. A distribution without density satisfying Assumption 3.5
有趣的是,存在着关于 W 1 , S ∣ S W_{1,S}|S W1,SS的分布,它们对于勒贝格测度而言没有密度函数,但仍然满足 Assumption 3.5。例如,当 W 1 , S ∣ S W_{1,S} | S W1,SS R S \mathbb R^{S} RS中的一个 ( ∣ S ∣ − 1 ) (|S| - 1) (S1)维球体上均匀分布时,就会出现这种情况,并以零为中心。在这种情况下,对于所有的 a ∈ R S ∖ { 0 } a \in \mathbb R^{S} \setminus \{0\} aRS{0} s p a n { a } ⊥ span\{a\}^{\perp} span{a}(即与 a a a垂直的空间)与 ( ∣ S ∣ − 1 ) (|S| - 1) (S1)维球体的交集是 ( ∣ S ∣ − 2 ) (|S| - 2) (S2)维的,并且因此具有零概率。可以构造出更多满足 Assumption 3.5 的测度的奇异例子,这些测度集中在低维流形上。

  • Assumption 3.6 (Sufficient variability of the task supports). 对于所有的 j ∈ [ m ] j \in [m] j[m] ⋃ S ∈ S ∣ j ∉ S   S = [ m ] \ { j } \bigcup\limits_{S \in \mathcal{S}|j \notin S}\ S = [m] \backslash \{j\} SSj/S S=[m]\{j}直观上,假设3.6要求对于每个特征 j j j,可以找到一组任务,它们的支集涵盖了除 j j j本身以外的所有特征。图3显示了满足假设3.6的一个例子。附录B.5提供了一个概率论的论证,表明当支集的数量非常大时,假设3.6在“大多数情况下”成立。尽管如此,我们推测去除这个假设会产生一种部分解偶的形式,类似于Lachapelle和Lacoste-Julien(2022)提出的形式,其中一些潜在因子的群组仍然会保持偶合。

SYNERGIES BETWEEN DISENTANGLEMENT AND SPARSITY: A MULTI-TASK LEARNING PERSPECTIVE_第10张图片
B.5. Assumption 3.6 holds with high probability when the number of supports is large

在本节中,我们提供了一个概率论的论证,以显示当支集的数量较大时,Assumption 3.6以高概率成立。定义 S ( T ) : = { S ( 1 ) , S ( 2 ) , . . . , S ( T ) } \mathcal S^{(T)} := \{S^{(1)}, S^{(2)}, ..., S^{(T)}\} S(T):={S(1),S(2),...,S(T)}为观测到的支撑集的集合,其中 T T T是支撑集的数量。为了进行这个论证,我们假设 S ( t ) S^{(t)} S(t)是独立同分布采样的。此外,假设 P [ i ∈ S ( t ) ] = p ∈ ( 0 , 1 ) \mathbb P_{[i \in S(t)]}= p \in (0, 1) P[iS(t)]=p(0,1)并且这些事件是独立的。

在这里插入图片描述

p r o o f : proof: proof: 通过稍微重写原始的概率语句并应用并集界,我们有
P [ ∃ j ∈ [ m ]  s.t.  ⋃ S ∈ S ( T ) ∣ j ∉ S S ≠ [ m ] \ { j } ] = P [ ∃ j ∈ [ m ] , i ∈ [ m ] \ { j }  s.t.  i ∉ ⋃ S ∈ S ( T ) ∣ j ∉ S S ] ≤ ∑ j = 1 m ∑ i ∈ [ m ] \ { j } P [ i ∉ ⋃ S ∈ S ( T ) ∣ j ∉ S S ] , \begin{aligned} & \mathbb{P}\left[\exists j \in[m] \text { s.t. } \bigcup_{S \in \mathcal{S}^{(T)} \mid j \notin S} S \neq[m] \backslash\{j\}\right] \\ = & \mathbb{P}\left[\exists j \in[m], i \in[m] \backslash\{j\} \text { s.t. } i \notin \bigcup_{S \in \mathcal{S}^{(T)} \mid j \notin S} S\right] \\ \leq & \sum_{j=1}^{m} \sum_{i \in[m] \backslash\{j\}} \mathbb{P}\left[i \notin \bigcup_{S \in \mathcal{S}^{(T)} \mid j \notin S} S\right], \end{aligned} =P j[m] s.t. SS(T)j/SS=[m]\{j} P j[m],i[m]\{j} s.t. i/SS(T)j/SS j=1mi[m]\{j}P i/SS(T)j/SS ,我们可以进一步写为
P [ i ∉ ⋃ S ∈ S ( T ) ∣ j ∉ S S ] = P [ ∀ t ∈ [ T ] , j ∉ S ( t ) ⟹ i ∉ S ( t ) ] = P [ ∀ t ∈ [ T ] , j ∈ S ( t ) ∨ i ∉ S ( t ) ] = ∏ t = 1 T P [ j ∈ S ( t ) ∨ i ∉ S ( t ) ] \begin{aligned} \mathbb{P}\left[i \notin \bigcup_{S \in \mathcal{S}^{(T)} \mid j \notin S} S\right] & =\mathbb{P}\left[\forall t \in[T], j \notin S^{(t)} \Longrightarrow i \notin S^{(t)}\right] \\ & =\mathbb{P}\left[\forall t \in[T], j \in S^{(t)} \vee i \notin S^{(t)}\right] \\ & =\prod_{t=1}^{T} \mathbb{P}\left[j \in S^{(t)} \vee i \notin S^{(t)}\right] \end{aligned} P i/SS(T)j/SS =P[t[T],j/S(t)i/S(t)]=P[t[T],jS(t)i/S(t)]=t=1TP[jS(t)i/S(t)]其中最后一步成立,因为支集 S ( t ) S^{(t)} S(t)是相互独立的。我们可接着得到
P [ i ∉ ⋃ S ∈ S ( T ) ∣ j ∉ S S ] = ∏ t = 1 T P [ j ∈ S ( t ) ∨ i ∉ S ( t ) ] = ∏ t = 1 T ( 1 − P [ j ∉ S ( t ) ∧ i ∈ S ( t ) ] ) = ∏ t = 1 T ( 1 − P [ j ∉ S ( t ) ] P [ i ∈ S ( t ) ] ) = ∏ t = 1 T ( 1 − ( 1 − p ) p ) , \begin{aligned} \mathbb{P}\left[i \notin \bigcup_{S \in \mathcal{S}^{(T)} \mid j \notin S} S\right] & =\prod_{t=1}^{T} \mathbb{P}\left[j \in S^{(t)} \vee i \notin S^{(t)}\right] \\ & =\prod_{t=1}^{T}\left(1-\mathbb{P}\left[j \notin S^{(t)} \wedge i \in S^{(t)}\right]\right) \\ & =\prod_{t=1}^{T}\left(1-\mathbb{P}\left[j \notin S^{(t)}\right] \mathbb{P}\left[i \in S^{(t)}\right]\right) \\ & =\prod_{t=1}^{T}(1-(1-p) p), \end{aligned} P i/SS(T)j/SS =t=1TP[jS(t)i/S(t)]=t=1T(1P[j/S(t)iS(t)])=t=1T(1P[j/S(t)]P[iS(t)])=t=1T(1(1p)p),其中我们利用了 j ∉ S ( t ) j\notin S^{(t)} j/S(t) i ∈ S ( t ) i\in S^{(t)} iS(t)是独立的(当 i ≠ j i \neq j i=j)。综合以上,可得
P [ ∃ j ∈ [ m ]  s.t.  ⋃ S ∈ S ( T ) ∣ j ∉ S S ≠ [ m ] \ { j } ] ≤ ∑ j = 1 m ∑ i ∈ [ m ] \ { j } ∏ t = 1 T ( 1 − ( 1 − p ) p ) = m ( m − 1 ) ( 1 − ( 1 − p ) p ) T \begin{aligned} \mathbb{P}\left[\exists j \in[m] \text { s.t. } \bigcup_{S \in \mathcal{S}^{(T)} \mid j \notin S} S \neq[m] \backslash\{j\}\right] & \leq \sum_{j=1}^{m} \sum_{i \in[m] \backslash\{j\}} \prod_{t=1}^{T}(1-(1-p) p) \\ & =m(m-1)(1-(1-p) p)^{T} \end{aligned} P j[m] s.t. SS(T)j/SS=[m]\{j} j=1mi[m]\{j}t=1T(1(1p)p)=m(m1)(1(1p)p)T T → ∞ T→∞ T时, 0 < 1 − ( 1 − p ) p 0 < 1-(1-p) p 0<1(1p)p收敛于0。

3.4. Tractable bilevel optimization problems for sparse multitask learning

该方法的提出旨在共同估计表示和任务特定的预测器,其依赖于一个双层优化问题(问题(4))。然而,由于非凸约束的存在,该问题是难以处理的。为了得到一个可处理的双层优化问题, L 2 , 0 L_{2,0} L2,0约束被它们的凸松弛形式以惩罚项的形式所取代,这也被称为促进群稀疏性(Argyriou等,2008年)。

SYNERGIES BETWEEN DISENTANGLEMENT AND SPARSITY: A MULTI-TASK LEARNING PERSPECTIVE_第11张图片
其中约束对于所有 t ∈ [ T ] t \in [T] t[T]成立。根据Bengio (2000)和Pedregosa (2016)的方法,即使内部优化问题是非光滑的,我们可以使用隐式微分来计算外部函数的(超)梯度。计算得到超梯度后,我们可以使用常规的一阶方法优化问题(6)。

注意到 W ( t ) f θ ^ ( x ) W^{(t)}f_{\hat θ}{(x)} W(t)fθ^(x)对于 W ( t ) W^{(t)} W(t)的标量乘积和 f θ ^ ( x ) f_{\hat θ}(x) fθ^(x)的倒数标量乘积的同时缩放是不变的。因此,在没有对 f θ ^ ( x ) f_{\hat θ}(x) fθ^(x)施加约束的情况下, ∣ ∣ W ^ ( t ) ∣ ∣ 2 , 1 ||\hat W^{(t)}||_{2,1} ∣∣W^(t)2,1可以任意小。这个问题类似于稀疏字典学习中面临的问题(Kreutz-Delgado等,2003;Mairal等,2008;2009;2011),其中通常在字典列上施加单位范数约束。在我们的情况下,由于 f θ ^ f_{\hat θ} fθ^由一个神经网络参数化,我们建议应用批归一化或层归一化(Ioffe&Szegedy,2015;Ba等,2016)来控制 f θ ^ f_{\hat θ} fθ^的范数。由于相关特征的数量可能与任务有关,问题(6)对于每个任务有一个正则化超参数 λ t λ_t λt。然而,在实践中,我们选择 λ t : = λ λ_t := λ λt:=λ对于所有 t ∈ [ T ] t \in [T] t[T],以限制超参数的数量。我们还使用自适应方案,以便在整个训练过程中将 λ λ λ控制在合理范围内,我们在附录D.2.3中进行了解释。

D.2.3. ARCHITECTURE, INNER SOLVER & HYPERPARAMETERS
我们使用的是解耦文献中通常采用的四层卷积神经网络结构(Locatello et al., 2019)。正如第3.4节中所提到的,必须控制表示 f θ ^ ( x ) f_{\hat{\theta}}(x) fθ^(x)的范数,以确保正则化的有效性。为了做到这一点,我们在神经网络的最后一层应用批归一化(Ioffe & Szegedy, 2015),并且不学习其尺度和平移参数。实验证明,如果没有任何归一化,表示 f θ ^ ( x ) f_{\hat{\theta}}(x) fθ^(x)的范数在训练过程中会爆炸,导致不稳定和稀疏性较低。

在这些实验中,用于学习的分布 p ( y ; η ) p(y; \eta) p(y;η)是一个具有固定方差的高斯分布。在这种情况下,第3.4节中的内部问题简化为Lasso回归。计算关于 θ \theta θ的超梯度需要解决这个内部问题。为了做到这一点,我们使用了Proximal Coordinate Descent(近端坐标下降)方法。

λ / λ max \lambda/\lambda_{\text{max}} λ/λmax的细节。在图4和图6中,我们探索了各种正则化水平 λ \lambda λ。在我们的实现中,我们设置 λ = ϵ λ max \lambda = \epsilon \lambda_{\text{max}} λ=ϵλmax,其中 ϵ ≥ 0 \epsilon \geq 0 ϵ0。在 inner-Lasso中,我们设置 λ max : = 1 n ∥ F ⊤ y ∥ ∞ \lambda_{\text{max}} := \frac{1}{n} \left\| F^{\top}y \right\|_{\infty} λmax:=n1 Fy (其中 F ∈ R n × m F \in \mathbb{R}^{n \times m} FRn×m是任务样本的特征的设计矩阵),而在inner-Ridge中,我们有 λ max : = 1 n ∥ F ∥ 2 \lambda_{\text{max}} := \frac{1}{n} \left\| F \right\|^{2} λmax:=n1F2。请注意,这意味着随着训练的进行, λ \lambda λ是动态变化的,因为 F F F在变化。然而,我们从未通过 λ max \lambda_{\text{max}} λmax反向传播(我们阻止了梯度的流动)。因此,在所有的图表中, ϵ = λ / λ max \epsilon = \lambda/\lambda_{\text{max}} ϵ=λ/λmax

SYNERGIES BETWEEN DISENTANGLEMENT AND SPARSITY: A MULTI-TASK LEARNING PERSPECTIVE_第12张图片

SYNERGIES BETWEEN DISENTANGLEMENT AND SPARSITY: A MULTI-TASK LEARNING PERSPECTIVE_第13张图片
附录B.3介绍了定理B.6的类松驰形式(在第3.2节中提到),其中稀疏惩罚出现在外部问题而不是内部问题中。附录D.2.5展示了实证结果,证明这种替代方法产生非常相似的结果。

B.3. Regularization in the outer problem instead of in the inner problem
Theorem B.6中提出的一种替代的双层优化问题,与Theorem 3.1的问题相比,两者之间的本质差异在于约束条件。主要的不同之处在于,对于所有 W ∈ W W \in \mathcal{W} WW的约束 ∥ W ^ ( W ) ∥ 2 , 0 ≤ ∥ W ∥ 2 , 0 \left\| \hat{W}^{(W)} \right\|_{2,0} \leq \left\| W \right\|_{2,0} W^(W) 2,0W2,0被替换为唯一的约束 E ∥ W ^ ( W ) ∥ 2 , 0 ≤ E ∥ W ∥ 2 , 0 E\left\| \hat{W}^{(W)} \right\|_{2,0} \leq E\left\| W \right\|_{2,0} E W^(W) 2,0EW2,0,这是一个更弱的约束。

在第3.4节,我们引入了Theorem 3.1的一个可行的松弛方法。在这一节中,我们介绍了Theorem B.6的一种松弛方法。

一种自然的想法是通过在外部问题中引入一个惩罚项 λ E ∥ W ^ ( W ) ∥ 2 , 1 \lambda E\left\| \hat{W}^{(W)}\right\|_{2,1} λE W^(W) 2,1 来替换Theorem B.6中的约束 E ∥ W ^ ( W ) ∥ 2 , 0 ≤ E ∥ W ∥ 2 , 0 E\left\| \hat{W}^{(W)} \right\|_{2,0} \leq E\left\| W \right\|_{2,0} E W^(W) 2,0EW2,0,如下所示:

SYNERGIES BETWEEN DISENTANGLEMENT AND SPARSITY: A MULTI-TASK LEARNING PERSPECTIVE_第14张图片

这可以通过隐式微分和标准梯度下降算法来进行优化,与Problem (6)相同。Problem (62)和Problem (6)之间的基本区别在于前者在外部问题中进行了正则化,而不是在内部问题中。从实际的角度来看,这个问题通常比Problem (6)简单,因为内部目标通常是光滑的,可以应用标准的隐式微分技术(Problem (6)中内部目标的非光滑项 ∥ W ~ ∥ 2 , 1 \| \tilde{W} \|_{2,1} W~2,1需要在隐式微分中谨慎处理;Bertrand et al., 2022)

在附录D.2.5中,我们提供了一些实验结果,证明了这种替代方法的有效性。

D.2.5 在外部问题中的正则化实验
定理B.6提出了定理3.1之外的另一个优化问题来学习一个解偶合表示。附录B.3提出了这个替代方案的一个易于处理的松弛。操作的本质区别在于稀疏正则化出现在外部问题而不是内部问题中。图10 也根据经验显示了这种替代方案的工作原理。
SYNERGIES BETWEEN DISENTANGLEMENT AND SPARSITY: A MULTI-TASK LEARNING PERSPECTIVE_第15张图片
Link with meta-learning.
双层优化问题(问题(6))与基于度量的元学习方法(Snell等,2017;Bertinetto等,2019)密切相关。在这些方法中,通过简单的任务特定预测器(如线性分类器),学习一个共享表示 f θ ^ f_{\hat θ} fθ^,该表示在所有任务中都是通用的。在一般的元学习设置中(Finn等,2017),给定了大量的训练数据集 ( D t t r a i n ) 1 ≤ t ≤ T (D_t^{train})_{1\leq t \leq T} (Dttrain)1tT,每个任务通常只包含少量样本n。与多任务设置不同(即不像在第3.1节中),还为每个任务t 提供了单独的测试数据集 ( D t t e s t ) 1 ≤ t ≤ T (D_t^{test})_{1\leq t \leq T} (Dttest)1tT,其中包含 n ′ n′ n个样本,用于评估学习模型对新测试样本的泛化能力。在元学习中,目标是学习一种学习过程,能够在新的未见过的任务上具有良好的泛化能力。

形式上,基于度量的元学习可以被表述为:
SYNERGIES BETWEEN DISENTANGLEMENT AND SPARSITY: A MULTI-TASK LEARNING PERSPECTIVE_第16张图片

问题(6)和问题(7)之间的主要区别在于后者中,内部损失函数 L in L_{\text{in}} Lin和外部损失函数 L out L_{\text{out}} Lout不是在相同的数据集上评估的。第5.2节展示了基于群组Lasso多类别SVM预测器的问题(6)的元学习变体的实验结果。

4. Related Work

Disentanglement
自从Bengio等人(2013)的工作以来,许多方法已经提出,基于各种启发式方法来学习解偶表示(Higgins等人,2017;Chen等人,2018;Kim&Mnih,2018;Kumar等人,2018;Bouchacourt等人,2018)。在Locatello等人(2019)的工作中,他们强调了现代深度生成模型中的可识别性缺失,并提出了一些受可识别性分析启发的更弱形式的监督方法(Locatello等人,2020a;Klindt等人,2021;Von Kügelgen等人,2021;Ahuja等人,2022a;c;Zheng等人,2022)。类似的一系列工作采用了因果表示学习的视角(Lachapelle等人,2022;Lachapelle&Lacoste-Julien,2022;Lippe等人,2022b;a;Ahuja等人,2022b;Yao等人,2022;Brehmer等人,2022)。

可识别性问题在独立分量分析(ICA)领域中是众所周知的(Hyvärinen等人,2001;Hyvärinen&Pajunen,1999),该领域通过利用辅助信息针对一般的非线性混合函数提出了解决方案(Hyvärinen&Morioka,2016;2017;Hyvärinen等人,2019;Khemakhem等人,2020a;b)。另一种方法是考虑混合函数的受限假设类别(Taleb&Jutten,1999;Gresele等人,2021;Zheng等人,2022;Moran等人,2022)。Locatello等人(2020b)提出了一种半监督学习方法,用于在少数样本中标记因素的变化值。这与我们的方法不同,因为我们考虑的标签可以从某个 p ( y ; W f θ ^ ( x ) ) p(y; W f_{\hat \theta}(x)) p(y;Wfθ^(x))中进行采样,这更加通用。Ahuja等人(2022c)考虑了与我们类似的设置,但他们依赖于潜在因素的独立性和非高斯性,利用线性ICA进行解偶。请参考第3.2节末尾,进一步讨论我们的理论与上述大多数方法的区别。

Multi-task, transfer & invariant learning.
尽管多任务表示学习的统计优势已经被充分理解(Lounici等人,2011a;b;Maurer等人,2016),但解偶对于迁移学习的理论优势尚未得到明确证实(除了Zhang等人,2022)。一些研究从经验上探讨了这个问题,并得到了正面结果(van Steenkiste等人,2019;Miladinovic ́等人,2019;Dittadi等人,2021)和负面结果(Locatello等人,2019;Montero等人,2021)。不变风险最小化(Arjovsky等人,2020;Ahuja等人,2020;Krueger等人,2021;Lu等人,2021)旨在学习一种表示,该表示引出了对所有任务都最优的单个预测器。这与我们的方法不同,我们为每个任务学习一个预测器。

Dictionary learning and sparse coding.
我们将我们的方法与学习稀疏表示的方法进行对比(问题(6)),后者包括学习稀疏表示的一系列工作(Chen等人,1998;Gribonval&Lesage,2006)。例如,稀疏字典学习(Mairal等人,2009;2011;Maurer等人,2013)是一种无监督技术,旨在通过字典中的稀疏线性组合来重构输入。单个输入的表示由最小化稀疏正则化重构损失的原子线性组合系数组成。在有监督字典学习(Mairal等人,2008)的情况下,在该表示之上还学习了一个额外的(可能是表达力强大的)分类器。这一大量文献产生了各种估计器:例如,Mairal等人(2008,Eq. 4)最小化分类错误和编码近似误差之和,或者Mairal等人(2011)引入双层形式。尽管在优化挑战上存在相似之处,我们的方法在概念上是不同的,通过评估学习的函数 f θ ^ f_{\hat \theta} fθ^来计算单个输入 x x x的表示。

5. Experiments

5.1. Disentanglement in 3D Shapes

现在,我们将通过将问题(6)应用于使用三维形状数据集(Burgess&Kim,2018)生成的任务来说明定理3.1。
Data generation.
对于所有任务 t t t,标记的数据集 D t = { ( x ( t , i ) ) , y ( t , i ) ) } i = 1 n D_t = \{(x^{^{(t,i)})}, y^{^{(t,i)}})\}_{i=1}^n Dt={(x(t,i)),y(t,i))}i=1n是通过首先根据某个分布 p ( z ) p(z) p(z)独立同分布地对真实的潜在变量 z ( t , i ) z^{^{(t,i)}} z(t,i)进行采样生成的,而相应的输入是通过 x ( t , i ) : = f θ − 1 ( z ( t , i ) ) x^{^{(t,i)}} := f_{\theta}^{-1}(z^{^{(t,i)}}) x(t,i):=fθ1(z(t,i))(在3D Shapes中, f θ f_{\theta} fθ是可逆的)得到的。然后,随机采样了一个稀疏权重向量 w ( t ) w^{(t)} w(t)来计算每个示例的标签,即 y ( t , i ) : = w ( t ) ⋅ z ( t , i ) + ϵ ( t , i ) y^{^{(t,i)}} := w^{(t)} \cdot z^{^{(t,i)}} + \epsilon^{^{(t,i)}} y(t,i):=w(t)z(t,i)+ϵ(t,i),其中 ϵ ( t , i ) \epsilon^{^{(t,i)}} ϵ(t,i)是独立的高斯噪声。图4. 通过改变潜在变量之间的相关性水平和真实潜在变量上的噪声水平来探索各种 p ( z ) p(z) p(z)的选择。有关数据生成过程的更多详细信息,请参见附录D.2,并参考图7来可视化各种 p ( z ) p(z) p(z)

D.2. Disentanglement in 3D Shapes

D.2.1 DATASET GENERATION

Details on 3D Shapes.

  • 3D Shapes数据集包含彩色形状在简单的3D场景中的合成图像。
  • 这些图像在6个因素上变化:地板色调(10个值在[0,1]中线性间隔);墙壁色调(10个值在[0,1]中线性间隔);物体色调(10个值在[0,1]中线性间隔);比例(8个值在[0,1]中线性间隔);形状(4个值在[0,1,2,3]中);和方向(15个值在[-30,30]中线性间隔)。
  • 这些因素是研究的目标,旨在实现因素的解耦。
  • 将它们标准化为均值为0,方差为1,用 Z ⊂ R 6 \mathcal Z ⊂ \mathbb R^6 ZR6表示所有可能的潜在因素组合的集合。在我们的框架中,这对应于真实特征 f θ ( x ) f_θ(x) fθ(x)的支撑。注意到,在 R 6 \mathbb R^6 R6中, Z \mathcal Z Z中的点以网格状方式排列。

Task generation.

  • 对于每个任务 t t t,标签数据集 D t = { ( x ( t , i ) , y ( t , i ) ) } i = 1 n D_t = \{(x^{(t,i)}, y^{(t,i)})\}_{i=1}^n Dt={(x(t,i),y(t,i))}i=1n 被生成。先从潜在变量的真实分布 p ( z ) p(z) p(z) 中独立同分布地采样 z ( t , i ) : = f θ ( x ( t , i ) ) z^{(t,i)} := f_{\theta}(x^{(t,i)}) z(t,i):=fθ(x(t,i)),其中 f θ f_{\theta} fθ 是关于 x x x 的函数。
  • 对应的输入通过 x ( t , i ) : = f θ − 1 ( z ( t , i ) ) x^{(t,i)} := f_{\theta}^{-1}(z^{(t,i)}) x(t,i):=fθ1(z(t,i)) 得到。在3D Shapes中, f θ f_{\theta} fθ是可逆的。
  • 随机采样一个稀疏权重向量 w ( t ) w(t) w(t),其中 w ( t ) : = w ˉ ( t ) ⊙ s ( t ) w^{(t)} := \bar{w}^{(t)} \odot s^{(t)} w(t):=wˉ(t)s(t) w ˉ ( t ) ∼ N ( 0 , I ) \bar{w}^{(t)} \sim \mathcal{N}(0, I) wˉ(t)N(0,I) s ∈ { 0 , 1 } 6 s \in \{0, 1\}^6 s{0,1}6 是由独立组成的二元向量,其中每个元素从伯努利分布中采样( p = 0.5 p = 0.5 p=0.5)。
  • 对于每个样本,通过 y ( t , i ) : = w ( t ) ⋅ x ( t , i ) + ϵ ( t , i ) y^{(t,i)} := w^{(t)} \cdot x^{(t,i)} + \epsilon^{(t,i)} y(t,i):=w(t)x(t,i)+ϵ(t,i) 计算标签,其中 ϵ ( t , i ) \epsilon^{(t,i)} ϵ(t,i) 是独立的高斯噪声。在每个任务中,数据集的大小为 n = 50 n = 50 n=50。随着训练的进行,不断生成新的任务。
  • 图4和图6探索了对 p ( z ) p(z) p(z) 的不同选择,即通过改变潜在变量之间的相关性水平和改变对真实潜变量的噪声水平。图7展示了对这些潜在变量分布的可视化。


Noise on latents.

  • 为了使数据集更加真实,通过向潜在变量添加噪声来消除其人工网格状结构。此过程将原始潜在变量 Z Z Z 转化为新的支集 Z α Z_{\alpha} Zα,其中 α \alpha α 是噪声水平。
  • 形式上, Z α : = ⋃ z ∈ Z { z + u z } Z_{\alpha} := \bigcup\limits_{z\in Z}\{z + u_z\} Zα:=zZ{z+uz},其中 u z u_z uz 是从均匀分布中独立采样的样本,范围是超立方体
    [ − α Δ z 1 2 , α Δ z 1 2 ] × [ − α Δ z 2 2 , α Δ z 2 2 ] × … × [ − α Δ z 6 2 , α Δ z 6 2 ] [-\alpha \frac{\Delta z_1}{2}, \alpha \frac{\Delta z_1}{2}] \times [-\alpha \frac{\Delta z_2}{2}, \alpha \frac{\Delta z_2}{2}] \times \ldots \times [-\alpha \frac{\Delta z_6}{2}, \alpha \frac{\Delta z_6}{2}] [α2Δz1,α2Δz1]×[α2Δz2,α2Δz2]××[α2Δz6,α2Δz6] 其中, Δ z i \Delta z_i Δzi 表示因子 z i z_i zi 连续值之间的间隙。
  • α = 0 \alpha = 0 α=0 时,不添加噪声,支集 Z Z Z 保持不变,即 Z 1 = Z Z_1 = Z Z1=Z。 只要 α ∈ [ 0 , 1 ] \alpha \in [0, 1] α[0,1],在 Z α Z_{\alpha} Zα 中,不能交换 Z Z Z 中的相邻点。同时强调,这里的噪声 u z u_z uz 只被采样一次,因此 f θ , α ( x ) f_{\theta, \alpha}(x) fθ,α(x) 实际上是一个确定性映射。引入噪声后,真实映射 f θ f_{\theta} fθ 被相应地修改为 f θ , α f_{\theta, \alpha} fθ,α。对于所有 x ∈ X x \in X xX f θ , α ( x ) : = f θ ( x ) + u z f_{\theta, \alpha}(x) := f_{\theta}(x) + u_z fθ,α(x):=fθ(x)+uz

Varying correlations.

  • 为了验证方法对潜在变量之间的相关性是否稳健,构建 p ( z ) p(z) p(z) 的过程如下:考虑一个以0为中心、协方差矩阵 Σ i , j : = ρ + I ( i = j ) ( 1 − ρ ) \Sigma_{i,j} := \rho + \mathbb{I}(i = j)(1 - \rho) Σi,j:=ρ+I(i=j)(1ρ) 的高斯密度,其中 ρ \rho ρ 是相关性参数。在 Z α Z_{\alpha} Zα 的点上评估该密度,并进行重新标准化,以获得在 Z α Z_{\alpha} Zα 上的概率分布。用 p α , ρ ( z ) p_{\alpha, \rho}(z) pα,ρ(z) 表示通过这一构建得到的分布。
  • 在图4和图6的顶部行中,潜在变量从 p α = 1 , ρ ( z ) p_{\alpha=1, \rho}(z) pα=1,ρ(z) 中采样,其中 ρ \rho ρ 在0到0.99之间变化。在图4和图6的底部行中,潜在变量从 p α = 0.9 , ρ ( z ) p_{\alpha=0.9, \rho}(z) pα=0.9,ρ(z) 中采样,其中 α \alpha α 在0到1之间变化。

SYNERGIES BETWEEN DISENTANGLEMENT AND SPARSITY: A MULTI-TASK LEARNING PERSPECTIVE_第17张图片

D.2.2. METRICS

  • 使用平均相关系数(MCC)来评估解耦的性能。MCC的计算方式如下:
    • 计算真实特征和学到的特征之间的皮尔逊相关矩阵 C C C(它们的协方差与各自标准差的比值)。然后,计算MCC,即 M C C = max ⁡ π ∈ permutations 1 m ∑ j = 1 m ∣ C j , π ( j ) ∣ MCC = \max_{\pi \in \text{permutations}} \frac{1}{m} \sum_{j=1}^m |C_{j, \pi(j)}| MCC=maxπpermutationsm1j=1mCj,π(j)。这里 permutations \text{permutations} permutations 表示所有可能的排列。
    • 对于一个包含多个变量的数据集,皮尔逊相关矩阵 C C C 的元素 C i , j C_{i,j} Ci,j 表示第 i i i 个变量和第 j j j 个变量之间的皮尔逊相关系数。
      C i , j = cov ( X i , X j ) σ X i ⋅ σ X j C_{i,j} = \frac{\text{cov}(X_i, X_j)}{\sigma_{X_i} \cdot \sigma_{X_j}} Ci,j=σXiσXjcov(Xi,Xj)
  • 还通过执行线性回归来预测真实因子(潜在变量)与学到的因子之间的线性等价性。并且给出真实潜在变量和学到的潜在变量之间的皮尔逊相关系数的均值。这个指标称为多重相关系数 R R R,它是更广泛知道的判定系数 R 2 R^2 R2 的平方根。使用 R R R 而不是 R 2 R^2 R2 的优势在于始终有 M C C ≤ R MCC \leq R MCCR

D.2.3 体系结构、内部求解器和超参数
我们使用的是在解偶论文中通常使用的四层卷积神经网络(Locatello et al., 2019)。如第3.4节所述,为了确保正则化保持有效,必须控制表示 f θ ^ ( x ) f_{\hat{\theta}}(x) fθ^(x)的范数。为此,我们在神经网络的最后一层应用批归一化(Ioffe & Szegedy, 2015),并且不学习其尺度和偏移参数。经验证明,我们确实观察到了预期的行为,即在没有任何归一化的情况下, f θ ^ ( x ) f_{\hat{\theta}}(x) fθ^(x)的范数在训练过程中会爆炸,导致不稳定性和低稀疏性。

在这些实验中,用于学习的分布 p ( y ; η ) p(y; η) p(y;η) 是具有固定方差的高斯分布。在这种情况下,第3.4节中的内部问题简化为Lasso回归。计算关于 θ 的超梯度需要解决这个内部问题。为此,我们使用了近端坐标下降方法。

Details on λ / λ m a x λ/λ_{max} λ/λmax 在图4和6中,我们探索了各种正则化水平 λ λ λ。在我们的实验中,我们设置 λ = ϵ λ m a x λ = ϵλ_{max} λ=ϵλmax,其中 ϵ ≥ 0 ϵ≥0 ϵ0。在inner-Lasso中,我们设置 λ m a x : = 1 / n ∣ ∣ F T y ∣ ∣ ∞ λ_{max}:= 1/n ||F^Ty||_{∞} λmax:=1/n∣∣FTy F ∈ R n × m F∈R^{n×m} FRn×m是任务样本的特征设计矩阵),而在inner-Ridge中,我们有 λ m a x : = 1 / n ∣ ∣ F ∣ ∣ 2 λ_{max}:= 1/n ||F||^{2} λmax=1/n∣∣F2。请注意,这意味着 λ λ λ随着我们的训练而动态变化,因为 F F F在变化。然而,我们从不反向传播 λ m a x λ_{max} λmax(阻止梯度流动)。因此,在所有图中,我们l令 ϵ = λ / λ m a x ϵ = λ/λ_{max} ϵ=λ/λmax

SYNERGIES BETWEEN DISENTANGLEMENT AND SPARSITY: A MULTI-TASK LEARNING PERSPECTIVE_第18张图片
Algorithms
在这种情况下,p(y; η)是具有固定方差的高斯分布,问题(6)的内部问题等价于Lasso回归,因此我们将这种方法称为内部Lasso。我们还评估了问题(6)的一个简单变化,其中L1范数被L2范数替换,并将其称为内部Ridge。此外,我们评估通过对内部Ridge学习到的表示执行线性ICA(Comon,1992)获得的表示:λ = 0的情况对应于Ahuja等人的方法。

Discussion
图4. 报告了三种方法的解偶性能,通过平均相关系数(Mean Correlation Coefficient,MCC)进行衡量(Hyvärinen&Morioka,2016;Khémakhem等,2020a)。在所有设置中,inner-Lasso在某些 λ λ λ值上获得了较高的MCC,与基准方法相当甚至超过。正如理论所示,它对潜变量之间的高相关性具有鲁棒性,而inner-Ridge与ICA相结合则受到强相关性的影响很大(因为ICA假设独立性)。我们还可以看到,对潜变量的额外噪声损害了具有ICA的inner-Ridge,而对inner-Lasso没有影响。附录D.2中的图6显示,除了非常大的 λ λ λ值之外,所有方法都找到了与实况表示线性等价的表示。附录D.2.4经验性地研究了inner-Lasso对假设3.6违规程度的鲁棒性,附录D.2.6对解偶性进行了视觉评估,附录D.2.7在相同的实验中报告了DCI度量(Eastwood&Williams,2018)。我们在这项工作中没有探索超参数选择,这对于解偶来说是一个困难的问题,因为在一个留存数据集上评估的拟合优度分数将不会提供信息,这是由于缺乏可识别性。尽管如此,可以使用启发式方法,例如Duan等人提出的无监督解偶排名分数(2020年)。

5.2. Sparse task-specific predictors in few-shot learning

尽管标准少样本学习基准中缺乏真实潜在因子,我们还在mini-ImageNet数据集上评估了稀疏元学习目标。这个实验的目的是展示,标准基于度量的元学习技术的稀疏公式在使用部分特征时能够达到类似的性能(图5,右侧)。
SYNERGIES BETWEEN DISENTANGLEMENT AND SPARSITY: A MULTI-TASK LEARNING PERSPECTIVE_第19张图片

受到Lee等人(2019)的启发,其中任务特定的分类器是多类支持向量机(SVMs,Crammer&Singer 2001),我们提出使用组 Lasso 惩罚的多类 SVMs,以在分类器中引入稀疏性。使用问题(7)的符号表示,我们选择

SYNERGIES BETWEEN DISENTANGLEMENT AND SPARSITY: A MULTI-TASK LEARNING PERSPECTIVE_第20张图片

其中, Y ∈ R n × k Y \in \mathbb{R}^{n \times k} YRn×k y ∈ R n y \in \mathbb{R}^n yRn的 one-hot 编码,CE 表示交叉熵。与 Lee 等人(2019)的不同之处在于稀疏促进项 ∥ W ∥ 2 , 1 \|W\|_{2,1} W2,1,这使得双层优化问题更难解决。这就是为什么我们提议解决这个内部优化问题的对偶问题,即:

SYNERGIES BETWEEN DISENTANGLEMENT AND SPARSITY: A MULTI-TASK LEARNING PERSPECTIVE_第21张图片

B S T : ( a , τ ) ↦ ( 1 − τ / ∣ ∣ a ∣ ∣ ) + a BST : (a, τ ) \mapsto (1 - τ /||a||) + a BST:(a,τ)(1τ/∣∣a∣∣)+a 是块软阈值算子,其中 F ∈ R n × m F \in \mathbb{R}^{n \times m} FRn×m f θ ^ ( x ) ( x , y ) ∈ D t r a i n {f_{\hat θ}(x)}_{(x,y)∈D_{train}} fθ^(x)(x,y)Dtrain 的连接。此外,原始-对偶连接写为,对于任意 j ∈ [ m ] j \in [m] j[m] W : j = B S T ( ( Y − Λ ) T F : j , λ 1 ) / λ 2 W_{:j} = BST((Y - Λ)^TF_{:j} , \lambda_1) / \lambda_2 W:j=BST((YΛ)TF:j,λ1)/λ2。对偶的推导可以在附录 C.1 中找到。在 SVM 文献中,通过在对偶中解决这种问题是标准的,它在特征数 m m m 明显大于样本数 n n n 时(这里 m = 1.6 × 1 0 4 m = 1.6 \times 10^4 m=1.6×104 n ≤ 25 n \leq 25 n25)在计算上被证明是有优势的(Hsieh et al., 2008)。有关如何解决和通过问题(10)的细节,请参见附录 D.3。

在图5的右侧,作者观察到稀疏元学习方法在新颖的元验证任务上的准确性与密集对照组(λ = 0)相似,即在仅使用少量可用特征(约30%的稀疏性)的情况下,性能没有受到影响。然而,随着稀疏水平的增加,性能自然而然地开始下降,尽管仍然具有竞争力。在图5的左侧,作者还报告了在元验证任务上学习表示中每个特征被任务特定预测器使用的频率(对每个 λ 进行排序)。使用频率的逐渐减少表明这些特征在不同上下文、不同任务之间得到了重复使用。

D.3 META-LEARNING EXPERIMENTS

Experimental settings.
我们评估了基于组稀疏支持向量机基学习算法(group-sparse SVM)在miniImageNet(Vinyals et al., 2016)数据集上的性能。按照少样本分类(few-shot classification)的标准命名法(Hospedales et al., 2021),其中k-shot N-way,N表示每个分类任务中的类别数量,k表示训练数据集 D t t r a i n D_t^{train} Dttrain中每个类别的样本数量,我们考虑了两种设置:1-shot 5-way和5-shot 5-way。请注意,图5中所呈现的结果仅显示5-shot分类的性能。我们使用与(Lee et al., 2019)相同的残差网络结构,具有12层和大小为 p = 1.6 × 1 0 4 p = 1.6 × 10^4 p=1.6×104的表示。
SYNERGIES BETWEEN DISENTANGLEMENT AND SPARSITY: A MULTI-TASK LEARNING PERSPECTIVE_第22张图片

尽管我们考虑了与MetaOptNet(Lee et al., 2019)相似的基学习器(即支持向量机),但我们在λ = 0的对照实验不能直接与该先前工作中报告的模型性能进行比较。原因是为了控制其他“有效正则化”来源(如数据增强、标签平滑),我们没有包含MetaOptNet中用于提高性能的修改。此外,我们使用了不同的求解器(近端块坐标下降,而不是QP求解器)来解决内部问题(6)。

Generalization on meta-training tasks.
在第2.3节中,我们认为在元训练任务(即与元训练期间看到的任务类似的任务)上评估学习表示的性能仍然显示了对新任务的泛化能力。实际上,我们评估性能的这些新任务是使用与在优化问题(5)中使用的任务相同的类别创建的,但使用了可能在任何用于优化问题(5)的任务中都没有见过的类别的组合。然而,在元学习中的评估通常是在元测试任务上进行的,即基于元训练期间任何任务都未见过的概念的任务。这种评估需要更强的泛化概念,更接近于超出分布的泛化。

尽管如此,在表2中我们观察到当基学习器是组稀疏时,元学习方法的性能得到了提升。
SYNERGIES BETWEEN DISENTANGLEMENT AND SPARSITY: A MULTI-TASK LEARNING PERSPECTIVE_第23张图片

你可能感兴趣的:(Diffusion,Model,人工智能,机器学习,深度学习)