论文题目:Deconstructing Denoising Diffusion Models for Self-Supervised Learning —— 基于自监督学习的解构去噪扩散模型
论文地址:Deconstructing Denoising Diffusion Models for Self-Supervised Learning
2024何凯明最新工作,去噪扩散模型!
在这项研究中,我们研究了最初用于图像生成的去噪扩散模型 (DDM) 的表示学习能力。我们的理念是解构 DDM,逐渐将其转换为经典的去噪自动编码器 (DAE)。这种解构过程使我们能够探索现代 DDM 的各种组件如何影响自监督表示学习。我们观察到,只有少数现代组件对于学习好的表示至关重要,而其他许多组件并不重要。我们的研究最终得出了一种高度简化的方法,在很大程度上类似于经典的DAE。我们希望我们的研究在现代自我监督学习领域重新点燃了一系列经典方法的兴趣。
去噪是生成模型在计算机视觉和其他领域当前趋势的核心。目前流行的被称为去噪扩散模型(DDM),这些方法[36,37,38,23,29,11]学习了一个去噪自动编码器(DAE)[39],它消除了扩散过程驱动的多个级别的噪声。这些方法取得了令人印象深刻的图像生成质量,特别是对于高分辨率、逼真的图像[33,32]——事实上,这些生成模型是如此好,以至于它们似乎具有很强的识别表示来理解视觉内容。
虽然 DAE 是当今生成模型的强大功能,但它最初是为以自我监督的方式从数据中学习表示 [39] 而提出的。在当今表示学习社区中,DAE 可以说是最成功的变体基于“掩蔽噪声”[39],例如预测语言中缺失的文本(例如,BERT [10])或图像中缺失的补丁(例如,MAE [21])。然而,在概念上,这些基于掩码的变体与去除加性(例如高斯)噪声显着不同:虽然掩码标记明确指定未知与已知内容,但在分离加性噪声的任务中没有干净的信号。然而现今用于生成的 DDM 主要基于加性噪声,这意味着它们可以在没有明确标记未知/已知内容的情况下学习表示。
最近,人们对检查 DDM 的表示学习能力越来越感兴趣 [40, 28]。特别是,这些研究直接使用现成的预训练 DDM [23, 32, 11],这些 DDM 最初用于生成,并评估它们的表示质量以进行识别。他们报告了使用这些面向生成的模型的令人鼓舞的结果。然而,这些开创性的研究显然留下了悬而未决的问题:这些现成的模型是为生成而设计的,而不是识别;目前尚不清楚表示能力是通过去噪驱动的过程还是扩散驱动的过程获得的。
在这项工作中,我们更深入地研究了这些最近探索初始化的方向[40,28]。使用面向生成的现成 DDM,我们训练面向识别的模型。我们哲学的核心是解构 DDM,逐步将其更改为经典的 DAE。通过这个解构的研究过程,我们检查了现代 DDM 的每个单独方面(我们可以想到),目标是学习表示。这项研究过程为我们提供了对 DAE 学习良好表示的关键组件是什么的新理解。
令人惊讶的是,我们发现主要的关键组件是一个标记器[33],它创建了一个低维潜在空间。有趣的是,这一观察结果在很大程度上独立于标记器的细节——我们探索了一个标准的VAE[26],一个patch-wise VAE,一个patch-wise AE和一个patch-wise PCA编码器。我们发现它是低维潜在空间,而不是分词器特定的,这使得 DAE 能够获得良好的表示。
由于 PCA 的有效性,我们的解构轨迹最终达到了与经典 DAE 高度相似的简单架构(图 1)。我们使用补丁 PCA 将图像投影到潜在空间中,添加噪声,然后通过逆 PCA 将其投影回它。然后我们训练一个自动编码器来预测去噪后的图像。我们将此架构称为“潜在去噪自动编码器”(l-DAE)。
图 1. 我们最终达到的潜在去噪自动编码器 (l-DAE) 架构,经过彻底探索解构去噪扩散模型 (DDM) [23],目标是尽可能地接近经典的去噪自动编码器 (DAE) [39]。在这里,干净图像(左)使用补丁 PCA 投影到潜在空间,其中添加了噪声(中间)。然后它通过逆 PCA 投影回像素。学习自动编码器来预测去噪图像(右)。这种简单的架构在很大程度上类似于经典的 DAE(主要区别在于噪声被添加到潜在中),并实现了具有竞争力的自监督学习性能。
我们的解构轨迹还揭示了许多其他有趣的属性,这些属性位于 DDM 和经典 DAE 之间。例如,我们发现即使使用单个噪声水平(即不使用 DDM 的噪声调度)也可以使用我们的 l-DAE 取得不错的结果。使用多级噪声的作用类似于数据增强的一种形式,可能是有益的,但不是启用因素。有了这个和其他观察,我们认为DDM的表示能力主要是通过去噪驱动的过程获得的,而不是扩散驱动的过程。
最后,我们将我们的结果与以前的基线进行比较。一方面,我们的结果大大优于现成的结果(遵循 [40, 28] 的精神):正如预期的那样,因为它们是我们解构的起点。另一方面,我们的结果缺乏基线对比学习方法(例如 [7])和基于掩码的方法(例如 [21]),但差距减少了。我们的研究为进一步研究 DAE 和 DDM 的方向提供了更多空间。
在机器学习和计算机视觉的历史中,图像的生成(或其他内容)与无监督或自我监督学习的发展密切相关。生成方法在概念上是非/自我监督学习的形式,其中模型在没有标记数据的情况下进行训练,学习捕获输入数据的底层分布。
人们普遍认为,模型生成高保真数据的能力表明其学习良好表示的潜力。例如,生成对抗网络 (GAN) [18] 引起了人们对对抗性表示学习的广泛兴趣 [13, 12]。变分自动编码器 (VAE) [26] 最初被概念化为近似数据分布的生成模型,已演变为学习局部表示(“令牌”)的标准,例如 VQVAE [30] 和变体 [16]。图像修复[2]本质上是条件图像生成的一种形式,导致了一系列现代表示学习方法,包括上下文编码器[31]和掩码自动编码器(MAE)[21]。
类似地,去噪扩散模型 (DDM) [36, 37, 38, 23, 11] 的出色生成性能引起了人们对它们在表示学习方面的潜力的关注。开创性的研究[40,28]已经开始通过评估现有的预先训练的DDM网络来研究这个方向。然而,我们注意到,虽然模型的生成能力表明一定程度的理解,但它不一定转化为对下游任务有用的表示。我们的研究更深入地研究了这些问题。
另一方面,尽管去噪自动编码器 (DAE) [39] 为基于自动编码的表示学习奠定了基础,但它们的成功主要局限于涉及基于掩码的损坏的场景(例如,[21, 41, 17, 5])。据我们所知,很少或没有最近的研究报告了具有加性高斯噪声的经典 DAE 变体的结果,我们相信根本原因是简单的 DAE 基线(图 2(a))表现不佳 1(例如,在 ∼20% 图 5)。
我们的解构研究始于去噪扩散模型 (DDM) [36, 37, 38, 23, 11]。我们简要描述我们使用的 DDM,如下 [11, 32]。
扩散过程从干净的数据点 (z0) 开始,并依次向它添加噪声。在指定的时间步 t,噪声数据 zt 由下式给出:
z t = γ t z 0 + σ t ϵ (1) z_{t}=\gamma_{t} z_{0}+\sigma_{t} \epsilon\tag{1} zt=γtz0+σtϵ(1)
其中 ε∼N (0, I) 是从高斯分布中采样的噪声图,γt 和 σt 分别定义了信号和噪声的比例因子。默认情况下,它被设置为γ2t+σ2t=1[29,11]。
学习去噪扩散模型去除噪声,以时间步长 t 为条件。与预测干净输入的原始 DAE [39] 不同,现代 DDM [23, 29] 通常预测噪声 ε。具体来说,这种形式的损失函数最小化:
∥ ϵ − net ( z t ) ∥ 2 (2) \left\|\epsilon-\operatorname{net}\left(z_{t}\right)\right\|^{2}\tag{2} ∥ϵ−net(zt)∥2(2)
其中 net(zt) 是网络输出。该网络在给定噪声调度的情况下针对多个噪声水平进行训练,以时间步长 t 为条件。在生成过程中,迭代地应用经过训练的模型,直到达到干净的信号 z0。
DDM 可以在两种类型的输入空间上运行。一种是原始像素空间[11],其中原始图像x0直接用作z0。另一种选择是在[33]之后,在标记器产生的潜在空间中构建DDM。见图2(b)。在这种情况下,使用预训练的标记器 f(通常是另一个自动编码器,例如 VQVAE [30])将图像 x0 映射到其潜在 z0=f (x0)。
扩散变压器(DiT)。我们的研究始于扩散变压器(DiT)[32]。我们选择这种基于 Transformer 的 DDM 有几个原因:(i)与其他基于 UNet 的 DDM [11, 33] 不同,基于 Transformer 的架构可以提供与其他由 Transformer 驱动的自监督学习基线的更公平的比较(例如,[7, 21]); (ii) DiT 在编码器和解码器之间具有更清晰的区别,而 UNet 的编码器和解码器通过跳跃连接连接,在评估编码器时可能需要对网络手术进行额外的努力; (iii) DiT 比其他基于 UNet 的 DDM(参见 [32])快得多,同时实现更好的生成质量。
我们使用 DiT-Large (DiT-L) 变体 [32] 作为我们的 DDM 基线。在 DiT-L 中,编码器和解码器放在一起具有 ViT-L [15](24 个块)的大小。我们评估了编码器的表示质量(线性探测精度),它有 12 个块,称为“1/2L”(半大)。
分词器。[32]中实例化的DiT是一种潜在扩散模型(LDM)[33]的形式,它使用VQGAN标记器[16]。具体来说,这个VQGAN标记器将256×256×3输入图像(height×width×channels)转换为32×32×4潜在映射,步幅为8。
开始基线。默认情况下,我们在ImageNet[9]上训练400个epoch的模型,分辨率为256×256像素。实现细节见第A节。
我们的 DiT 基线结果报告在表1(第 1 行)。使用 DiT-L,我们使用其 1/2 L 编码器报告 57.5% 的线性探针准确度。这个DiT-L模型的生成质量(Fŕechet Inception Distance [22], FID-50K)为11.6。这是我们破坏性轨迹的起点。
尽管实现细节存在差异,但我们的起点在概念上遵循最近的研究40,28,它在线性探测协议下评估现成的DDM。
我们的解构轨迹分为三个阶段。我们首先将 DiT 中的以生成为中心的设置调整为更面向自我监督学习(第 4.1 节)。接下来,我们逐步解构和简化分词器步骤(第 4.2 节)。最后,我们试图尽可能地逆转尽可能多的 DDM 动机设计,将模型推向经典的 DAE [39](第 4.3 节)。我们在第4.4节中从这个解构过程中总结了我们的学习。
虽然 DDM 在概念上是一种 DAE 的形式,但它最初是为图像生成而开发的。DDM 中的许多设计都面向生成任务。一些设计对于自我监督学习并不合法(例如,涉及类标签);如果不考虑视觉质量,则其他一些设计是不必要的。在本小节中,我们将重新定向我们的 DDM 基线以进行自我监督学习,总结在表1.
删除类条件反射。高质量的 DDM 通常通过对类标签进行条件训练,这可以大大提高生成质量。但是在我们的自我监督学习研究的背景下,类标签的使用根本不合法。作为第一步,我们在基线中删除了类条件。
令人惊讶的是,删除类条件大大提高了线性探针准确度从 57.5% 提高到 62.1%(表 1)。1),即使生成质量受到预期的影响很大(FID 从 11.6 到 34.2)。我们假设直接在类标签上调节模型可以减少模型对与类标签相关的信息进行编码的需求。删除类条件可以迫使模型学习更多的语义。
解构VQGAN。在我们的基线中,LDM[33]提出的VQGAN标记器和DiT继承,使用多个损失项进行训练:(i)自动编码重建损失;(ii) KL-divergence正则化损失[33];(iii)基于为ImageNet分类训练的监督VGG网络[35]的感知损失[44];(iv)带有鉴别器的对抗性损失[18,16]。我们在 Tab1 中消融后两项.
由于感知损失[44]涉及有监督的预训练网络,使用用这种损失训练的VQGAN是不合法的。相反,我们训练了另一个 VQGAN 标记器 [33],其中我们删除了感知损失。使用此标记器将线性探针准确度从 62.5% 显着降低到 58.4%(表 1)。1) 然而,到目前为止,它提供了第一个合法的条目。这种比较表明,使用感知损失(带有类标签)训练的标记器本身提供了语义表示。我们注意到,在本文的剩余部分,现在不使用感知损失。
我们训练了下一个进一步去除对抗性损失的VQGAN标记器。它略微将线性探针准确度从 58.4% 增加到 59.0%(表 1)。1)。有了这个,我们此时的分词器本质上是一个 VAE,我们将在下一小节中继续解构。我们还注意到,删除任一损失会损害生成质量。
替换噪音时间表。在生成任务中,目标是逐步将噪声图转换为图像。因此,原始噪声调度在非常嘈杂的图像上花费了许多时间步长(图 3)。如果我们的模型不是面向生成的,这不是必需的。
出于自我监督学习的目的,我们研究了一个更简单的噪声计划。具体来说,我们让 γ2t 在 1>γ2t ≥0 的范围内线性衰减(图 3)。这允许模型在更清晰的图像上花费更多的容量。这种变化大大提高了线性探针准确度从 59.0% 提高到 63.4%(表 1)。1),这表明原始时间表过于关注噪音较大的制度。另一方面,正如预期的那样,这样做会进一步损害生成能力,导致 FID 为 93.2。
总结。总体而言,Tab 1中的结果表明自监督学习性能与生成质量无关。DDM的表示能力不一定是其生成能力的结果。
接下来,我们通过进行实质性简化来进一步解构 VAE 分词器。我们将以下四种自动编码器变体作为标记器进行比较,每个变体都是前面一个的简化版本:
由于使用补丁的简单性,对于三个补丁标记器,我们可以在补丁空间中可视化它们的过滤器(图 4)。
表 2 总结了使用这四种标记器变体的 DiT 的线性探针精度。我们展示了结果 w.r.t.潜在维度“每个令牌”。我们得出以下观察结果。
分词器的潜在维度对于 DDM 在自我监督学习中运行良好至关重要。
如表2中所示,尽管标记器的架构和损失函数存在差异,但所有四个变体都表现出类似的趋势。有趣的是,最佳维度相对较低(d 为 16 或 32),即使每个补丁的完整维度要高得多(16×16×3=768)。
令人惊讶的是,卷积 VAE 标记器既不必要也不有利;相反,所有基于补丁的标记器,其中每个补丁都是独立编码的,彼此的表现相似,并且始终优于 Conv VAE 变体。此外,KL 正则化项是不必要的,因为 AE 和 PCA 变体都运行良好。
令我们进一步惊讶的是,即使是 PCA 分词器也能很好地工作。与 VAE 或 AE 对应物不同,PCA 分词器不需要基于梯度的训练。使用预先计算的 PCA 基础,PCA 分词器的应用类似于图像预处理的一种形式,而不是“网络架构”。PCA 标记器的有效性在很大程度上帮助我们将现代 DDM 推向经典的 DAE,我们将在下一节中展示。
高分辨率、基于像素的 DDM 在自监督学习方面较差。
在我们继续之前,我们报告了与上述观察结果一致的额外消融。具体来说,我们考虑一个“näıve标记器”,它对从调整大小的图像中提取的补丁执行恒等映射。在这种情况下,“令牌”是由补丁所有像素组成的平坦向量。
在图 5 中,我们展示了这种“基于像素的”标记器的结果,分别在 256、128、64 和 32 的图像大小上运行,补丁大小分别为 16、8、4、2。这些标记化空间的“潜在”维度是每个标记的 768、192、48 和 12。在所有情况下,Transformer 的序列长度保持不变(256)。
有趣的是,这种基于像素的分词器表现出与我们所研究的其他分词器的类似趋势,尽管最佳维度发生了变化。特别是,最佳维度为 d=48,对应于 64 的图像大小,补丁大小为 4。图像大小为 256,补丁大小为 16 (d=768),线性探针准确率急剧下降到 23.6%。
这些比较表明,标记器和由此产生的潜在空间对于 DDM/DAE 在自监督学习场景中具有竞争力至关重要。特别是,在像素空间上应用具有加性高斯噪声的经典DAE会导致较差的结果。
接下来,我们继续我们的解构轨迹,旨在尽可能接近经典的DAE[39]。我们试图删除当前基于 PCA 的 DDM 和经典 DAE 实践之间仍然存在的每个单个方面。通过这个解构过程,我们更好地了解每个现代设计如何影响经典 DAE。表3 给出了结果,接下来讨论。
预测干净的数据(而不是噪声)。虽然现代 DDM 通常预测噪声 ε(参见等式(2)),但经典的 DAE 相反预测干净的数据。我们通过最小化以下损失函数来检查这种差异:
λ t ∥ z 0 − net ( z t ) ∥ 2 (3) \lambda_{t}\left\|z_{0}-\operatorname{net}\left(z_{t}\right)\right\|^{2}\tag{3} λt∥z0−net(zt)∥2(3)
这里 z0 是干净数据(在潜在空间中),net(zt) 是网络预测。λt 是一个 t 相关的损失权重,用于平衡不同噪声水平的贡献 [34]。建议根据[34]设置λt = γ2t /σ2t。我们发现设置 λt = γ2t 在我们的案例中效果更好。直观地说,它只是将更多的权重放在清理器数据(更大的 γt)的损失项上。
随着预测干净数据(而不是噪声)的修改,线性探针准确度从 65.1% 下降到 62.4%(表3)。这表明预测目标的选择会影响表示质量。
尽管我们在这一步中遭受退化,但我们将坚持现在的修改,因为我们的目标是转向经典的DAE.
删除输入缩放。在现代 DDM(参见等式(1))中,输入按 γt 因子缩放。这在经典 DAE 中并不常见。接下来,我们研究去除输入缩放,即我们设置γt≡1。由于γt是固定的,我们需要直接在σt上定义一个噪声调度。我们简单地将 σt 设置为从 0 到 √2 的线性调度。此外,我们根据经验将方程式中的权重设置为 λt = 1/(1 + σ2t ),这再次更加强调更干净的数据(较小的 σt)。在固定 γt ≡ 1 之后,我们实现了 63.6% 的良好准确度(表3),这与不同的 γt 对应物的 62.4% 相比具有优势。这表明在我们的场景中不需要用 γt 缩放数据。
用逆PCA对图像空间进行操作。到目前为止,对于我们探索的所有条目(图 5 除外),该模型对标记器产生的潜在空间进行操作(图 2 (b))。理想情况下,我们希望我们的 DAE 可以直接在图像空间上工作,同时仍然具有良好的准确性。使用 PCA,我们可以通过逆 PCA 来实现这一目标。
这个想法如图1所示。特别地,我们通过PCA基(即V)将输入图像投影到潜在空间中,在潜在空间中添加噪声,并通过逆PCA基(VT)将噪声潜移回图像空间。图 1(中间,底部)显示了在潜在空间中添加噪声的示例图像。有了这个噪声图像作为网络的输入,我们可以应用一个标准的ViT网络[15],它直接对图像进行操作,就好像没有标记器一样。
对输入端应用此修改(同时仍然预测潜在空间中的输出)的准确率为 63.6%(表。3)。进一步将其应用于输出端(即,使用逆 PCA 预测图像空间的输出)的准确率为 63.9%。两个结果表明,使用逆 PCA 在图像空间上运行可以获得与在潜在空间中操作相似的结果。
预测原始图像。虽然逆 PCA 可以在图像空间中产生预测目标,但这个目标不是原始图像。这是因为 PCA 是任何降维 d 的有损编码器。相比之下,直接预测原始图像是一种更自然的解决方案。
当我们让网络预测原始图像时,引入的“噪声”由两部分组成:(i)加性高斯噪声,其内在维数为d,(ii) PCA重构误差,其内在维数为D−d (Dis 768)。我们以不同的方式对这两个部分的损失进行加权。
形式上,使用干净的原始图像 x0 和网络预测网络 (xt),我们可以计算投影到完整 PCA 空间的残差 r:r ≜ V (x0 − net(xt))。这里 V 是表示完整 PCA 基的 D-by-D 矩阵。然后我们最小化以下损失函数:
λ t ∑ i = 1 D w i r i 2 (4) \lambda_{t} \sum_{i=1}^{D} w_{i} r_{i}^{2}\tag{4} λti=1∑Dwiri2(4)
这里 i 表示向量 r 的第 i 维。i ≤ d 的维度权重 wi 为 1,d < i ≤ D 为 0.1。直观地说,wi降低了PCA重建误差的损失。通过这个公式,预测原始图像达到了 64.5% 的线性探针精度(表3)。该变体在概念上非常简单:其输入是一个噪声图像,其噪声被添加到 PCA 潜在空间中,其预测是原始干净图像(图 1)。
单一噪声水平。最后,在好奇心之外,我们进一步研究了具有单级噪声的变体。我们注意到,由噪声调度给出的多级噪声是由 DDM 中的扩散过程驱动的属性;它在经典 DAE 中在概念上是不必要的。
我们将噪声水平 σ 固定为常数 (p1/3)。使用这种单级噪声实现了 61.5% 的良好精度,比多级噪声对应物 (64.5%) 退化 3%。使用多级噪声类似于 DAE 中的数据增强形式:是有益的,但不是启用因素。这也意味着DDM的表示能力主要是通过去噪驱动的过程获得的,而不是扩散驱动的过程。
由于多级噪声有用且概念上简单,我们将其保留在下一节中介绍的最终条目中。
总之,我们解构了现代 DDM 并将其推向经典的 DAE(图 6)。我们撤消了许多现代设计,在概念上只保留了从现代 DDM 继承的两种设计:(i)添加噪声的低维潜在空间; (ii) 多级噪声。
我们在 Tab 3的末尾使用条目。3 作为我们的最终 DAE 实例化(如图 1 所示)。我们将此方法称为“潜在去噪自动编码器”,简称 l-DAE。
可视化潜在噪声。从概念上讲,l-DAE 是一种 DAE 形式,它学习去除噪声添加到潜在空间。由于 PCA 的简单性,我们可以通过逆 PCA 轻松可视化潜在噪声。
图 7 比较了添加到像素中的噪声与潜在噪声。与像素噪声不同,潜在噪声在很大程度上与图像的分辨率无关。使用patch-wise PCA作为tokenizer,潜在噪声的模式主要由patch size决定。直观地说,我们可以把它看作是使用补丁而不是像素来解决图像。这种行为类似于 MAE [21],它掩盖了补丁而不是单个像素。
去噪结果。图 8 显示了更多基于 l-DAE 的去噪结果示例。尽管噪音很大,但我们的方法产生了合理的预测。我们注意到这并不奇怪,因为基于神经网络的图像恢复 [4, 14] 一直是一个深入研究的领域。
然而,可视化可以帮助我们更好地理解 l-DAE 如何学习好的表示。添加到潜在空间的重噪声为模型解决创建了一个具有挑战性的借口任务。在本地基于一个或几个噪声补丁预测内容并非易事(即使对于人类也是如此);该模型被迫学习更高级别的、更全面的语义,以理解底层对象和场景。
数据增强。值得注意的是,我们目前展示的所有模型都没有数据增强:仅使用图像的中心作物,没有随机调整大小或颜色抖动,遵循 [11, 32]。我们进一步探索了我们最终 l-DAE 的温和数据增强(随机调整大小的裁剪):
这有轻微的改进。这表明 l-DAE 的表示学习能力在很大程度上独立于其对数据增强的依赖。在MAE[21]中观察到类似的行为,这与对比学习方法(如[6])的行为有很大的不同。
训练时期。到目前为止,我们所有的实验都是基于 400 个 epoch 的训练。在 MAE [21] 之后,我们还研究了 800 和 1600 个 epoch 的训练:
作为参考,MAE [21] 获得了从 400 个扩展到 800 个 epoch 的显着增益 (4%),MoCo v3 [7] 几乎没有增益 (0.2%),从 300 个扩展到 600 个 epoch。
模型大小。到目前为止,我们所有的模型都基于 DiT-L 变体 [32],其编码器和解码器都是“ViT-1 2 L”(ViT-L 的一半深度)。我们进一步训练了不同大小的模型,其编码器是 ViT-B 或 ViT-L(解码器总是与编码器大小相同):
我们观察到良好的缩放行为 w.r.t.模型大小:从 ViT-B 到 ViT-L 缩放的增益很大,为 10.6%。MAE[21]也观察到类似的缩放行为,从ViT-B到ViT-L的增益为7.8%。
与以前的基线进行比较。最后,为了更好地理解不同的自监督学习方法家族如何执行,我们在 Tab4 中与先前基线进行比较。我们考虑MoCo v3[7],属于对比学习方法家族,MAE[21],属于基于掩蔽的方法家族。
有趣的是,与 MAE 相比,l-DAE 的性能相当不错,显示出 1.4% (ViT-B) 或 0.8% (ViT-L) 的退化。我们注意到这里的训练设置是MAE 和 l-DAE 之间尽可能公平:两者都训练了 1600 个 epoch,随机裁剪作为数据增强。另一方面,我们还应该注意的是,MAE 在训练中更有效,因为它只对未屏蔽的补丁进行操作。然而,我们在很大程度上缩小了 MAE 和 DAE 驱动方法之间的准确性差距。
最后,我们观察到,与该协议下的对比学习方法相比,基于自动编码器的方法(MAE 和 l-DAE)仍然很短,尤其是当模型较小时。我们希望我们的研究将更多地关注基于自动编码器的自监督学习方法的研究。
我们已经报告说,l-DAE 在很大程度上与经典 DAE 相似,可以在自监督学习中具有竞争力。关键组件是添加噪声的低维潜在空间。我们希望我们的发现将在当今自我监督学习研究的背景下重新点燃对基于去噪的方法的兴趣。
DiT架构。我们遵循DiT架构设计[32]。DiT 架构与原始 ViT [15] 类似,并对条件进行了额外的修改。每个 Transformer 块接受以时间步长 t 为条件的嵌入网络(两层 MLP)。该嵌入网络的输出决定了LayerNorm[1]的尺度和偏置参数,称为adaLN[32]。与[32]略有不同,我们将这个MLP的隐藏维度设置为其原始维度的1/4,这有助于降低模型大小和节省内存,而不会以牺牲准确性成本。
训练。原始的 DiTs [32] 以 256 的批大小进行训练。为了加快我们的探索速度,我们将批量大小设置为 2048。我们执行线性学习率预热 [19] 100 个 epoch,然后按照半周期余弦调度对其进行衰减。我们默认使用基本学习率blr = 1e-4[32],按照线性缩放规则[19]设置实际lr:blr ×批大小/ 256。不使用权值衰减[32]。我们默认训练了 400 个 epoch。在 256 核 TPU-v3 pod 上,训练 DiT-L 需要 12 小时。
线性探测。我们的线性探测实现遵循MAE[21]的做法。我们使用干净、256×256大小的图像进行线性探测训练和评估。ViT 输出特征图通过平均池化全局池化。然后,它由无参数BatchNorm[25]层和线性分类器层处理,遵循[21]。训练批量大小为 16384,学习率为 6.4×10-3(余弦衰减计划),权重衰减为 0,训练长度为 90 个 epoch。在训练期间使用随机调整大小的裁剪和翻转,并使用单个中心裁剪进行测试。报告了 Top-1 准确度。
虽然该模型在自监督预训练中以 t 为条件,但在迁移学习(例如线性探测)中不需要条件。我们在线性探测训练和评估中固定时间步长 t 值。不同 t 值(在 1000 个时间步长中)的影响如下所示:
我们注意到 t 值确定:(i)以 t 为条件的模型权重,以及(ii)迁移学习中添加的噪声,使用相同的 t 级别。两者都显示在表中。我们在所有实验中使用 t = 10 和干净的输入,除了 Tab4 我们使用最佳设置。
固定 t 也意味着用于调节的 t 依赖性 MLP 层不暴露于迁移学习中,因为它们可以在固定 t 的情况下合并。因此,我们的模型的参数数量与标准 ViT [15] 相似,如表 4 所示。
DiT-L [32] 有 24 个块,其中前 12 个块称为“编码器”(因此 ViT-1 2 L),其他块称为“解码器”。编码器和解码器的这种分离是人为的。在下面的表中,我们使用相同的预训练模型展示了使用编码器中不同数量的块的线性探测结果:
当编码器和解码器具有相同的深度时,实现了最佳精度。这种行为不同于 MAE [21],其编码器和解码器是不对称的。
除了线性探测,我们还报告了端到端微调结果。我们密切遵循MAE的协议[21]。我们使用干净、256×256大小的图像作为编码器的输入。全局平均池化输出用作分类的特征。训练批量大小为 1024,初始学习率为 4×10-3,权重衰减为 0.05,下降路径 [24] 为 0.1,训练长度为 100 个 epoch。我们使用 0.85 (B) 或 0.65 (L) 的逐层学习率衰减。MixUp [43] (0.8)、CutMix [42] (1.0)、RandAug [8] (9, 0.5) 和指数移动平均 (0.9999),类似于 [21]。结果总结如下:
总体而言,两种基于自动编码器的方法都优于MoCo v3。l-DAE与ViT-B的MAE表现相似,但ViT-L仍达不到MAE。