Intriguing Properties of Vision Transformers
★★★★★ NeurIPS'21 (Spotlight)
Authors:Muzammal Naseer,Kanchana Ranasinghe,Salman Khan,Munawar Hayat,Fahad Shahbaz Khan,Ming-Hsuan Yang
https://arxiv.org/abs/2105.10497v3
摘要:视觉Transformers(ViT)在各种机器视觉问题上表现出令人印象深刻的性能。这些模型基于多头自注意机制,可以灵活地处理一系列图像块,对上下文线索进行编码。一个重要的问题是,以给定图块为条件处理图像范围上下文的灵活性如何有助于处理自然图像中的干扰,例如严重遮挡、域移动、空间排列、对抗攻击和自然干扰。我们通过一系列广泛的实验系统地研究了这个问题,包括三个ViT家族,并与高性能卷积神经网络(CNN)进行了比较。我们展示并分析了ViT的以下有趣特性:(a)Transformers对严重遮挡、扰动和域移动具有高度鲁棒性,例如,即使在随机遮挡80%的图像内容后,在ImageNet上仍保持高达60%的top-1精度。(b) 对遮挡的鲁棒性能不是由于对局部纹理的偏置,相反,与CNN相比,VIT对纹理的偏置要小得多(The robustness towards occlusions is not due to texture bias, instead we show that ViTs are signifificantly less biased towards local textures, compared to CNNs.)。当适当训练以编码基于形状的特征时,VIT显示出与人类视觉系统相当的形状识别能力,这在以前的文献中是无与伦比的。(c) 使用VIT对形状表示进行编码,可以在没有像素级监控的情况下实现精确的语义分割。(d) 来自单个ViT模型的现成特征可以组合起来创建一个特征集合,从而在传统和few-shot学习范式中,在一系列分类数据集中实现高准确率。我们发现ViTs的有效特征是通过自注意机制可能产生的灵活和动态的感受野。代码在:https://git.io/Js15X
1 引言
随着视觉Transformers(ViT)吸引了更多的兴趣[1],研究其学习表征的特征变得非常重要。具体而言,从安全关键应用的角度,如自动驾驶汽车、机器人和医疗保健;所学的表示法必须是鲁棒的和可泛化的。在本文中,我们比较了Transformers与卷积神经网络(CNN)在处理不同数据分布的干扰(例如,遮挡、分布移位、对抗性和自然扰动)和泛化方面的性能。我们的深入分析基于三个Transformers系列,ViT[2]、DeiT[3]和T2T[4],跨越15个视觉数据集。为简洁起见,除非另有说明,否则我们将所有Transformers系列称为ViT。
我们对卷积运算和自注意的基本差异感兴趣,这在稳健性和泛化方面还没有得到广泛的探讨。虽然卷积擅长学习输入域中元素之间的局部交互(例如,边缘和轮廓信息),但自注意已被证明可以有效地学习全局交互(例如,远距离对象部分之间的关系)[5,6]。给定一个查询嵌入,自注意会发现它与序列中其他嵌入的交互作用,从而在建模全局关系的同时对局部内容进行调节[7]。相反,卷积与内容无关,因为相同的滤波器权重应用于所有输入,而不管它们的不同性质。考虑到与内容相关的远程交互建模能力,我们的分析表明VIT可以灵活地调整其感受野,以应对数据中的干扰,并增强表示的表达能力。
我们的系统实验和新颖的设计选择带来了以下有趣的发现:
• 与最先进的CNN相比,VIT对前景物体、非显著背景区域和随机图块位置的严重遮挡具有很强的鲁棒性。例如,在ImageNet[8]val.set上,对于高达80%的显著随机遮挡,DeiT[3]可以保持大约60%的top-1准确度,而CNN的准确度为零。
• 当呈现同一对象的纹理和形状时,CNN模型通常根据纹理做出决策[9]。相比之下,VIT在形状识别方面的表现优于CNN,与人类相当。这突出了VIT处理显著分布变化的鲁棒性,例如,在纹理较少的数据(如绘画)中识别对象形状。
•与CNN相比,VIT对其他干扰因素表现出更好的鲁棒性,如图块排列、对抗性干扰和常见自然腐蚀(例如噪声、模糊、对比度和像素化伪影)。然而,与CNN[10]类似,专注于形状的训练过程使他们容易受到对抗攻击和常见腐蚀。
• 除了具有良好的鲁棒性特性外,ImageNet预训练模型中的现成ViT特性还可以非常好地推广到新的领域,例如few-shot学习、细粒度识别、场景分类和长尾分类设置。除了我们广泛的实验分析和新发现外,我们还介绍了几种新颖的设计选择,以突出VIT的强大潜力。为此,我们建议对DeiT进行架构修改,以通过专用token对形状信息进行编码,该标记演示了如何在同一架构中使用不同标记对看似矛盾的线索进行建模,从而产生有利的影响,如无需像素级监督的自动分割。此外,我们的现成特征转换方法利用从单个架构派生的表示集合,通过预先训练的ViT获得最先进的泛化(图1)。
2 相关工作
CNN在独立和同分布(i.i.d)环境中表现出最先进的性能,但对分布变化高度敏感;对抗性噪声[11,12]、常见图像损坏[13]和域偏移(例如,RGB到草图)[14]。人们自然会问,与CNN相比,基于自注意力处理输入的ViT是否有任何优势。Shao等人[15]分析了VIT对对抗性噪声的影响,并表明VIT对高频变化更具鲁棒性。类似地,Bhojanalli等人[16]研究了ViT对空间扰动的影响[15]及其对去除任何单层的鲁棒性。由于ViT处理图像图块,我们重点关注它们对图块屏蔽、局部对抗图块[17]和常见自然腐蚀的鲁棒性。Paul和Chen[18]同时开展的一项工作也对VIT的稳健性提出了类似的见解,但采用了一些不同的实验集。
Geirhos等人[9]提供的证据表明,CNN主要利用纹理来做出决策,而对整体形状的重视程度较低。CNN只使用局部特征的能力进一步证实了这一点[19]。最近,[20]量化了形状和纹理特征之间的互信息[21]。我们的分析表明,大型ViT模型具有较少的纹理偏置,并且相对更强调形状信息。当直接在程式化ImageNet上训练时,ViT的形状偏置接近人类水平的表现[9]。我们的发现与最近的一项同时进行的工作一致,该工作证明了这一趋势对人类行为理解的重要性,并弥合了人类与机器视觉之间的差距[22]。最近的一项研究[23]表明,自监督ViT可以自动分割前景对象。相比之下,我们展示了形状聚焦学习如何在没有任何像素级监控的情况下,在图像级监控的ViT模型中赋予类似的能力。
Zeiler等人[24]介绍了一种在不同层上可视化CNN特征的方法,并研究了现成特征的性能。本着类似的精神,我们研究了ViT与CNN相比的现成特性的泛化。感受野是网络对远距离依赖性建模能力的一个指标。基于Transformers的模型的感受野覆盖了整个输入空间,这一特性类似于手工制作的功能[25],但VIT具有更高的表示容量。与CNN相比,这使得ViT能够模拟全局上下文并保留结构信息[26]。这项工作是为了证明在ViTs中灵活的感受野和基于内容的上下文建模对学习特征的鲁棒性和泛化的有效性。
3 视觉Transformers的有趣特性
3.1 视觉Transformers是否对遮挡具有鲁棒性?
ViT的感受野横跨整个图像,它利用自注意来模拟图像块序列之间的相互作用[26,27]。我们研究VIT在遮挡场景中是否表现良好,在遮挡场景中,部分或大部分图像内容缺失。
遮挡建模: 考虑网络,它处理输入图像来预测标签,其中X被表示为具有N个元素的图块序列,即[2]。虽然可以有多种方法来定义遮挡,但我们采用了一种简单的遮罩策略,即选择总图像图块的子集M 随机PatchDrop: 随机选择并丢弃M个图块的子集(图2)。几个最新的视觉Transformers[2,3,4]将图像分成196块,属于14x14空间网格;即将224×224×3大小的图像分割为196个斑块,每个斑块的大小为16×16×3。例如,从输入中删除100个这样的图块相当于丢失51%的图像内容。 显著(前景)PatchDrop: 并非所有像素对视觉任务都具有相同的重要性。因此,研究VIT对高度显著区域闭塞的鲁棒性非常重要。我们利用自监督ViT模型DINO[23],该模型可有效分割显著对象。特别地,利用流入最后一个注意块内的最终特征向量(类标记)的信息的空间位置来定位显著像素。这允许通过阈值化注意流的数量来控制在所选像素内捕获的显著信息量。 我们选择包含前景信息顶部Q%的图块子集(对于固定Q为确定性)并删除它们。注意,该Q%并不总是对应于像素百分比,例如,图像的50%前景信息可能仅包含在其像素的10%内。 非显著(背景)PatchDrop:使用与上述相同的方法,使用[23]选择图像中最不显著的区域。包含最低Q%前景信息的图块被选中并放在这里。注意,这并不总是对应于像素百分比,例如,80%的像素可能仅包含图像的20%的非显著信息。 Transformers抗遮挡性能的鲁棒性:我们考虑在IMANET中预先训练的视觉识别任务〔2〕。在验证集(50k图像)上研究遮挡的影响。我们将信息丢失(IL)定义为丢弃的图块与总图块的比率(M/N)。改变IL,以获得每个PatchDrop方法的一系列遮挡程度。图3中报告的结果(Top-1%)显示了ViT模型对CNN的显著稳健性能。在随机图块丢弃的情况下,我们报告了5次运行的平均准确度。对于显著性和非显著性Patchdrop,由于遮挡是确定性的,因此我们报告单次运行的精度值。当50%的图像信息被随机丢弃时,CNN的性能很差。例如,与DeiT-S(2200万个参数)相比,ResNet50(2300万个参数)达到了0.1%的精度,而DeiT-S(2200万个参数)在删除50%的图像内容时获得了70%的精度。可以观察到一个极端的例子,当90%的图像信息被随机屏蔽,但Deit-B仍显示37%的准确度。这一发现在不同的ViT架构中是一致的[2,3,4]。类似地,VIT对前景(显著)和背景(非显著)内容移除表现出显著的鲁棒性。有关稳健性分析的进一步结果,请参见附录A、B、C、D、E。 对于信息损失,ViT表示是鲁棒的 为了更好地理解针对这种遮挡的模型行为,我们可视化了来自不同层的每个头部的注意力(图4)。虽然初始层涉及所有区域,但较深的层往往更关注图像非遮挡区域中的剩余信息。然后,我们研究从初始层到更深层的这种变化是否会导致对遮挡的标记不变性(token invariance),这对于分类很重要。我们测量原始图像和被遮挡图像的特征/标记之间的相关系数: 其中,和是均值和标准差运算[29]。在我们的案例中,随机变量和指的是定义在整个ImageNet验证集上的原始图像和遮挡图像的特征图。对于ResNet50,我们考虑在logit层之前的特征;对于ViT模型,从最后个transformer块中提取类tokens。与ResNet50特征相比,transformers中的类tokens更加鲁棒,并且不会遭受太多的信息损失的影响(表1)。此外,我们还可视化了ImageNet层次结构中12个选定超类的相关系数,并注意到这种趋势在不同的类类型中保持不变,即使是相对较小的对象类型,如昆虫、食物和鸟类(图5)。特征可视化见附录F。定性结果见附录G。 鉴于Transformers模型因动态感受野和学习标记的可辨别性保持行为而具有耐人寻味的鲁棒性,接下来的问题是VIT中的学习表示是否偏向纹理。当对象的空间结构部分丢失时,可以期望仅聚焦于纹理的有偏模型仍然表现良好。 (原文:Given the intriguing robustness of transformer models due to dynamic receptive fifields and discriminability preserving behaviour of the learned tokens, an ensuing question is whether the learned representations in ViTs are biased towards texture or not. One can expect a biased model focusing only on texture to still perform well when the spatial structure for an object is partially lost.) 3.2 形状与纹理:Transformer能否对这两种特性建模? Geirhos等人[9]研究了形状与纹理假说,并提出了一个训练框架,以增强CNN中的形状偏置。我们首先进行了类似的分析,结果表明,ViT模型的形状偏置比CNN大得多,与人类视觉系统识别形状的能力相当。然而,这种方式会导致自然图像的准确度显著下降。为了解决这个问题,我们在transformer架构中引入了一个shape token,它学习如何关注形状,从而使用一组不同的tokens在同一架构中对形状和纹理相关的特征进行建模。因此,我们从具有高形状偏差的预训练CNN模型中提取形状信息[9]。与原始ViT模型相比,我们的蒸馏方法在高分类精度和强形状偏差之间进行了平衡权衡。 我们在下面概述这两种方法。请注意,[9]中介绍的度量用于量化ViT模型中的形状偏置,并与CNN模型进行比较。 无局部纹理的训练: 在这种方法中,我们首先通过创建一个名为SIN的风格化版本的ImageNet[9],从训练数据中移除局部纹理线索。然后,我们在此数据集上训练DeiT模型[3]的tiny和small版本。通常,VIT在训练期间使用大量数据扩充[3]。然而,使用SIN学习是一项困难的任务,因为纹理细节较少,并且对样式化样本应用进一步的增强会扭曲形状信息并使训练不稳定。因此,我们在SIN上训练模型,而不应用任何增广、标签平滑或mix up。 我们注意到,与类似容量的CNN模型相比,在ImageNet上训练的VIT表现出更高的形状偏置,例如,DeiT-S(2200万个参数)比ResNet50(2300万个参数)表现更好(图6,右图)。相反,SIN训练的VIT始终比CNN表现更好。有趣的是,DeiT-S[3]在接受SIN训练时达到了人类水平的表现(图6,左图)。 形状蒸馏: 知识蒸馏允许将大型教师模型压缩为小型学生模型[29],因为教师通过软标签为学生提供指导。我们引入了一个新的形状标记,并采用注意蒸馏[3]从SIN数据集上训练的CNN(ResNet50 SIN[9])中提取形状知识。我们观察到,ViT特征本质上是动态的,可以由辅助token控制,以关注所需的特征。这意味着单个ViT模型可以使用单独的标记同时显示高形状和纹理偏差(表3)。当引入形状标记时,我们在分类和形状偏差度量方面实现了更平衡的性能(图7)。为了证明这些不同的标记(用于分类和形状)确实建模了不同的特征,我们计算了我们提取的模型DeiT-T-SIN和DeiT-S-SIN的类和形状标记之间的余弦相似性(在ImageNet val.set上平均),结果分别为0.35和0.68。这明显低于类别和蒸馏标记之间的相似性[3];DeiT-T和DeiT-S分别为0.96和0.94。这证实了我们的假设,即在ViTs中使用单独的标记对不同的特征进行建模,这是CNN无法直接实现的独特功能。此外,正如我们接下来解释的,它还提供了其他好处。 形状偏差ViT提供自动对象分割: 有趣的是,没有局部纹理或形状提取的训练允许ViT集中于场景中的前景对象,而忽略背景(表4,图8)。这为图像提供了自动语义分割,尽管该模型从未见过像素级对象标签。也就是说,形状偏差可以用作ViT模型的自监督信号,以学习不同的形状相关特征,帮助定位正确的前景对象。我们注意到,未强调形状的ViT训练效果不佳(表4)。 上述结果表明,经过适当训练的ViT模型提供的形状偏置几乎与人类识别形状的能力一样高。这让我们怀疑位置编码是否是帮助VIT在严重遮挡情况下实现高性能的关键(因为它可能允许后续层在给定空间顺序的情况下仅使用几个图像块恢复丢失的信息)。下一步将研究这种可能性。 3.3 位置编码是否保留全局图像上下文? Transformers使用自注意[27](而不是RNN[30]中的顺序设计)并行处理长程序列的能力对序列顺序是不变的。对于图像,图块的顺序表示了整体图像结构和全局合成。由于VIT对一系列图像块进行操作,因此改变序列顺序(例如,shuffle)可能会破坏图像结构。当前的VIT[2,3,4,26]使用位置编码来保存此上下文。在这里,我们分析通过位置编码建模的序列顺序是否允许ViT在遮挡处理下表现出色。我们的分析表明,Transformers对图块位置具有高度的置换不变性,并且位置编码对向ViT模型注入图像结构信息的影响是有限的(图10)。这一观察结果与下文所述的语言领域[31]的研究结果一致。 对空间结构的敏感性: 如图9所示,我们通过在输入图像块上定义shuffle操作来移除图像内的结构信息(空间关系)。图10显示,当输入图像的空间结构受到干扰时,DeiT模型[3]比CNN模型保持的精度更好。这也表明位置编码对于正确的分类决策并非绝对重要,并且该模型不会使用位置编码中保存的序列信息“恢复”全局图像上下文。在没有编码的情况下,ViT的性能相当好,并且实现了比使用位置编码的ViT更好的置换不变性(图10)。最后,当ViT训练过程中改变图块大小时,排列不变性特性也会随着unshufflfled自然图像的精度而降低(图11)。总的来说,我们将VIT的排列不变性性能归因于其动态感受野,该感受野依赖于输入图块,并且可以通过其他序列元素调整注意力,从而适度地洗牌这些元素不会显著降低性能。(Finally, when the patch size is varied during ViT training, the permutation invariance property is also degraded along with the accuracy on unshufflfled natural images (Fig. 11).Overall, we attribute the permutation invariance performance of ViTs to their dynamic receptive fifield that depends on the input patch and can adjust attention with the other sequence elements such that moderately shufflfling the elements does not degrade the performance signifificantly.) 上述分析表明,就像纹理偏置假设不适用于VIT一样,依赖位置编码在遮挡下表现良好也是不正确的。这使我们得出结论,ViTs的鲁棒性是由于其灵活和动态的感受野(见图4),该感受野取决于输入图像的内容。现在,我们进一步深入研究ViT的鲁棒性,并研究其在对抗性干扰和常见损坏下的性能。 3.4 视觉Transformers对对抗性干扰和自然干扰的鲁棒性 在分析VIT编码形状信息的能力(第3.2节)后,接下来的一个问题是:较高的形状偏差是否有助于实现更好的鲁棒性?在表4中,我们通过计算各种合成常见腐蚀(如雨、雾、雪和噪声)的平均腐蚀误差(mCE)[13]来研究这一点。具有与CNN相似参数的ViT(例如,DeiT-S)比经过增强训练的ResNet50(Augmix[32])对图像损坏更具鲁棒性。有趣的是,未在ImageNet或SIN上进行增强训练的CNN和VIT更容易受到腐蚀。这些发现与[10]相一致,并表明增强提高了对常见腐败的鲁棒性。 我们观察到对抗性图块攻击的类似性能[17]。ViTs在白盒设置(完全了解模型参数)下对无目标、通用对抗性图块显示出比CNN更高的鲁棒性。在SIN上训练的VIT和CNN比在ImageNet上训练的模型(图12和图13)更容易受到敌对攻击,这是由于形状偏差与鲁棒性的权衡[10]。 鉴于ViT强大的鲁棒性,以及其在形状偏置、自动分割和灵活感受野方面的表现能力,我们分析了其作为现成特征提取器的效用,以取代CNN作为默认特征提取机制[33]。 3.5 Vision Transformer的 Off-the-shelf Tokens ViT模型的一个独特特征是,模型内的每个块生成一个类别token,可由分类头单独处理(图14)。这允许我们测量ImageNet预训练ViT的每个单独块的辨别能力,如图15所示。由更深的块生成的类token更具区分性,我们使用这一洞察来确认其token具有最佳下游可迁移性的块的有效集合。 迁移方法: 如图15所示,我们分析了DeiT模型的分块分类精度,并确定在最后几个块的类标记中捕获了鉴别信息。因此,如表5所示,我们使用DeiT-S[3]对细粒度分类数据集(CUB[34])上的现成迁移学习进行了消融研究。在这里,我们连接来自不同块的类标记(可选地与平均图块标记组合),并训练一个线性分类器将特征迁移到下游任务。请注意,通过沿图块维度平均生成图块标记。将来自最后四个块的类标记串联在一起的方案显示了最佳的迁移学习性能。我们将这种迁移方法称为DeiT-S(集成)。将所有块中的类标记和平均图块标记串联在一起,有助于实现与最后四个块中的标记类似的性能,但需要非常大的参数来训练。我们在更广泛的任务范围内使用DeiT-S(集成)进行进一步的实验,以验证我们的假设。通过使用logit层之前的特征,我们进一步与预先训练的ResNet50基线进行比较。 视觉分类: 我们分析了现有特征在多个数据集中的可迁移性,包括飞机[35]、CUB[34]、DTD[36]、GTSRB[37]、真菌[38]、地点365[39]和不自然列表[40]。这些数据集分别用于100、200、47、43、1394、365和1010类的细粒度识别、纹理分类、交通标志识别、物种分类和场景识别。我们在每个数据集的序列分割上,在提取的特征的基础上训练一个线性分类器,并评估其各自测试分割的性能。与CNN基线相比,ViT特征显示出明显的改善(图16)。我们注意到,DeiT-T需要的参数比ResNet50少5倍,在所有数据集中表现更好。此外,采用所提出的集成策略的模型在所有数据集上都取得了最佳结果。 Few-shot学习: 我们认为元数据集(45)设计为一个大规模的Few-Shot Learning(FSL)基准,包含来自多个域的不同数据集。这包括字母表、手绘草图、纹理图像和细粒度类,使其成为一个具有挑战性的数据集,同时涉及到域自适应需求。我们遵循ImageNet培训和所有其他数据集测试的标准设置,这些数据集被视为下游任务。 在我们的实验中,我们在ImageNet数据集上使用预先训练好的分类网络来提取特征。对于每个下游数据集,在FSL设置下,标记图像的支持集可用于每个测试查询。我们使用提取的特征在每个查询的支持集上学习线性分类器(类似于[46]),并使用[45]中定义的标准FSL协议进行评估。该评估涉及针对每个下游数据集的不同数量的放炮。平均而言,与CNN基线相比,ViT特征在这些不同领域的迁移更好(图16)。此外,我们注意到,使用所提出的集成策略进一步提高了ViT的传输性能。我们还强调了QuickDraw(一个包含手绘草图的数据集)的改进,该数据集与我们关于改进ViT模型与CNN模型形状偏差的研究结果一致(详细讨论见第3.2节)。 4 讨论和结论 在本文中,我们从鲁棒性和可推广性的角度分析了ViTs的有趣特性。我们在15个视觉数据集上使用各种ViT模型进行测试。所有型号均在4个V100 GPU上进行训练。我们证明了ViTs相对于CNN在遮挡处理、对分布偏移和图块置换的鲁棒性、无像素监督的自动分割以及对对抗图块和常见损坏的鲁棒性方面的优势。此外,我们还通过从单个ViT模型提出的特征集成,展示了现成ViT特征到多个下游任务的强可迁移性。一个有趣的未来研究方向是探索如何有效地组合使用单独token在单个ViT中建模的各种线索,以相互补充。 我们目前的实验是基于ImageNet(ILSVRC'12)预先训练的VIT,这有可能在学习的表示中反映潜在的偏差。数据大多是西方的,编码了一些性别/种族刻板印象,某些群体的代表性不足[43]。这个版本的ImageNet也带来了隐私风险,因为它没有被蒙蔽的人脸。将来,我们将使用最新的ImageNet版本来解决上述问题[44]。 附录 随机图块丢弃:图块大小的影响 如图17所示,我们扩展了我们的随机 PatchDrop实验,以包括掩蔽操作的不同 PatchDrop大小。主要论文中的PatchDrop实验涉及将图像分割成14×14网格(获得196块尺寸为16×16像素的图块)。在这里,我们将图像分割为不同的网格大小,并通过相关的网格大小定义每个实验。这些实验的结果如图18所示。所有精度值均在ImageNet val集合中报告。由于每个网格大小包含不同数量的图块,我们在精度图中遮挡特定百分比并插值到相同比例,以便更好地进行比较。 我们注意到,当被遮挡图块的尺寸是模型图块大小的倍数(使用的网格大小是原始网格大小的一个因子)时,ViT模型(将输入图像分割为一系列图块进行处理)对图块遮挡的鲁棒性显著提高。这在7×7网格PatchDrop实验中ViT的更高性能中可见(最初使用14×14网格)。同时,由于大部分被遮挡(例如,使用4×4的空间网格),ViT模型和CNN之间的性能差异显著减小。我们认为情况确实如此,因为在高掩蔽率下,非常大的图块遮挡可能会消除与特定对象类别相关的所有视觉线索,这使得ViT和CNN模型都很难做出正确的预测。 更重要的是,我们注意到在Sec3.1中观察到的趋势。通过不同网格大小的实验,再次确认了关于遮挡的信息。我们还注意到,其中一些网格大小(例如8×8)与原始ViT模型(将图像分割为14×14图块序列)使用的网格模式无关。这表明,虽然这些趋势在匹配网格大小(与ViT模型相同)及其因素方面更为显著,但观察到的趋势并非仅由于ViT模型的网格操作而产生。我们注意到,由于VIT的动态感受野,这种行为是可能的。 A.1 带偏移的随机PatchDrop 我们还探讨了PatchDrop遮罩上的空间偏移如何影响ViT模型。这旨在消除ViT模型的固有网格模式与我们的系列之间可能存在的对齐。在图像上应用相同的遮罩,但具有较小的空间偏移,以确保没有遮罩图块与ViT模型在处理输入图像时使用的任何网格图案对齐。我们重复第节所述的相同实验。在3.1节设置下,将我们的结果显示在图19中。一般来说,我们观察到ViT模型和ResNet模型之间存在类似的趋势,但我们注意到,与无偏移设置下的性能相比,ViT-L的精度显著下降。我们将在下面介绍这种趋势的潜在原因。 ViT-L是一个包含超过3亿个可训练参数的大型模型,而其他模型包含的参数明显较少,例如DeiT-B(8600万)、T2T-24(6400万)、TnT-S(2300万)和ResNet50(2500万)。此外,与ViT-L模型不同的是,DeiT家族及其构建者使用广泛的数据扩充方法进行训练,确保使用小数据集对ViT进行稳定训练。在图18中的16×16网格尺寸实验中也观察到ViT-L性能的类似相对下降。在这种情况下,ViT-L的异常行为可能是由于这些差异造成的。 B Random PixelDrop 观察与ViT模型固有网格操作解耦的遮挡效果的进一步步骤是在像素级进行遮挡。如图20所示,我们生成不同遮挡级别的像素级掩模。图21中,我们对的ImageNet val集的评估表明,ViT模型和CNN之间的趋势与之前在3.1节和附录A中观察到的趋势相同。 PixelDrop可以被视为PatchDrop的一个版本,我们使用的网格大小等于图像尺寸(将patch size设置为1×1)。考虑到这一点,我们比较了当我们接近较小网格尺寸的像素下降时,模型的性能如何变化。这如图22所示,在图22中,我们使用不同网格大小的PatchDrop评估ImageNet val集上50%遮挡的模型。 我们注意到,与PatchDrop实验相比,在PixelDrop的情况下,对于这种固定的遮挡级别,模型的整体性能会下降。 我们还注意到,与其他型号相比,ViT-L的性能显著提高。这可归因于其更高的可训练参数计数,如第A.1所讨论的。同时,ViT-L显示16×16网格的性能异常下降,与我们在图19中的观察结果非常相似。 C 对特征丢失的鲁棒性 与我们以前在模型输入空间中涉及遮挡的实验不同,我们现在关注模型特征空间中的遮挡。我们通过在ViT模型中删除部分中间表示来实现这一点,而不是从输入图像中删除图块。对于每个Transformers块(例如,对于DeiT-B中的12个块中的每个块),我们随机屏蔽(设置为零)其输入特征的选定百分比。表6通过评估ImageNet val集的性能研究了这些“特征下降”实验的影响。采用标准方法测量性能(使用ViT模型的最终分类器头部的输出)。我们注意到,对于少量的特征下降(25%和50%),无论单个块的位置如何,模型都会遭受相对类似的性能下降。但是,对于较大数量的特征丢失,某些块对于每个模型来说显得更重要。此外,我们注意到大型模型块内存在一定程度的信息冗余,因为它们的性能下降并不显著,即使是相当数量的特征下降(例如,ViT-L为25%)。 在表7中,我们对ResNet50模型进行了相同的特征丢弃实验。我们注意到ResNet架构与ViT模型完全不同;因此,比较这些值将没有什么意义。在ResNet50的案例中,我们观察到早期层中的功能下降如何导致性能显著下降,这与ViT模型不同。此外,最后一层中的功能下降显示性能下降几乎可以忽略不计,这可能是由于接着处理这些特征的平均池化操作造成的。在比较ViT模型的情况下,最后一层中的图块token不用于最终预测,因此对其应用特征丢弃对性能没有影响。 D 对遮挡的鲁棒性:更多分析 在我们的实验设置中,我们将VIT与类 tokens一起使用,这些类 tokens在整个网络中与 patch tokens交互,并随后用于分类。然而,并非所有ViT设计都使用类 token,例如,Swin Transformer[49]使用所有 tokens的平均值。为此,我们使用三种最新的Swin Transformer[49]对我们提出的遮挡进行了实验(图23)。 D.1 Swin Transformer [49] D.2 RegNetY [50] 在这里,我们评估了RegNetY的三种变体与我们提出的遮挡(图24)。与ResNet50相比,RegNetY[50]显示出相对较高的鲁棒性,但总体表现与其他CNN模型类似。 E 形状偏置模型的行为 在本节中,我们研究了PatchDrop(第3.1节)和置换不变性(第3.3节)实验对在程式化ImageNet[9](形状偏置模型)上训练的模型的影响。与形状偏向CNN模型相比,VIT模型对PatchDrop表现出良好的鲁棒性。请注意,ResNet50(2500万)和DeiT-S(2200万)具有类似的可训练参数计数,这是一个更好的比较。此外,我们注意到,在“随机shufflfle”实验的情况下,ViT模型显示出与CNN模型类似(或更低)的置换不变性。这些随机shufflfle的结果表明,我们在ViT模型中发现的排列不变性的缺乏。3.3在我们的形状偏差模型中有所克服。 (什么意思?是指附录中实验结论与正文中相悖吗) (原文:In this section, we study the effect of our PatchDrop (Sec. 3.1) and permutation invariance (Sec. 3.3)experiments on our models trained on Stylized ImageNet [9] (shape biased models). In comparison to a shape biased CNN model, the VIT models showcase favorable robustness to occlusions presented in the form of PatchDrop. Note that ResNet50 (25 million) and DeiT-S (22 million) have similar trainable parameter counts, and therein are a better comparison. Furthermore, we note that in the case of “random shufflfle” experiments, the ViT models display similar (or lower) permutation invariance in comparison to the CNN model. These results on random shufflfle indicate that the lack of permutation invariance we identifified within ViT models in Sec. 3.3 is somewhat overcome in our shape biased models.) F 动态感受野 我们进一步研究了ViT行为,将重点放在信息信号上,而不管其位置如何。在我们的新实验中,在推断过程中,我们将输入图像重新缩放到128x128,并将其放置在224x224大小的黑色背景中。换句话说,我们将所有图像信息反射到几个中,而不是移除或洗牌图像补丁。然后,我们将这些图块的位置移动到背景的右上角/左下角。平均而言,Deit-S显示62.9%的top-1分类准确率和低方差(62.9±0.05)。相比之下,ResNet50的平均准确率仅为5.4%。这些结果表明,无论位置如何,VIT都可以利用鉴别信息(表8)。图26显示了当图像在背景中移动时,描述注意力变化的可视化。 (We further study the ViT behavior to focus on the informative signal regardless of its position. In our new experiment, during inference, we rescale the input image to 128x128 and place it within black background of size 224x224. In other words, rather than removing or shuffling image patches, we reflect all the image information into few patches. We then move the position of these patches to the upper/lower right and left corners of the background. On average, Deit-S shows 62.9% top-1 classification accuracy and low variance (62.9±0.05). In contrast, ResNet50 achieves only 5.4% top-1 average accuracy. These results suggest that ViTs can exploit discriminative information regardless of its position (Table 10). Figure 26 shows visualization depicting the change in attention, as the image is moved within the background. ) E 其他定性结果 这里,我们展示了一些定性结果,例如,图27展示了我们的遮挡(随机、前景和背景)方法的示例。我们的形状模型分割显著图像的性能如图28所示。在图29中,我们通过可视化信息丢失情况下的注意力,展示了ViT感受野的动态行为。最后,我们展示了为愚弄不同ViT模型而优化的对抗图块(图31)。 注: (1)编者在机翻这篇论文时是基于arxiv上较早的版本,在整理时用的是arixv上v3版本,v3版本相比v1版本的图像/表格/文本/附录/参考文献索引均有所变动。编者在整理时图像、表格根据v3版本做相应补充,但参考文献索引未做改动。因此对参考文献感兴趣的读者建议参见原文。 (2)arixv3的表格排布出现错误:表1,表3,表4,表4, 表5,表6... (3)arxiv3中的附录增加了对SwinTransformer的比较