变换器鲁棒性-6：Understanding Robustness of Transformers for Image Classification

https://arxiv.org/pdf/2103.14586.pdf

理解用于图像分类的Transformers的鲁棒性

深卷积神经网络（CNN）长期以来一直是计算机视觉任务的首选架构。最近，基于Transformers的架构（如ViT）在图像分类方面已经达到甚至超过了RESNET。然而，Transformers架构的细节——比如使用非重叠图块——让人怀疑这些网络是否同样鲁棒。在本文中，我们对ViT模型鲁棒性的各种不同度量进行了广泛的研究，并将研究结果与ResNet基线进行了比较。我们研究了对输入扰动的鲁棒性以及对模型扰动的鲁棒性。我们发现，当使用足够数量的数据进行预训练时，ViT模型在大范围的扰动下至少与ResNet模型一样鲁棒。我们还发现，Transformers对几乎任何一层的移除都具有鲁棒性，虽然后一层的激活彼此高度相关，但它们在分类中起着重要作用。

1.介绍

卷积以其空间局部性和平移不变性的特性，自然地映射到视觉信息的特性，在几乎所有的应用领域中，卷积都是计算机视觉算法的组成部分。用于视觉任务的神经网络很早就采用了卷积层[11,31]，自从它们随着Krizhevsky等人的工作[29]复兴以来，所有用于视觉的现代网络都是卷积的[41,44,17,22,25,24,47]——具有残数等创新[17]应用于卷积层主干的连接。鉴于卷积网络的广泛应用，无论是经验[45]还是分析[13,1]，卷积网络都是重要分析的主题。

最近，在看到语言任务取得巨大成功[49,7,3]后，研究人员一直在探索各种途径，以便在计算机视觉中部署基于注意的Transformers网络[4,9,48,27]和其他基于注意的架构[53,52,40,32,54]。Transformers在视觉和语言任务方面也越来越受欢迎[42,33,46,5,34,39]。

在本文中，我们重点讨论一种特殊的Transformers架构，即Dosovitskiy等人[9]介绍的可视Transformers（ViT），因为当两者都在足够大的数据集上进行预训练时，如JFT-300M[43]，它的性能比容量相似的最先进的剩余网络（Resnet）[17]要好. 我们还关注ViT，因为与其他用于vision的Transformers模型不同，它们的架构仅由Transformers层组成。

Dosovitskiy等人的研究结果[9]告诉我们，如果有足够的训练数据克服卷积中缺乏归纳偏置的情况，这种架构在性能方面更可取。但是，ViT模型处理其输入的纯粹基于注意的机制与长达十年的卷积网络在计算机视觉中的广泛应用有着显著的不同。在本文中，我们试图更好地理解这些架构在抗输入扰动和模型参数本身扰动方面的鲁棒性，并建立对这些模型的理解，这与我们关于卷积的知识类似。

我们从一组详尽的实验开始，比较各种ViT模型变体在图像输入不同扰动下的性能，以及大小和训练相似的ResNet架构[17,28]。扰动范围从自然变化[21,19,18]到对抗性扰动[45,14,21,23]和空间变换[10]。我们还评估了纹理和形状偏差[12]。

然后，我们将注意力转向ViT模型本身的作用，通过相关分析和损伤研究，通过Transformers层的级联分析信息的演变及其内部表示的冗余，就像过去针对语言任务的Transformers所做的那样[51、38、36、8]对于视觉任务的RESNET[50,15]。此外，由于已知自注意力可以学习模拟卷积[6]，我们还研究了在ViT模型的Transformers层的注意机制中加强空间局部性的效果。

我们的研究使研究人员和实践者能够更深入地了解这种新型深度网络架构是如何工作的，它们可能部署到的应用程序的范围，并为如何在性能或效率方面改进它们提供了潜在的途径。我们的贡献如下：

•我们测量在不同数据集上预训练的不同尺寸ViT模型的鲁棒性，并将其与相应的ResNet基线进行比较。

•我们测量了输入扰动的鲁棒性，发现在足够大的数据集上预训练的VIT通常至少与它们的ResNet对应物一样鲁棒性。

•我们测量了模型扰动的鲁棒性，发现VIT对于移除几乎任何单层都是鲁棒性的，后续层仅对单个图块的表示提供有限的更新，但重点是整合CLStoken中的信息。

2.预备赛

2.1. Transformers

[49]中介绍了基于自注意力的Transformers架构，它们在机器翻译方面表现出优异的性能。它们已经成功地应用于NLP中的许多任务。值得注意的是[7,2]已经表明，结合预训练，这些模型在广泛的NLP任务中几乎实现了人的表现。

输入到Transformers模型是一系列向量，通常嵌入由Transformers块堆栈处理的输入标记。每个区块由1）多头自注意力层组成，该层使用点积注意跨token聚合信息；和2）token前馈（MLP）层。两者都使用层规范化和残差连接。

Vision Transformers ViT[9]使用了与上述相同的Transformers架构。它们的关键区别在于图像预处理层。该层将图像分割为一系列不重叠的图块，然后是学习的线性投影。例如，384×384图像可以被分割成16×16个图块，从而产生162个序列长度。这是使用2D卷积实现的，其中滤波器的数量决定了输入到Transformers的序列的隐藏大小。[7]之后的ViT还向输入附加了一个特殊的CLS标记，其表示用于最终分类。

2.2. 模型变体

为了更好地理解和对比VIT和RESNET，我们评估了每个架构系列的一系列模型。我们遵循[9]，使用的模型在参数数量、输入图块大小以及预训练数据集中都有所不同。表1总结了我们实验中使用的模型的大小。我们将“/x”附加到模型名称中，以表示将大小为x·x的图块作为输入的模型，并使用在ILSVRC-2012上预训练过的模型变体，包括∼ ImageNet-21k上的130万张图像∼ 1280万张图像，或在JFT-300M[43]上，其中包含约375M标签，可用于300M图像。所有型号均在ILSVRC-2012上进行了微调。我们从[9]的作者处获得了ViT模型的保存参数检查点，从[28]的作者处获得了ResNet模型的保存参数检查点。

[if !supportLists]3. [endif]对输入扰动的鲁棒性

在本节中，我们将ViT模型对输入扰动的鲁棒性与RESNET进行比较。我们通过测量每个架构系列的一系列代表的性能来实现这一点，如第。2.2. 为了捕获鲁棒性的不同方面，我们依赖于不同的、专门的基准ImageNet-C、ImageNet-R和ImageNet-A。我们还针对不同类型的对抗性攻击对我们的模型进行测试。最后，我们探讨了ViTs的纹理偏差。

3.1. 自然腐败

所谓的“自然”或“普通”扰动基准为在存在自然发生的图像损坏的情况下估计现实世界的性能提供了一个重要的尺度[19,16,30]。对此类扰动的鲁棒性可能很重要，例如在安全关键应用中。我们使用[19]中介绍的基准ImageNet-C来评估ViT对自然腐蚀的鲁棒性。ImageNet-C包括15种算法生成的损坏，分为4类：“噪声”、“模糊”、“天气”和“数字”。每种腐败类型有五种严重程度，导致75种不同的腐败。

图2的第二列显示了我们对所有腐蚀和所有严重性的平均结果。在附录C中可以找到更详细的结果。我们发现预训练数据集的大小对ViTs的鲁棒性有着根本性的影响。当训练集较小时，VIT的鲁棒性不如具有可比大小的RESNET，并且增加VIT的大小不会导致更好的鲁棒性。这与干净集上的性能一致，并且与[9]中关于卷积的归纳偏置的观察结果一致，当预训练数据有限时，卷积的归纳偏置是有用的。然而，当训练数据为ImageNet-21k时，我们观察到大多数ViT模型具有更强的鲁棒性。当模型在JFT-300M上进行预训练时，这种效应变得更加明显，与RESNET相比，VIT对大多数腐蚀表现出更好的鲁棒性。此外，在较大的预训练数据区域中，通过增加模型大小或减小图块大小（从而增加计算量），可以实现ViT模型的性能增益。

3.2. 现实世界的分布变化

对分布变化的鲁棒性，可以用不同的方法来衡量。在此，我们在ImageNet-R[18]上评估ViT模型，该数据集具有ILSVRC-2012类的不同“格式副本”。ImageNet-R的一个优点是，格式副本是真实世界的自然变化，如绘画或刺绣，具有不同于ImageNet图像的纹理和局部图像统计信息。

尽管ImageNet-R和ImageNet-C中的扰动性质存在根本差异，但模型在ImageNet-R上的行为相似，如图2所示。同样，当预训练数据较小时，VIT的表现不如RESNET，当在较大的数据集上进行预训练时，VIT的表现开始优于RESNET。更大模型尺寸的好处在更大的数据集上也更为明显，尤其是对于VIT。

我们的基线ResNet模型的行为与[28]附录G中观察到的行为一致，在附录G中，它们在上下文之外的对象上进行评估。[28]的作者创建了一个前景对象数据集，该数据集对应于粘贴到各种背景上的ILSVRC-2012类。他们发现，当使用更多的预训练数据时，ILSVRC-2012上较大模型的更好性能转化为更好的上下文外性能。

我们的研究发现，更多的预训练数据可以提高分布外数据的性能，这也与NLP中的研究结果一致。Hendrycks等人[20]表明，经过预训练的Transformers提高了各种配电外NLP基准的鲁棒性。他们的一个有趣的发现是，对于NLP，更大的模型并不总是更好。我们在ILSVRC-2012上预训练的VIT中观察到类似现象，但在ImageNet-21k或JFT-300M上预训练的VIT中未观察到类似现象。

3.3. 自然对抗的样本

对抗鲁棒性通常通过在图像空间的小半径内考虑最坏情况下的扰动来衡量。我们探讨了ViTs在这种扰动下的性能。3.5. 相比之下，Hendrycks等人[21]的所谓“自然对抗性”样本是未经修改的现实世界图像，通过使用经过训练的ResNet-50模型进行过滤发现，并已证明可以迁移到其他模型。与ImageNet-C和ImageNet-R相比，这些图像的局部统计信息与ImageNet图像类似。

我们在ImageNet-A上的结果如图2右栏所示。我们发现，尽管VIT的架构与ResNet-50截然不同，但它还是容易受到相同的自然对抗图像的影响。我们再次发现，较大的预训练数据集有利于ViT模型，当两者都在JFT-300M上进行预训练时，ViT模型的性能开始优于RESNET。这一发现应该是一厢情愿的，因为对抗性选择过程是基于ResNet-50的，因此ResNet设计的样本可能更难。

3.4. 鲁棒性和模型大小

在足够大的数据集上，众所周知，对于固定的架构，较大的模型会带来更好的质量。Kaplan等人[26]证明，在大型NLP数据集上训练的Transformers的此类改进遵循明确且可预测的幂律。在前面的小节中，我们发现除了干净的性能外，VIT和RESNET对各种输入扰动的鲁棒性也随着模型大小的增加而提高。随着数据集越来越大，大模型和小模型之间的差距也越来越大。因此，在最大的数据集JFT-300M上进行预训练时，评估模型的鲁棒性与其大小之间的关系是很有趣的。结果如图4所示。

我们发现，当放大模型尺寸时，误差率遵循一致的趋势，跨越两个数量级。这适用于不同的鲁棒性基准以及干净的ILSVRC-2012验证集。我们还注意到，与ResNet相比，ViTs具有更有利的扩展性。这表明，如果有足够大的预训练数据集，如JFT-300M，随着模型越来越大，ViTs和RESNET之间的鲁棒性差距将进一步扩大。注意，只有当预训练数据集足够大时，ViTs的这一优势才得以实现。在附录D中，我们表明，当在ImageNet-21k上进行预训练时，ViTs的鲁棒性并不比RESNET更好。

我们还发现，对于相同的模型族，错误率与模型大小关系的斜率在不同的数据集之间保持相对一致，尽管它们的特征截然不同。这表明，我们发现的扩展趋势可能会推广到更广泛的评估数据集和任务集。

3.5. 对抗性扰动

大多数深层神经网络模型容易受到对抗扰动的影响[45]——输入扰动非常小，但经过精心设计，导致模型产生错误预测。在NLP中，Sheieh等人[23]表明，与其他架构（如循环网络）相比，基于注意的模型对此类扰动更具鲁棒性。在本节中，我们评估了用于图像分类的各种ViT和ResNet模型对对抗性干扰的鲁棒性。

我们用L来考虑扰动。∞ 一个灰度的范数，根据模型结构和权重（即白盒攻击）的知识计算。我们使用两种标准方法来计算这些扰动：快速梯度符号法（FGSM）[14]和投影梯度下降法（PGD）[35]，后者使用8次迭代，步长为1/8灰度级。图3报告了ILSVRC-2012验证集中1000幅图像子集、原始图像以及使用这两种方法计算的加扰后的精度。

我们看到，所有模型的性能都会随着这些扰动而下降，正如预期的那样，PGD比FGSM更成功。此外，我们还发现，较大的模型往往比较小的模型更具鲁棒性，并且在较大数据集上进行预训练提高了对抗性扰动的鲁棒性。有趣的是，在仅在ILSVRC-2012上训练的模型中，Transformers模型似乎比同等大小的ResNet模型更鲁棒，使用PGD计算的扰动也更鲁棒。在使用中等数量的训练数据（在ImageNet-21k上预训练）训练的模型中，我们发现ResNet模型比其对应的Transformers模型对更简单的FGSM攻击更具鲁棒性，但对PGD攻击则相反。最后，在使用最多训练数据训练的模型中，对FGSM的鲁棒性在很大程度上与模型大小单调相关。PGD攻击再次更为成功，但在这里，一旦超过3亿个参数，模型大小的回报似乎会减少。

一个有趣的观察结果是，对于FGSM攻击，ViT模型相对于ResNet模型的相对鲁棒性似乎低于PGD。这可能是由于在所有ViT模型的开始处存在单个大型线性图块嵌入层，这导致FGSM使用的单个迭代梯度更好地对应于跨较大空间区域协调的模式。这种缺点在多次PGD迭代中消失。

我们在图5中可视化了Transformers和ResNet模型计算的样本模式（使用PGD），发现它们在质量上完全不同。对于所有模型，扰动在前景对象周围的大小最高。对于ViT，模式与图块分区边界之间有明显的对齐。相比之下，ResNet模型的模式在空间上更不连贯。

最后，我们发现对抗模式不会在ViT和ResNet架构之间迁移，即使用ViT模型计算的模式很少会降低ResNet模型的性能，反之亦然（见表2和附录e中的详细信息）。这与我们观察到的自然对抗图像形成了鲜明对比。3.3.

3.6. 对抗性空间扰动

我们现在按照Engstrom等人[10]的方法测量这些模型的空间鲁棒性，他们使用对抗性样本探索空间鲁棒性的前景。在此设置中，对抗的攻击从给定的平移和旋转范围中选择。如果图像的任何旋转和转换版本被错误分类，攻击将成功。选择这些攻击是为了特别测试这些模型在输入处理方面的差异。例如，VIT使用大型非重叠图块可能会增加其对子图块大小变化的敏感性

我们测试了ViT和ResNet模型在网格攻击下的性能（在一组离散的旋转和平移上进行网格搜索），因为发现它们比[10]中考虑的任何其他攻击都要强大得多。我们考虑9个等间距的值，用于水平和垂直平移的范围内[；−16、16]像素和31个等距值，用于范围内的旋转[−30◦ , 30◦ ]. 在[10]之后，当旋转和平移图像时，我们用零（黑色像素）填充空白区域。我们选择平移范围以跨越任何ViT模型使用的最大图块大小（32×32）。

我们在图3的右栏中展示了ILSVRC-2012验证集1000多幅图像的平均结果，并发现ViT和ResNet模型都易受空间攻击。令人惊讶的是，图块大小为16×16的ViT模型大多保持其相对于ResNet模型的位置，表明它们不再易受攻击相比之下，使用32×32的较大图块大小的ViT模型的性能比可比ResNet模型的性能下降得多。我们得出结论，具有较小图块大小的ViT模型对平移和旋转的鲁棒性似乎与可比ResNet模型相同。然而，具有较大图块大小的ViT模型倾向于更容易受到空间攻击。

3.7.纹理偏差

Geirhos等人[12]观察到（与人类不同）ImageNet训练的CNN倾向于更多地依赖纹理而不是形状来进行图像分类。他们进一步报告说，减少纹理偏差可以提高对以前看不见的图像失真的鲁棒性。我们评估ViT模型的纹理偏差，并使用[12]的冲突刺激基准将其与RESNET进行比较。此数据集是通过使用样式转换将160张白色背景对象图像和48张纹理图像组合而成，从而生成1280张不同颜色（可能冲突）的测试图像形状和纹理组合。此数据集中按形状正确分类的样本部分决定了模型的形状精度。

结果如图6所示。一个有趣的观察结果是，较大的图块大小（32×32）ViT模型的性能优于较小的图块大小（16×16）变体。这一趋势与我们看到的干净精度以及ImageNet-C ImageNet-R和ImageNet-A不同。这可能是因为较大的图块输入比较小的图块更能保持物体形状。我们还观察到，与所有其他实验不同，在JFT-300M上训练的RESNET的性能不是按模型大小排序的。

[if !supportLists]4. [endif]对模型扰动的鲁棒性

在本节中，我们将通过计算层相关性、病变研究和限制注意，介绍我们在ViT模型中理解信息流的实验。我们首先通过计算输入块的块级相关性来研究输入块在VIT中是如何演化的。

层关联

我们计算每个Transformers块表示与其余Transformers块表示之间的相关性。在图7的左图中，我们展示了2个数据集的ViT-L/16上所有块表示之间的相关性。不同模型/数据集的其他结果见附录F。我们首先注意到，从许多块到后面的层的表示似乎高度相关，表明存在大量冗余。具体来说，我们观察到这些层组织成更大的组。事实上，在RESNET中可以观察到类似的模式，其中下采样层将模型分成具有不同空间分辨率的组。令人惊讶的是，尽管缺乏这种归纳偏置，ViT模型似乎也将各层组织成不同的阶段——最显著的样本是由后面各层形成的一个非常大、高度相关的组，其中表示似乎只有轻微的变化。

回想一下，ViT模型在输入序列中附加了一个特殊的CLS标记，其表示用于进行最终分类。接下来，我们将研究CLStoken表示的相关性。孤立地观察这个token，我们看到一个不同的模式（参见图7的右侧）：CLStoken的表示仅在网络开始时缓慢变化，但在随后的层中快速变化。这表明网络的后续层仅对单个图块的表示提供有限的更新，但重点是在CLStoken中整合分类所需的信息。

病变研究

跨块的高度相关表示的存在提出了相应块是否冗余的问题。以前的工作[50,15]表明，剩余网络中的层显示出大量冗余，并且几乎任何单个层都可以在训练后移除，而不会影响性能。按照这一思路，我们在VIT上进行病变研究，在推理过程中，我们从已经训练过的网络中移除单个块，这样信息就必须通过跳连。每个块包含两个跳连，我们分别研究删除MLP、自注意力层或整个块的效果。该方法类似于[37]，但适用于整个层，包括MLP块。如图8的顶行所示，除了第一块之外，确实可以从模型中移除任何单个块，而不会实质性地降低性能。这与报告的RESNET结果一致。

接下来，我们将研究在始终保留第一个块的情况下删除多个层的效果。我们观察到，随着更多的层被移除，性能逐渐恶化（图8的底行），更大的模型对层移除更具鲁棒性。我们还注意到，训练数据的数量也会影响鲁棒性：在大型数据集上预训练的模型对层移除的鲁棒性较差，这可能表明模型利用率较高。结果进一步表明，移除单个层比移除完整块降低的精度更小，表明每个Transformers块内的组件之间存在有限的共适应。最后，我们注意到移除MLP层对模型的伤害小于移除相同数量的自注意力层，这表明了自注意力的相对重要性。这种行为似乎不同于NLP中的Transformers模型，如[37]所述，Transformers模型的行为可能与此相反。我们在自己的实验中也观察到了这种现象。我们的病变研究的其他结果见附录G。

限制注意力

最后，我们研究了ViT模型对长期注意的依赖程度。我们通过在空间上将图块之间的注意力限制在一定距离内来评估这一点。我们仅在推理过程中应用这一限制，通过在图块之间迁移基于空间距离的注意掩码。请注意，遮罩始终允许在CLStoken和所有图块之间引起注意。

图9显示，即使这些模型是在假设无限制注意的情况下训练的，但当图块间注意被限制为局部时，它们会优雅地退化。我们还将其与通过使用掩模矩阵的随机（但在实验中固定）排列实现的相同数量的随机限制注意力的基线进行比较。我们发现，在这种情况下，大多数情况下，性能下降明显更高，但大型ViT模型除外，该模型仅根据ILSVRC-2012数据进行训练。我们在图9中的最后一次评估考虑了这种情况的极端版本，当只允许在图块和CLStoken之间注意，而不允许在图块之间注意网络中Transformers块的子集时，将其仅应用于开始或结束时的块。有趣的是，我们发现，在网络末端完全消除批间注意对准确性的影响相对较小，尽管这与我们之前的观察一致，即在网络的最后几个块中，主要更新的是CLS标记。相反，在初始块中中断图块间注意会导致准确度显著降低。总之，我们发现ViT模型包含惊人数量的冗余，这表明该模型在推理过程中可能会被严重删减。

5.外卖

在本文中，我们研究了ViT模型中鲁棒性的不同方面，进行了大量的观察。其中一些证实了关于视觉神经网络的现有直觉，而另一些则可能令人惊讶。我们总结了以下分析中的关键要点：

•与[9]一致，我们发现ViT模型通常优于RESNET，并且在充分数据的基础上进行训练时，随着模型尺寸的增大，其扩展性更好。至关重要的是，上述情况同样适用于鲁棒性。我们发现，标准ILSVRC-2012验证集的相对精度可以预测各种扰动下的性能。

•我们发现FGSM攻击对ViT模型的效果优于对RESNET的效果。然而，ResNet模型并没有从根本上更加鲁棒，因为这两种模型同样容易受到使用PGD计算的扰动的影响（这比简单的FGSM更成功）。然而，这两种模型的最优摄动是非常不同的，并且不会迁移。

•我们发现ViT模型中图块大小的选择对其鲁棒性起着重要作用。较小的图块大小使ViT模型对对抗性空间变换更具鲁棒性，但也增加了其纹理偏差。

•通过相关分析，我们发现ViT模型将自己组织成与RESNET非常相似的相关组，尽管没有明确的基于下采样的组，如RESNET。该分析还表明，后面几层中的大多数更新都是针对CLStoken的表示，而不是针对单个图块的表示。此外，在以后的图层中，阻止图块之间的注意会导致精确度相对较低的下降。

•我们还发现，尽管图块能够在全局范围内进行交流，但将注意力局限于局部对准确性的影响相对较低。

•最后，我们的病变研究表明，ViT模型对去除单个层面相当鲁棒。但与对语言任务的观察相反，我们发现ViT模型比自注意力模型更能有效去除MLP层。

A.实验装置

图像预处理。

在[28,9]之后，我们直接调整图像大小，忽略纵横比，不裁剪到每个网络作为输入所期望的尺寸，将强度规格化到适当的范围。对于大多数型号，此尺寸为384×384。

对抗性干扰。

对于FGSM和PGD，我们根据正确的图像标签计算关于交叉熵损失输入像素的梯度，然后使用这些梯度的符号来更新图像。在每次更新后，我们将更新后的图像强度剪辑到有效范围内。步长和总体L∞ 将一个灰度的范数转换为每个模型的预期强度归一化。

空间对抗攻击。

我们提供了我们在Sec中使用的空间对抗网格攻击的其他详细信息。3.6. 我们用一组离散的空间变换扰动每个图像。如果任何变换的图像被相应的模型错误地分类，则认为攻击成功。对所有图像和所有模型使用相同的固定集2511（9×9×31）变换。扰动集对应于网格的顶点，网格由三个参数的采样值的外积定义：水平平移、垂直平移和旋转。样本在每个参数的范围内等距分布。Engstrom等人[10]对水平和垂直平移分别使用5个值。我们使用了一组更密集的9个值，以便以更高的分辨率探索翻译空间，以及[−16，16]像素作为平移范围，以跨越任何ViT模型使用的最大图块大小（32×32）。对于旋转，我们使用范围内的31个值遵循[10][−30◦ , 30◦ ]. 在旋转和平移图像时，我们使用双线性插值并用零（黑色像素）填充位于原始图像边界之外的区域。

限制注意力。

我们将掩模迁移到Transformers关注层，以评估限制注意的效果。在初始嵌入层之后，将图像转换成一个平直的图块序列和CLStoken。为了计算该序列的所有条目之间的成对屏蔽，我们考虑图块的空间位置，并屏蔽出其对的DI。沿x轴的站姿（在图块网格上，我们考虑的模型尺寸为384/16×384/16）− 或者− axis大于限制距离。我们的掩码始终允许在CLStoken和所有图块之间引起注意。

B.原始精度值

表3显示了与图2和图6所示结果相对应的原始精度值。

C.ImageNet-C详细结果

ImageNet-C基准测试[19]包括15种综合产生的腐败类型，分为4类：“噪音”、“模糊”、“天气”和“数字”。每种腐败类型有五个严重级别，导致75种不同的腐败。基准还包括一组具有额外腐败的“额外”腐败。图2中的结果为每种腐败的平均值ss 95不同的腐蚀（75个来自腐蚀组，20个来自“额外”组）。在本节中，我们提供了更详细的结果。

腐败集团。

在图10中，我们显示了每个损坏组的准确性：“噪音”、“模糊”、“天气”和“数字”。每个损坏组的结果在组中的所有损坏类型和所有严重级别上取平均值。

D.ImageNet-21k上的鲁棒性缩放

正如我们在第3节中指出的，预训练数据集的大小对模型的鲁棒性有着根本性的影响，尤其是对于ViT。我们比较了在图30中所有模型在ImageNet21k上训练时，在各种基准上的鲁棒性缩放。在这个较小的预训练集中，与其他模型相比，放大ViT模型并不能提供更好的增益在大多数情况下，将resnet放大为红色，ImageNet-C是一个例外。

E.对抗性干扰：自我攻击和交叉攻击的准确度

在表4和表5中，我们提供了一个完整的评估，表明使用ViT模型计算的对抗性扰动不会导致ResNet模型的错误输出，反之亦然。对于在不同数据量上训练的ViT和ResNet模型的不同变体，我们报告了使用PGD和F计算的对抗性扰动下的精度当使用用于计算扰动的模型与使用不同模型类型（ViT或ResNet）进行评估时，GSM。

变换器鲁棒性-6：Understanding Robustness of Transformers for Image Classification

你可能感兴趣的:(变换器鲁棒性-6：Understanding Robustness of Transformers for Image Classification)