变换器鲁棒性-1：Exploring Corruption Robustness: Inductive Biases in Vision Transformers and MLP-Mixers

arXiv:2106.13122[pdf,other]

ICML 2021

Exploring Corruption Robustness: Inductive Biases in Vision Transformers and MLP-Mixers

Authors:Katelyn Morrison,Benjamin Gilby,Colton Lipchak,Adam Mattioli,Adriana Kovashka

Submitted 3 July, 2021; v1 submitted 24 June, 2021; originally announced June 2021.

Comments: Under review at the Uncertainty and Robustness in Deep Learning workshop at ICML 2021. Our appendix is attached to the last page of the paper

摘要：最近，为了解决卷积神经网络中普遍存在的一些弱点，开发了基于视觉Transformers和MLP的模型。由于Transformers在这一领域的应用以及自注意机制的新颖性，目前尚不清楚这些架构在多大程度上对腐蚀具有鲁棒性。尽管有一些工作建议数据扩充对于模型抗损坏的健壮性仍然至关重要，但我们建议探索架构对损坏健壮性的影响。我们发现，vision transformer架构天生比ResNet-50和MLPMixer更能抵抗损坏。我们还发现，参数比ResNet-50少5倍的视觉Transformers具有更多的形状偏差。我们的代码可以复制。https://github.com/katelyn98/CorruptionRobustness

1.介绍

研究表明，人类倾向于根据形状而不是颜色或纹理对对象进行分类，而卷积神经网络更倾向于纹理（Ritter et al.，2017）。开发和部署可靠、准确的计算机视觉模型对于基于视觉的技术（如自动驾驶汽车或辅助技术）的成功和信任是不可或缺的。这些技术中的重大错误可能是致命的，这就是为什么理解不同模型的局限性很重要。

在过去的十年中，卷积神经网络（CNN）已成为计算机视觉任务（如图像分类）的最新技术。然而，最近的研究表明了CNN在领域泛化任务中的局限性。最近几项旨在开发和训练能够成功实现领域适应和/或领域泛化的模型的工作调查了导致模型中抗腐蚀的鲁棒性的复杂机制(the intricacies that contribute to corruption robustness in a model)（Mummadi等人，2021年；Hermann&Kornblith，2019年；Geirhos等人，2019年；Brochu，2019年；Feinman&Lake，2018年）。最近，新型架构在ImageNet和CIFAR基线上取得了优异的性能。虽然已经研究了CNN的鲁棒性，但探索这些新架构的鲁棒性至关重要，包括它们在呈现损坏图像时的性能。

贡献。在这项工作中，我们研究了具有三种不同类型架构的模型：CNN、视觉Transformers和MLPMixer。总之，我们比较和对比了20种不同的预训练模型。我们的发现揭示了各种预训练的视觉Transformers架构和MLPMixer如何做出决策（即，基于形状或纹理），以及它们如何处理腐蚀。我们的贡献包括：

• 比较最先进的vision transformer架构和MLPMixer中的腐败鲁棒性和形状偏置。

• 表明视觉Transformers比CNN和MLPMixer对常见腐蚀具有更强的鲁棒性。

2.相关作品

研究归纳偏差，如形状偏差和纹理偏差，以及这些偏差如何提高模型的鲁棒性，已在CNN中得到广泛探讨。我们将重点介绍过去几年中的一些进步和贡献，从数据增强技术到旨在提高图像分类任务的top-1和top-5精度的新型架构。

2.1. 数据扩充与训练技术

Geirhos等人（2019年）进行了一项实证研究，以了解在ImageNet上接受培训的CNN学习到的归纳偏差。在创建了几个增强的ImageNet数据集之后，他们发现CNN在对象识别任务中更偏向纹理，而人类则更偏向形状。

这些结果很快就被反驳了（Hermann&Kornblith，2019）。Hermann&Kornblith（2019）指出，CNN可以像学习纹理偏差一样容易地学习形状偏差，CNN学习到的感应偏差可能完全取决于它看到的数据，而不是架构本身。

最近的一项实证研究调查了形状偏差和抗腐蚀稳健性是否具有直接相关性（Mummadi等人，2021年）。Mummadi等人（2021年）比较了在ImageNet的不同版本上训练的CNN的准确性和鲁棒性，训练数据分别为标准图像、风格化的标准图像、标准图像边缘组合的数据(s trained on ImageNet with standard images, standard and stylized images,and a combination of edge maps of ImageNet and standard images. )。他们表明，在标准图像和边缘图像(standard images and edge maps )上训练的模型产生了最大的形状偏差。然而，在风格化的图像(standard and stylized images)上训练的模型在常见腐败方面表现最好。他们得出的结论是，风格化图像导致形状偏差增加，但腐败鲁棒性是因为风格化图像，而不是形状偏差直接增加的。(A more recent empirical study investigates if shape bias and corruption robustness have a direct correlation (Mummadi et al., 2021). Mummadi et al. (2021) compares the accuracy and corruption robustness of CNNs trained on ImageNet with standard images, standard and stylized images, and a combination of edge maps of ImageNet and standard images. They show that the model trained on standard images and edge maps resulted in having the greatest shape bias. However, the network trained on standard and stylized images performed the best on common corruptions. They concluded that the stylized images caused increased shape bias, but corruption robustness was increased by the stylized images, not the shape bias directly.)

另一种方法解释了一种基于shape-texture的debiased学习算法，该算法通过使用冲突的形状和纹理增强训练集中的图像（Li et al.，2021）。该算法仍然基于CNN，但他们的算法证明在ImageNet-C和风格化ImageNet等方面取得了改进。该算法的增强包括在原始图像上使用冲突的形状和纹理信息。

2.2. 更高精度的架构

对不同的卷积神经网络结构进行了修改和重构，以实现更高的图像分类精度。最近，Transformers已经被修改并适应视觉任务，如图像分类。我们将只介绍我们在实验中包含的视觉Transformers架构，但文献中还有其他几种视觉Transformers的变体。

一种称为视觉Transformers（ViT）的架构使用多层多头自注意和多层感知器（Dosovitskiy等人，2021年）。他们通过将图像分割成固定数量的图块并嵌入每个图块来进行图像分类。与CNN相比，该架构在许多基线上取得了优异的结果。Bhojanalli等人（2021年）研究了几种不同的ViT和ResNet模型，以了解ViT模型的稳健性。它们还展示了这两种架构在面对不同的对抗性攻击（如PGD和FGSM）时的性能。总的来说，他们的结果表明，ViT对腐蚀的鲁棒性至少与RESNET一样（Bhojanalli等人，2021年）。

ViT视觉Transformers的一种变体，称为SwinTransformers，用于计算图像块窗口的自注意，以计算图像分类等任务的预测（Liu等人，2021年）。在计算之前窗口的自注意后，图像图块的窗口将移动。这种变化会产生一个分层特征映射，它提供了更好的图像全局表示。

视觉Transformers架构的另外两种变体是数据高效图像Transformers（DeiT）（Touvron等人，2020年）和图像Transformers中的类别注意力（CaiT）（Touvron等人，2021年）。DeiT使用自定义的蒸馏过程，没有卷积层，CaiT具有类注意层。

最近的一种称为MLPMixer的架构设计用于排除卷积层和自注意层，而是通过两个基于MLP的层来混合每个位置的特征和空间信息（Tolstikhin et al.，2021）。该架构还包括预处理pipeline中的显著增强，以提高模型的准确性。

据我们所知，目前还没有关于在腐败鲁棒性或形状偏差方面有多少不同的视觉Transformers相互比较的研究发表。之前也没有研究过MLPMixer对腐败的鲁棒性。

3.方法

为了探索强大的视觉Transformers架构和MLPMixer如何防止损坏，我们进行了几个实验，包括四个预训练的CNN、十四个视觉Transformers和两个MLPMixer。

3.1. 预训练的模型

卷积神经网络。

我们选择的卷积神经网络受Geirhos等人（2019）使用的模型启发。具体而言，Geirhos等人（2019年）评估了ResNet-50（他等人，2015年）、AlexNet（Krizhevsky等人，2012年）、VGG-16（Simonyan&Zisserman，2015年）和GoogLeNet（Szegedy等人，2014年）的形状偏差。我们评估了这些模型的抗破坏鲁棒性，以作为确定视觉Transformers和MLPMixer执行情况的基线。

MLPMixer。

我们评估了MLPMixer架构的两种不同变体：基本变体(base)和大变体(large)。这些预训练的模型由timm库提供（Wightman，2019）。

视觉Transformers。

我们总共评估了四个最先进的、相互竞争的视觉Transformers。由于资源有限且易于访问，我们选择使用timm库提供的预训练模型（Wightman，2019）。特别是从Wightman（2019年）开始，我们在评估中包括了Swin-T、ViT和CaiT预训练模型。这些架构中的每一个都有多个预训练好的模型可用。我们使用了四种不同的预训练SwinTransformers、两种不同的预训练ViT模型和两种不同的预训练CaiT模型。我们直接从Facebook Research的GitHub（Touvron等人，2020年）获得预训练的DeiT模型。我们使用了六种不同的预训练的DeiT模型。

3.2. 数据集

ImageNet-C。

我们在ImageNet-C上评估了所有预训练的模型，以确定腐败鲁棒性（Hendrycks&Dieterich，2018）。ImageNet-C是一个基准数据集，用于评估模型对常见损坏的鲁棒性。此数据集由十九种不同的损坏类型组成，这些损坏类型分为五个一般损坏类别（模糊、天气、噪声、数字和额外），具有五种不同的严重性级别。该数据集是基于ILSVRC 2012验证集构建的，该验证集有1000个类，每个类有50个验证图像，总计50000个验证图像。就ImageNet-C而言，每种损坏类型（即模糊→ 运动模糊）每个严重级别有50000张图像。

纹理线索冲突。

我们使用Geirhos等人（2019）的纹理线索冲突数据集来评估我们模型的形状偏差。纹理提示冲突数据集由一个类的形状与另一个类的纹理组合的图像组成。这会导致每个图像中的形状和纹理发生冲突。包括两个标签，用于识别图像的形状和纹理的真值。该数据集包括16个类，每个类80个图像，总共1280个图像。

3.3. 评价指标

每个模型的top-1精度和top-1误差用于了解模型对不同损坏的鲁棒性。由于我们正在评估与CNN显著不同的架构，因此在计算损坏误差时，我们决定不使用AlexNet的损坏误差作为标准化因子（Hendrycks&Dieterich，2019）。相反，我们通过将严重程度2和严重程度5中该损坏的top-1错误相加得到损坏错误CE，其中f为给定模型，s为严重程度，c为损坏：

为了计算平均损坏误差mCE，我们采用针对给定模型计算的所有损坏误差的平均值。通常，mCE是通过平均所有严重级别的损坏错误来计算的，但我们选择在mCE计算中仅包括严重级别2和严重级别5的损坏错误。我们使用这两个严重性级别来表示给定模型的总体mCE的平均值。尽管我们得出的mCE不能直接与之前发表的mCE进行比较，但它仍然提供了足够的证据来得出关于我们评估的模型的结论。

我们在ILSVRC 2012验证图像（Russakovsky et al.，2015）上提供了top-1精度，因为这是用于创建ImageNet-C的数据集。该指标将帮助我们了解模型在未损坏的数据集上的表现。

每个预训练的模型也在Geirhos等人（2019）的Texture-cue冲突数据集上进行评估，以计算形状偏差。模型的形状偏差是在对图像进行分类时模型对形状的依赖程度，而纹理偏差是模型对纹理的依赖程度。Geirhos等人（2019）所述的形状偏差通过以下公式计算：

4.结果

通过在ImageNet-C的子集和纹理线索冲突数据集上评估20种不同的预训练模型，我们揭示了每种模型的稳健性和归纳偏差。请参阅我们的附录，了解我们实验的更深入结果。

4.1. 腐败稳健性

表1中，我们在ImageNet-C上评估了每一个预训练好的模型，并计算了mCE，以了解每个模型在针对常见损坏的表现。我们根据架构的类型对预训练的模型进行分组。例如，ResNet-50、AlexNet、GoogLeNet和VGG16都是CNN的类型，并在表1中进行了分组。参考表1，mCE越低越好，top-1精度越高越好。

我们观察到，当在ImageNet-C上测试时，MLPMixer模型的性能与CNN类似。我们评估的所有视觉Transformers模型的mCE明显优于MLPMixer和CNN。一个重要的观察结果是，只有500万个参数的微型DeiT视觉Transformers的mCE为60.08%，而参数约为5倍的ResNet50的mCE为65.54%。总体而言，实现最低mCE（34.63%）的模型是具有1.97亿个参数的大型SwinTransformers。该模型在未损坏的ILSVRC 2012验证集上也表现最佳，最高精度为85.92%。在所有视觉Transformers中，Swin transformer的表现最好，我们怀疑是因为它的移动窗口功能提供了图像的全局表示。

4.2. 形状偏差

我们在纹理线索冲突数据集上评估每个预训练的模型，并计算形状偏差，以了解模型在做出决策时是否偏向于形状或纹理。参考表2，形状偏差越大越好。

我们观察到MLPMixer和视觉Transformers比CNN更偏向于形状，并且许多视觉Transformers模型的性能与MLPMixer类似。值得注意的是，微型数据高效图像Transformers（DeiT tiny）架构的参数大约是ResNet-50的五倍，实现了29.37%的形状偏差，而ResNet50的形状偏差为26.17%。性能最好的视觉Transformers是大型ViT模型，形状偏差为55.35%，参数为3.04亿。

表1和表2强调了形状偏差和平均误差之间的一般反比关系。由于模型对常见的损坏（较小的mCE）更具鲁棒性，其形状偏差增加。我们没有观察到形状偏差或mCE与参数数量之间的任何关系。

5.结论和今后的工作

我们将几种最先进的视觉Transformers与CNN和MLPMixer进行比较，以更好地了解这些不同的架构如何处理损坏，以及它们在分类图像时是否更依赖于形状或纹理。如附录中的图表所示，我们通常会观察到，当模型对形状有强烈偏差时，它对常见的损坏（如ImageNet-C中的损坏）更为稳健。这一结论与Geirhos等人（2019）的结论一致。

未来的方向包括合并ImageNet-C的其余严重性级别，以计算每个模型的最终平均损坏误差。研究不同的数据集，如ImageNet-A（Hendrycks等人，2021年）、ImageNet-P（Hendrycks&Dieterich，2019年）和ImageNet-R（Hendrycks等人，2020年），以缩小这些架构的哪些特定组件对所有腐蚀和扰动都具有鲁棒性，这也是有益的

作者提供了这个链接，有更详细的实验数据：https://www.notion.so/Experiment-Results-30ffa0fbea9f4738ae9e0be45a0b80be

编者注：在2.1节相关工作介绍中似乎有因笔误而自相矛盾的地方，相关文献是：

Mummadi, C. K., Subramaniam, R., Hutmacher, R., Vitay, J., Fischer, V., and Metzen, J. H. Does enhanced shape bias improve neural network robustness to common corruptions? In International Conference on Learning Representations, 2021. URL https://openreview.net/forum?id=yUxUNaj2Sl.

增强的形状偏差是否提高了神经网络对常见腐蚀的鲁棒性？

Chaithanya Kumar Mummadi、Ranjitha Subramaniam、Robin Hutmacher、Julien Vitay、Volker Fischer、Jan Hendrik Metzen

关键词：神经网络鲁棒性、形状偏差、腐蚀、分布偏移

摘要：卷积神经网络（CNN）学习提取复杂特征的表示，如对象形状和纹理，以解决图像识别任务。最近的研究表明，在ImageNet上训练的CNN偏向于对纹理进行编码的特征，仅这些特征就足以概括为来自与训练数据相同分布的未知测试数据，但通常无法概括为分布外的数据。研究表明，增加具有不同图像样式的训练数据可以减少这种纹理偏差，有利于增加形状偏差，同时提高对常见损坏（如噪声和模糊）的鲁棒性。通常，这被解释为形状偏差增加了损坏鲁棒性。然而，这种关系只是假设的。我们对基于自然图像、显式边缘信息和样式化的不同输入方式进行了系统研究。虽然样式化对于实现高鲁棒性至关重要，但我们没有发现形状偏差和鲁棒性之间的明确相关性。我们的结论是，风格变化导致的数据增加说明了改进的腐败稳健性和增加的形状偏差只是一个副产品。

一句话总结：我们表明，对常见腐蚀的鲁棒性与强烈的形状偏差无关，但与有效的数据扩充策略（如样式化）相关

编者注：本文作者回归了先前的3个工作：

1. Geirhos等人（2019年）CNN在对象识别任务中更偏向纹理，而人类则更偏向形状。

2. Hermann&Kornblith（2019），CNN可以像学习纹理偏差一样容易地学习形状偏差，CNN学习到的感应偏差可能完全取决于它看到的数据，而不是架构本身。

3. Mummadi等人，（2021年），常见腐蚀的鲁棒性与强烈的形状偏差无关，但与有效的数据扩充策略（如样式化）相关

作者在结论中称与Geirhos等人（2019）的结论一致。

变换器鲁棒性-1：Exploring Corruption Robustness: Inductive Biases in Vision Transformers and MLP-Mixers

你可能感兴趣的:(变换器鲁棒性-1：Exploring Corruption Robustness: Inductive Biases in Vision Transformers and MLP-Mixers)