变换器鲁棒性-3:Adversarial Robustness Comparison of Vision Transformer and MLP-Mixer to...

Adversarial Robustness Comparison of Vision Transformer and MLP-Mixer to CNNs

https://arxiv.org/pdf/2110.02797v2.pdf

arXiv:2110.02797[pdf,other]

Adversarial Robustness Comparison of Vision Transformer and MLP-Mixer to CNNs    

★★★★★

Authors:Philipp Benz,Soomin Ham,Chaoning Zhang,Adil Karjauv,In So Kweon

Abstract: Convolutional Neural Networks (CNNs) have become the de facto gold standard in computer vision applications in the past years. Recently, however, new model architectures have been proposed challenging the status quo. The Vision Transformer (ViT) relies solely on attention modules, while the MLP-Mixer architecture substitutes the self-attention modules with Multi-Layer Perceptrons (MLPs). Despite their great success, CNNs have been widely known to be vulnerable to adversarial attacks, causing serious concerns for security-sensitive applications. Thus, it is critical for the community to know whether the newly proposed ViT and MLP-Mixer are also vulnerable to adversarial attacks. To this end, we empirically evaluate their adversarial robustness under several adversarial attack setups and benchmark them against the widely used CNNs. Overall, we find that the two architectures, especially ViT, are more robust than their CNN models. Using a toy example, we also provide empirical evidence that the lower adversarial robustness of CNNs can be partially attributed to their shift-invariant property. Our frequency analysis suggests that the most robust ViT architectures tend to rely more on low-frequency features compared with CNNs. Additionally, we have an intriguing finding that MLP-Mixer is extremely vulnerable to universal adversarial perturbations.△ Less

Submitted 11 October, 2021; v1 submitted 6 October, 2021; originally announced October 2021.

Comments: Code: https://github.com/phibenz/robustness_comparison_vit_mlp-mixer_cnn

在过去的几年里,卷积神经网络(CNN)已经成为计算机视觉应用中事实上的黄金标准。然而,最近有人提出了挑战现状的新模型架构。视觉Transformers(ViT)仅依赖于注意模块,而MLPMixer架构用多层感知器(MLP)替代自注意模块。尽管CNN取得了巨大的成功,但众所周知,CNN容易受到对抗攻击,这给安全敏感应用程序带来了严重的问题。因此,社区必须了解新提议的ViT和MLPMixer是否也容易受到对抗攻击。为此,我们以经验评估了它们在几种对抗攻击设置下的对抗鲁棒性,并针对广泛使用的CNN对其进行了基准测试。总的来说,我们发现这两种架构,尤其是ViT,比它们的CNN模型更鲁棒。通过一个玩具样本,我们还提供了经验证据,证明CNN较低的对抗鲁棒性部分归因于其平移不变特性。我们的频率分析表明,与CNN相比,最鲁棒的ViT架构更倾向于依赖低频特性。此外,我们有一个有趣的发现,MLPMixer极易受到普遍的对抗干扰。

1导言

卷积神经网络(CNN)[37]已经成为计算机视觉的金标准架构。然而,在自然语言处理(NLP)中,基于注意的Transformers是主要的go-to-model架构[13,55,56]。已经做出各种尝试,将这种Transformers架构应用于计算机视觉任务[8、10、53、58]。随着Vision Transformerser(ViT)[15]的出现,取得了突破性的进展,提出了一种Transformers架构,其性能可与最先进的CNN架构媲美。最近,提出了另一种MLPMixer模型结构[66],它不依赖卷积或自注意力,与CNN和ViT竞争。在[66]之后,为了简单起见,MLPMixer在本工作的其余部分被称为Mixer。

尽管CNN取得了成功,但众所周知,CNN容易受到对抗样本[18,65]的攻击,这些样本的输入的微小加性扰动会导致CNN对样本进行错误分类。此漏洞在安全敏感的应用程序中引起严重关注,因此了解最近提出的ViT和Mixer是否也容易受到对抗攻击也很重要。这项工作旨在评估ViT和Mixer架构的对抗性漏洞,并比较它们与CNN模型的鲁棒性。因此,广泛采用了各种对抗性攻击方法进行全面研究。具体而言,首先,在白盒攻击下比较不同架构的性能,对抗完全了解要攻击的模型参数。总的来说,两种新提出的架构,尤其是ViT,在对抗性样本中表现出比CNN更高的鲁棒性。我们进一步比较了它们在基于查询和基于迁移的黑盒攻击下的鲁棒性。在这两种情况下,我们观察到一个相似的趋势,即在三种探索的架构中,ViT是最鲁棒的架构,而CNN是最不鲁棒的架构。

为了便于理解为什么CNN更容易受到攻击,我们设计了一个二进制分类的玩具任务,其中每个类仅由一个图像表示。每个类的图像的中心都有一条垂直或水平的黑色条纹。我们发现,CNN的对抗性样本在图像上显示重复条纹,而FC网络的对抗性样本主要在中心显示单一条纹。这一观察结果表明,CNN的脆弱性可能部分归因于这样一个事实,即CNN通过卷积内核利用局部连接和共享权重,具有平移不变性[38,83]。我们还试图从频率的角度进行分析,调查不同的模型架构是否倾向于学习更多的高频或低频特征。我们发现ViT似乎学习了更多的低频特征,而CNN偏向于高频特征。最后,我们还研究了它们对常见腐蚀[26]和普遍对抗干扰[47]的鲁棒性。

2相关工作

超越CNN的视觉应用。

在自然语言处理(NLP)中,完全基于注意机制的Transformers[70]是主要的模型架构[13,55,56]。相比之下,CNN已经成为视觉应用深度学习的事实标准,而将Transformers应用于视觉任务是一种新兴趋势[8,10,53,58]。最近引入了Vision Transformers(ViT)[15],通过将图像排序为图块并在大量数据上预训练模型,证明了Vision Transformers可以实现最先进的性能。为了解决数据问题,DeiT[67]引入了一种针对Transformers的师生策略,并仅在ImageNet-1K数据集上训练Transformers架构。同时,提出了T2T ViT[78],引入了一种高级token对token策略。进一步的工作正试图扩展ViT架构,以提高Transformers架构的效率和性能[11、22、41、74]。VIT已经在图像分类任务之外得到了进一步的探索[7,25,34,51,71]。Tolstikhin等人[66]挑战了当前计算机视觉模型中卷积和注意力的现状,并提出了MLPMixer,这是一种纯粹的基于多层感知器(MLP)的架构,用于分离每位置操作和交叉位置。

对抗性攻击和鲁棒性。

众所周知,CNN容易受到对抗性样本的攻击[18,36,65],这促使人们对各种类型的对抗性攻击下的模型鲁棒性进行了大量研究。根据目标模型的可访问性,对抗性攻击可分为需要完全访问目标模型的白盒攻击[6,18,42,46],基于查询的黑盒攻击[9,19,30,31,52,57,62,69],以及基于迁移的黑盒攻击[14,21,33,40,68,73,75]。对抗性攻击可分为依赖图像的攻击[6,18,42,46,60]和通用攻击[3,47,48,79,80,82]。具体而言,与图像相关攻击相反,存在一个单一的扰动,即通用对抗扰动(UAP),以愚弄大多数图像的模型[82]。基于上述各种攻击方法,本文实证研究并比较了ViT和Mixer架构与CNN模型的对抗鲁棒性。还调查了NLP任务中Transformers的脆弱性[16、23、27、29、35、39、63]。然而,我们的工作主要集中在图像分类中CNN、ViT和Mixer三种结构的经验鲁棒性评估上。

类似主题的并行工作。最近,有一系列工作[2,4,20,44,45,49,50,54,61,72]从对抗性鲁棒性的角度对Transformers进行了研究。具体而言,[2,4,44,49,54,61]同时比较Transformers与CNN的鲁棒性,并独立得出彼此相似的结论。忽略细微差别,他们的主要结论可以概括为视觉Transformers比CNN更鲁棒。毫不奇怪,我们的工作也得到了相同的主要接收方式信息,但在多个方面有所不同,例如MLPMixer的联合分析、扰动最小化(C&W和DeepFool)导致白盒设置、普遍攻击下的评估。我们的工作还带来了一些额外的见解,例如MLP Mixer显示出对通用攻击的脆弱性增加。在另一条平行线上,[45,50]研究了如何提高视觉Transformers的对抗鲁棒性。未来版本将进一步讨论上述并行工作之间的详细差异。

3研究目标和实验装置

研究目标和范围。

在过去几年中,CNN在许多vision应用中取得了巨大成功,但是,它们也容易受到对抗攻击。这种漏洞在安全敏感的应用程序(如自动驾驶)中引起严重关注。这种关注促使人们广泛研究模型对各种攻击方法的鲁棒性。随着近年来ViT和Mixer作为CNN替代品的流行,社区了解其对抗鲁棒性并将其与广泛使用的CNN进行对比是至关重要的。为此,本文实证研究了这三种架构的对抗性鲁棒性。换句话说,这项工作无意理解为什么某个架构或多或少鲁棒。请注意,尽管在这一领域有大量工作,但对于CNN对对抗性样本敏感的解释仍然没有达成共识[1]。作为研究ViT和Mixer对抗性鲁棒性的早期尝试,我们的工作集中在实证评估上,从理论上理解其易受攻击的原因超出了本工作的范围。尽管如此,我们的工作试图从方差角度和频率角度更好地理解模型之间的鲁棒性差距。诚然,我们对解释的尝试是有限的,为了更好地理解,还需要进一步的工作。

模型和数据集。

在我们的实验中,我们主要比较了ViT[15]模型、MLPMixer[66]和CNN架构[24]。请注意,它们在架构设计中都采用了跳连[24]。对于VIT模型,我们考虑VIT-B/16和VIT-L/16,其中B和L分别代表“基”和“大”,而16表示图块大小。所考虑的VIT模型在IMANETET-21K上预训练并在IMANETET-1K(12)上进行微调。我们还评估了从[4]中直接对IMANETET-1K进行训练的VIT模型(由对应于VIT模型,我们还研究了在IMANETET-1K上训练的MixerB/16和MixerL/16/66。我们进一步考虑在IMANETET-1K上训练的CNN架构、RESNET-18和RESNET-50(24)以及半弱监督(SWSL)变型[76 ],这是在IG-1B目标(43)上预训练的。使用1000个ImageNet-1K类的相关哈希标记,然后在ImageNet-1K上进行微调。为了评估对抗性攻击,如果没有另外提及,我们在ImageNet兼容数据集上评估非目标设置中的不同对抗性攻击。该数据集最初在NeurIPS 2017对抗性挑战者1中引入。我们MPA对于相应的最广泛使用的模型有不同的架构,例如CNN的ResNet-18/50,B/16和-L/16的ViT和Mixer。但是,我们也注意到,除了架构本身之外,许多其他因素也可能影响鲁棒性。考虑到公开可用的模型,几乎不可能规定所有其他因素。

4实验结果

4.1抗白盒攻击的鲁棒性

首先研究了白盒攻击下的鲁棒性,特别是部署了PGD〔42〕和FGSM〔18〕,对于这两种攻击,我们考虑ε={D/255×D。∈ 对于[0,1]范围内的图像,{0.1,0.3,0.5,1,3}}。对于PGD攻击,我们将迭代次数设置为20,并将其他参数保留为傻瓜箱[59]的默认设置。对于这两种攻击,我们报告攻击成功率(ASR),即与地面真相分类不同的样本百分比。此外,我们评估了C&W攻击[6]和DeepFool[46]的“2-变体”模型。这两种攻击的目标是在ASR为100%的情况下最小化扰动幅度。因此,我们报告了对抗性扰动的“2-范数”,结果见表1。总体上可以观察到一种趋势,即与CNN架构相比,ViT和Mixer模型的攻击成功率较低,表明它们比CNN架构更鲁棒。对于C&W和DeepFool攻击,ViT和Mixer模型的鲁棒性得到了更高的`2范数的进一步支持。但是,当扰动幅度非常小时,可以观察到相反的现象。例如,对于ε=0.1的PGD或FGSM,Mixer和ViT模型C与CNN模型相比,其鲁棒性有所下降。

类别鲁棒性。

为了提供更详细的鲁棒性评估,我们进行了一个类别鲁棒性研究。我们在ImageNet验证数据集上执行类别鲁棒性研究,其中每个类有50个验证图像,并使用`∞-PGD攻击(ε=0.3)。图1(左)显示了ViT-L/16从最坚固的类别到最不坚固的类别的每50个类别,其中类别“屏幕”显示不坚固,而类别“黄色女士拖鞋”显示100%的鲁棒性。这表明不同类别之间的类别鲁棒性不平衡。我们进一步计算不同模型之间的类别精度的相似性。我们将不同的类别精度视为向量,并计算不同模式的类别精度之间的余弦相似性图1中的ls(中间),可以观察到ViT和Mixer模型显示出相对较高的相似性值,但ResNet18和ResNet50在类别鲁棒性精度方面相似。最后,我们通过计算一个模型的多少类比另一个模型的鲁棒性更高来检验模型的相对类别鲁棒性。这些结果如图1(右)所示。在此可以观察到,ViT和Mixer模型比CNN具有更高的分类精度,始终超过945个分类比检查的CNN更鲁棒。

4.2抗黑盒攻击的鲁棒性

我们评估并比较了基于查询的黑盒攻击和基于迁移的黑盒攻击两种设置中不同模型架构对黑盒攻击的鲁棒性。

基于查询的黑盒攻击。

基于查询的黑盒攻击通过模型评估一系列受干扰的图像来工作。我们采用了一种流行的基于决策的攻击,即边界攻击[5],它只需要模型的最终决策(即类标签)和白盒攻击一样,在黑盒攻击中可以观察到一种趋势,即ViT和Mixer模型更为鲁棒,对抗性干扰的“2-范数”相对较高(见表2)。我们使用最近提出的降低查询成本的方法[31]进一步测试和比较模型。为了在更少的查询中获得更高的成功率,bandit ST D使用bandit算法集成有关梯度的先验信息(即时间和数据),以减少查询数。遵循[31]中的设置,扰动的最大“2-范数”设置为5,其他的也设置为默认值。如表3所示,总体而言,我们观察到ViT和Mixer需要更大的平均查询数,平均ASR更低,这表明ViT和Mixer比CNN对应项更鲁棒。

基于迁移的黑盒攻击。

基于迁移的黑盒攻击利用对抗样本的可迁移特性,即源模型生成的对抗样本迁移到另一个看不见的目标模型。对于源模型,我们部署了IFGSM[36]通过7个步骤进行攻击,并评估目标模型的可迁移性。从表4中的结果来看,我们有两个主要观察结果。第一,来自同一家族(或类似结构)的对抗性样本表现出更高的可迁移性,这表明来自同一系列的模型学习到了类似的功能。其次,当使用不同的模型架构作为源模型时,CNN也有相对更脆弱的趋势(即,向外国架构的迁移较差)例如,从CNN到ViT的可迁移性通常低于20%,而相反的情况则更高

4.3玩具样本

图2:我们的二元分类玩具样本的图像。与传统CNN相比,ViT和Mixer对对抗性攻击更具鲁棒性。换句话说,CNN在大多数设置中往往是最不鲁棒的。为了便于理解机制,我们设计了一个二元分类玩具样本,其中每个类别由单个ima表示ge,尺寸为224。两幅图像由灰色背景上的一条黑色条纹组成,条纹方向不同,即垂直条纹和水平条纹。用于训练的两幅图像如图2所示。

然后,我们在图像上训练一个全连接网络(FC)、一个卷积神经网络(CNN)和一个视觉Transformers(ViT)。请注意,由于任务的简单性,我们将网络设计为相对较小的容量(<5M),并限制网络具有大约相同数量的参数。我们使用常用的'2攻击C&W[6]和DDN[60]评估了这些模型的对抗鲁棒性。我们在表5中报告了对抗性扰动的“2-范数”。可以观察到,在这个玩具样本设置中,CNN的鲁棒性也不如FC和ViT。

从平移不变性的角度进行解释。

最近,[17]表明CNN的平移不变性特性可能是其易受对抗攻击的原因之一。他们的结论是通过定量分析和理论证明得出的,而我们的重点是提供直观的定性分析,观察到平移不变性e属性导致具有重复模式的对抗性样本。攻击产生的对抗性干扰的定性结果如图3所示。对于ViT,可以观察到一种现象,即对抗性扰动由方形斑块组成。这可能是因为在ViT架构中将输入图像划分为多个图块。在图像上没有这种分割过程,我们观察到清晰的条纹,但CNN和FC的模式不同。当CNN模型产生重复条纹的扰动时,FC模型只产生以图像为中心的单一条纹的扰动。应该注意的是,扰动是朝着对抗产生的,即朝着对方的方向。CNN模型在图像上产生条纹的现象可以归因于CNN模型的平移不变性。从平移不变性的角度来看,CNN模型识别特征,即该设置中的水平或垂直条纹,而不考虑特征在图像上的位置。因此,在某种程度上可以预期,扰动在整个图像上具有不同方向的条纹。对于不具有平移不变性的FC模型,它只识别中心的条纹;因此,产生的扰动主要是中心的条纹。由于我们的玩具样本仅包含两个样本,因此ASR对于模型的鲁棒性的信息价值有限。然而,定性结果仍然可以观察到。对于'2-PGD攻击,我们选择一个足够高的ε40,这样两个样本都被错误分类。图3(下图)中PGD攻击的定性结果与C&W攻击的定性结果相似。这些定性结果提供了一个有趣的洞察移位不变属性和CNN漏洞之间可能存在的联系。诚然,这种联系是模糊的,今后需要开展工作,在它们之间建立更具体的联系。

4.4频率分析

我们进一步试图从频率角度解释CNN的鲁棒性较低[77,81]。在[77,81]之后,我们部署了一个低通滤波器来滤除高频,并部署了一个高通滤波器来滤除输入图像中的低频,然后再将其输入模型。然后,我们通过应用低通或高通滤波来评估NeurIPS数据集中图像的Top-1精度,结果如图4所示。对于低通滤波,可以观察到CNN结构比ViT和Mixer的下降幅度更大,这表明与其他模型相比,CNN结构更依赖于高频特性。例如,当使用大带宽进行滤波时,ResNet-50(SWSL)比ViT-L/16具有更高的精度;然而,随着带宽的减小,ViT-L/16的精度将高于ResNet。此外,在60到180的低通带宽下,Mixer比VIT的下降幅度更大。对于高通滤波,ViT模型的下降幅度最大,表明ViT模型更依赖于低频特征,而CNN相对更偏向于低频特征。请注意,非鲁棒特征往往具有高频特性[32、77、81],并解释了模型鲁棒度降低的原因。这说明了为什么ViT模型比CNN架构从频率角度更鲁棒。通过比较低通和高通滤波的结果,我们观察到,无论其精度的绝对值如何,Mixer显示出与CNN而不是VIT类似的趋势。

5其他调查

5.1对常见腐蚀的鲁棒性

除了我们对ViT、Mixer和CNN模型的对抗性脆弱性的调查外,我们还检查了这些模型对常见(即自然发生的)腐蚀的鲁棒性[26]。ImageNet-C是由[26]基准测试神经网络对这些常见损坏的鲁棒性而提出的。本质上,ImageNet-C是原始ImageNet验证数据集的扰动版本,该数据集有1000个类,每个类有50个图像。具体地说,ImageNet-C有15个测试损坏,每种损坏类型有5种不同的严重性,还有4种保持损坏。

在[28]之后,我们对15个测试腐蚀进行了评估,结果如表6所示。首先,有一个明显的趋势,即在原始(干净)ImageNet上具有更高精度的模型在ImageNet-C上也具有更高的精度,这在某种程度上是意料之中的。第二,在原始(干净的)ImageNet、ViT和Mixer架构上具有相当的精度,因此对损坏具有更高的鲁棒性。例如,ViT-B/16具有与RN50(SWSL)相似的精度,即81.43%对81.18%,但ViT-B/16的鲁棒性明显高于RN50(SWSL),即58.85%对52.03%。对于MixerB/16和RN50,可以观察到类似的现象。图5显示了更详细的腐败分析结果。我们发现,在一些腐蚀情况下,例如缩放模糊和雪花,ViT的优势比其他腐蚀情况(例如高斯噪声)更为显著。

5.2对普遍对抗性扰动的鲁棒性

我们进一步比较了不同模型结构对普遍对抗性扰动(UAP)的鲁棒性。文献[47]中已经提出了UAP,但是,他们的算法相对来说效率较低,但速度较慢。在这项工作中,我们采用了[80]中最先进的UAP算法。在[47,80]之后,我们将图像大小设置为224,并使用`∞-ε的范数=10/255。白框和相应的可迁移性结果如表7所示。可以进行几项观察。首先,MLPMixer模型在白盒和黑盒场景中都非常容易受到UAP的攻击。特别是在黑盒场景中,无论代理模型架构如何,攻击成功率始终高于95%。相反,ViT模型和CNN模型对UAP更具鲁棒性,尤其是在黑盒场景中。其次,对比ViT和CNN模型,所有模型的ASR都在90%左右,没有明显的鲁棒性差距。然而,在更具挑战性的黑盒场景中,ViT模型明显比CNN模型更鲁棒。这一趋势与我们之前的发现一致,即ViT模型比CNN模型更为鲁棒。我们在图6中可视化了结果UAP的放大版本。值得注意的是,对于ViT和Mixer架构,可以观察到一个tile模式,这是由将图像划分为作为标记的图块的操作引起的。另一个有趣的观察结果是,Mixer的UAP比ViT和CNN上产生的UAP更不平滑。对UAP具有最高鲁棒性的ViT-L/16似乎也具有最局部平滑的模式。总的来说,有趣的是,Mixer极易受到UAP的影响,定性结果表明它们具有局部非光滑模式。然而,我们对观察到的现象没有明确的解释,因为Mixer仍然是一种非常新的架构。向社区传达的一个重要信息是,Mixer面临的对抗威胁不容忽视,因为在实际的可迁移通用攻击场景中,Mixer容易受到攻击。

6结论

我们的工作对ViT和MLPMixer与广泛使用的CNN在图像分类方面的对抗性鲁棒性进行了实证研究。我们的结果表明,在广泛的白盒攻击中,ViT明显比CNN更鲁棒。在基于查询和基于迁移的黑盒攻击中也观察到类似的趋势。我们的玩具任务是在图像中心用垂直或水平的黑色条纹对两幅简单图像进行分类,这提供了有关平移不变特性和CNN漏洞之间可能存在联系的有趣见解,未来的工作对于进一步研究这一联系是必要的。我们从特征角度的分析进一步表明,VIT更依赖于低频(鲁棒)特征,而CNN对高频特征更敏感。我们还研究了新提出的MLPMixer的鲁棒性,发现其鲁棒性一般位于VIT和CNN的中间。我们还对常见的腐败和UAP的鲁棒性进行了额外的研究。一个非常有趣的发现是,Mixer极易受到UAP攻击,即使是在基于迁移的黑盒攻击中。未来的工作需要更好地理解报告的实证结果。

你可能感兴趣的:(变换器鲁棒性-3:Adversarial Robustness Comparison of Vision Transformer and MLP-Mixer to...)