FAN:理解视觉Transformer的鲁棒性(ICML2022)

Understanding The Robustness in Vision Transformers

ICML2022

2022.4.27

作者:Daquan Zhou, Zhiding Yu, Enze Xie, Chaowei Xiao, Anima Anandkumar, Jiashi Feng, Jose M. Alvarez

原文:https://arxiv.org/abs/2204.12451

开源:https://github.com/NVlabs/FAN

摘要:最近的研究表明,视觉Transformer(VIT)对各种腐蚀具有很强的鲁棒性。虽然这一特性部分归因于自注意机制,但仍缺乏系统的理解。在本文中,我们研究了自注意在学习鲁棒表征中的作用。我们的研究受到视觉Transformer中新兴视觉分组的有趣特性的推动,这表明自注意可以通过改进中级表征来提高鲁棒性。我们进一步提出了一系列全注意网络(FANs),通过整合注意通道处理设计来加强这一能力。我们在各种层次主干上全面验证了设计。我们的模型在ImageNet-1k和ImageNet-C上达到了最先进的87.1%的精度和35.8%的mCE,参数为76.8M。我们还展示了在两个下游任务中最先进的准确性和鲁棒性:语义分割和对象检测。

1.导言

视觉识别的最新进展以视觉Transformer(VIT)的兴起为标志(Dosovitskiy等人,2020年),作为最先进的模型。与使用“滑动窗口”策略处理视觉输入的ConvNet(LeCun等人,1989年;Krizhevsky等人,2012年)不同,最初的VIT的设计模仿了自然语言处理中的Transformer——输入图像首先被划分为一系列patch(标记),然后是自注意(SA)(Vaswani et al.,2017)层,以聚合标记并生成其表示。自推出以来,ViTs在许多视觉识别任务中取得了良好的性能。

与ConvNets不同,ViTs结合了使用自注意的非局部关系建模,在几个方面使其具有优势。一个重要的问题是对各种腐蚀的鲁棒性。与干净图像上的标准识别任务不同,一些研究表明,ViTs在腐蚀鲁棒性方面始终优于ConvNets(Bai等人,2021;Xie等人,2021;Zhu等人,2021;Paul&Chen,2022;Naseer等人,2021)。ViTs中的强鲁棒性部分归因于其自注意设计,但这一假设最近受到新兴研究ConvNeXt的挑战(Liu等人,2022年),其中由标准ConvNet模块构建的无自注意的网络在泛化和鲁棒性方面与ViTs竞争。这就提出了一个有趣的问题,即自注意在鲁棒泛化中的实际作用。

我们的方法:在本文中,我们的目标是找到上述问题的答案。我们的旅程始于一个有趣的观察,即在图像分类过程中,ViTs中自然会出现有意义的对象分割(Caron等人,2021)。这促使我们想知道,自注意是否通过视觉分组(visual grouping)促进了中级表征的改善(从而增强了鲁棒性)——这一假设与早期计算机视觉的奥德赛(U.C.Berkeley)相呼应。作为进一步检查,我们使用谱聚类( spectral clustering)分析(Ng et al.,2002)每个ViT层的输出标记,其中亲和矩阵的显著特征值对应于主要的聚类成分。我们的研究表明,显著特征值的数量与输入损坏引起的扰动之间存在有趣的相关性:在中层,这两个特征值都显著减少,这表明在这些层上,分组和鲁棒性是共生的。

As a further examination, we analyze the output tokens from each ViT layer using spectral clustering (Ng et al.,2002), where the significant 注释1 eigenvalues of the affinity matrix correspond to the main cluster components. Our study shows an interesting correlation between the number of significant eigenvalues and the perturbation from input corruptions: both of them decrease significantly over mid-level layers, which indicates the symbiosis of grouping and robustness over these layers.

注释1:eigenvalues are larger than a predefined threshold.

为了理解分组现象的根本原因,我们从信息瓶颈(IB)的角度解释SA(Tishby等人,2000;Tishby&Zaslavsky,2015),这是一种压缩过程,通过最小化潜在特征表示和目标类别标签之间的互信息,“挤出”不重要的信息,同时最大化潜在特征和输入原始数据之间的互信息。我们表明,在温和的假设下,自注意可以被写为IB目标的迭代优化步骤。这在一定程度上解释了新出现的分组现象,因为已知IB促进集群代码(此处引用)。

To understand the underlying reason for the grouping phenomenon, we interpret SA from the perspective of information bottleneck (IB) (Tishby et al., 2000; Tishby & Zaslavsky, 2015), a compression process that “squeezes out” unimportant information by minimizing the mutual information between the latent feature representation and the target class labels, while maximizing mutual information between the latent features and the input raw data. We show that under mild assumptions, self-attention can be written as an iterative optimization step of the IB objective. This partly explains the emerging grouping phenomenon since IB isknown to promote clustered codes (Cite here).

如图2(a)所示,以前的视觉Transformer通常采用多头注意设计,然后使用MLP块来聚合来自多个单独头部的信息。由于不同的注意头倾向于注意对象的不同组成部分,因此多头注意力设计本质上形成了混合的信息瓶颈。因此,如何聚合来自不同注意头的信息至关重要。我们的目标是提出一种聚合设计,以加强分组和健壮性的共生关系。如图2(b)所示,我们提出了一种新的注意通道处理设计,它通过重新加权来促进通道选择。与MLP块中的静态卷积操作不同,注意设计是动态的,并且依赖于内容,导致更具组合性和鲁棒性的表征。提出的模块产生了一个新的Transformer主干系列,在其设计之后创造了完全注意网络(FANs)。

As shown in Fig.2 (a), previous Vision Transformers often adopt a multi-head attention design, followed by an MLP block to aggregate the information from multiple separate heads. Since different heads tend to focus on different components of objects, the multi-head attention design essentially forms a mixture of information bottlenecks. As a result, how to aggregate the information from different heads matters. We aim to come up with an aggregation design that strengthens the symbiosis of grouping and robustness. As shown in Fig.2 (b), we propose a novel attentional channel processing design which promotes channel selection through reweighting. Unlike the static convolution operations in the MLP block, the attentional design is dynamic and content-dependent, leading to more compositional and robust representations. The proposed module results in a new family of Transformer backbone, coined Fully Attentional Networks (FANs) after their designs.

我们的贡献可以总结如下:

•    这项工作不是专注于实证研究,而是提供了一个解释性框架,将视觉Transformer中的分组、信息瓶颈和鲁棒泛化三位一体统一起来。

•    提议的全注意力设计既高效又有效,在边际额外成本的情况下系统地提高了鲁棒性。和ConvNeXt等最先进的体系结构相比,我们的模型在干净和鲁棒的图像分类精度方面都表现出了良好的性能。例如,我们的模型在ImageNet-C上以28M参数实现47.7%的mCE,在可比模型尺寸下,比ResNet-50、Swin-T和最近的SOTA ConvNeXt-T分别好29.0%、11.9%和5.5%。通过将参数量扩大到76.8M,FAN可以达到35.8%的mCE,达到所有监督训练模型的最先进水平。

•    我们还在语义分割和对象检测方面进行了广泛的实验。我们表明,我们提出的设计在鲁棒性方面的显著增益可迁移到这些下游任务。

我们的研究表明,注意表征(attention representations)在鲁棒泛化中具有非同寻常的优势,这与最近观察ViTs中有趣的鲁棒性的研究方向一致。我们希望我们的观察和讨论能够更好地理解ViTs中的表征学习,并鼓励社区超越干净图像的标准识别任务。

2    全注意网络

在本节中,我们将研究ViTs中的一些新特性,并从信息瓶颈的角度解释这些特性。然后,我们提出了建议的全注意网络(FANs)。

2.1. 视觉Transformer入门

标准ViT首先将输入图像均匀地划分为个patch,并将每个patch编码为一个标记嵌入、 然后,所有这些token都被馈送到Transformer块堆栈中。每个transformer块利用自注意进行标记混合,利用MLP进行通道特性转换。图2左侧显示了Transformer模块的结构

Token mixing。    视觉Transformer利用自注意来聚合全局信息。假设输入标记嵌入张量为,SA使用参数的线性变换将它们嵌入键,查询,值。SA模块然后计算注意力矩阵,并按如下方式聚合token特征:

    (1)

其中是一个线性变换,是聚合的token特征,是尺度因子。然后将SA的输出归一化并馈入MLP,以生成下一个块的输入。

通道处理。    大多数VIT采用MLP块将输入标记转换为特征:

    (2)

该块包含两个线性层和一个GeLU层。

2.2. 自注意的有趣特性

我们首先观察到,有意义的簇出现在ViT的标记特征上。我们使用光谱聚类(Ng等人,2002年)来研究这种现象,其中标记亲和矩阵定义为。由于主要簇的数量可以通过S的重要特征值的多重性(Zelnik Manor&Perona,2004)来估计,因此我们绘制了不同ViT-S块的(in)重要特征值的数量(图3(a))。我们观察到,通过馈送高斯噪声,由此产生的扰动(通过归一化特征范数测量)随着显著特征值的数量迅速减少。这样的观察结果表明,在中间块上,分组和改进的鲁棒性是共生的。

We begin with the observation that meaningful clusters emerge on ViT's token features $\mathbf{z}$. We examine such phenomenon using spectral clustering~\cite{ng2002spectral}, where the token affinity matrix is defined as $S_{ij} = \mathbf{z}_i^\top \mathbf{z}_j$. Since the number of major clusters can be estimated by the multiplicity of significant eigenvalues~\cite{manor2004self} of $S$, we plot the number of (in)significant eigenvalues across different ViT-S blocks (Figure~\ref{fig:clustering_number} (a)). We observe that by feeding Gaussian noise $\mathbf{x} \sim \mathcal{N}(0,1)$, the resulting perturbation (measured the by normalized feature norm) decreases rapidly together with the number of significant eigenvalues. Such observation indicates the symbiosis of grouping and improved robustness over middle blocks.

此外,我们还将图3(b)中相同的FAN-S-ViT图可视化,其中类似的趋势更为明显。ViT和FAN的噪声衰减进一步与图3(c)中的ResNet-50进行比较。我们观察到:1)ResNet-50的鲁棒性在下采样时趋于提高,但在常规卷积块上趋于平稳。2) ResNet-50的最终噪声衰减不太显著。最后,我们在图4中可视化了在不同块中获得的分组标记,它演示了通过逐渐挤出不重要的组件进行可视化分组的过程。附录中提供了来自不同主干的不同功能(标记)的其他可视化。

We additionally visualize the same plot for FAN-S-ViT in Figure~\ref{fig:clustering_number} (b) where similar trend holds even more obviously. The noise decay of ViT and FAN is further compared to ResNet-50 in Figure~\ref{fig:clustering_number} (c). We observe that: 1) the robustness of ResNet-50 tends to improve upon downsampling but plateaus over regular convolution blocks. 2) The final noise decay of ResNet-50 less significant. Finally, we visualize the grouped tokens obtained at different blocks in Figure~\ref{fig:clustering_visualization}, which demonstrates the process of visual grouping by gradually squeezing out unimportant components.Additional visualizations on different features (tokens) from different backbones are provided in the appendix.

图3:Analysis on the grouping of tokens and noise decay.} (a) and (b) shows the \# of insignificant (zero) eigenvalues and the noise input decay of ViT-S and FAN-S respectively; (c) shows the comparison of noise norm across different blocks in FAN-S, ViT-S and ResNet-50. Plots shown in (a) and (b) show that the number of zero eigenvalues increases as the model goes deeper, which indicates the emerging grouping of tokens. Given the input Gaussian noise, its magnitude similarly decays over more self-attention blocks. Such a phenomenon is not observed in the ResNet-50 model.

2.3. 信息瓶颈透视

集群的出现及其与视觉Transformer鲁棒性的共生关系提请我们注意视觉分组的早期先驱作品(U.C.Berkeley;Buhmann et al.,1999)。在某种意义上,视觉分组也可以被视为某种形式的有损压缩(Yang等人,2008)。因此,我们从信息瓶颈的角度提出以下解释框架。

给定一个分布,是观测到的噪声输入,是目标干净码(target clean code),IB寻求映射,使得包含中用于预测的相关信息。该目标被表述为以下信息论优化问题:

    (3)

在这里,第一项压缩信息,第二项鼓励维护相关信息。

对于SA块,表示输出特征,为输入。假设是数据点索引,我们有:

Proposition 2.1.    在温和(mild)的假设下,等式(3)中优化目标的迭代步骤 可以写为:\mathbf{z}_c = \sum_{i=1}^n \frac{\log [n_c / n] }{n \det \Sigma} \frac{\exp\left[ \frac{\mu_c^\top \Sigma^{-1} \mathbf{x}_i}{1/2}   \right]}{ \sum_{c=1}^n \exp\left[ \frac{\mu_c^\top \Sigma^{-1} \mathbf{x}_i}{1/2}  \right]} \mathbf{x}_i,    (4)

或以矩阵形式:

其中,,,。这里,和是可学习变量。

评论    我们把证据推迟到附录中。上述命题在普通自注意(1)和IB(3)之间建立了一个有趣的联系,表明SA将类似的输入聚合到具有集群结构的表示中。Self attention根据IB原则更新token特征,其中键矩阵存储临时簇中心特征,输入特征通过软关联(softmax)聚类到它们。新的cluster center特征作为更新的token特征输出。ViTs中堆叠的SA模块可广泛视为该优化的迭代重复,该优化可促进分组和噪声过滤。

多头自注意(MHSA)。    许多当前的Vision Transformer架构都采用MHSA设计,其中每个头部都倾向于注意不同的对象组件。在某种意义上,MHSA可以被解释为信息瓶颈的混合体。我们感兴趣的是在固定的总通道数下,头数与鲁棒性之间的关系。如图5所示,拥有更多的头部可以提高表现力和鲁棒性。但每头通道数的减少也会导致干净精度降低。最好的折衷方案是每个头32个通道。

2.4. 全注意网络

通过以上IBs解释的混合,我们打算设计一个通道处理模块,通过跨不同头的聚合来增强健壮的表示。我们的设计是由两个主要方面驱动的:1)为了促进more compositional representation,需要引入通道重新加权,因为一些头部或通道确实比其他头部或通道捕捉到更多重要信息。2) 重新加权机制应该在空间上更全面地考虑每个信道,以利用提升的分组信息,而不是做出“非常局部”的信道聚合决策。

With the above mixture of IBs interpretation, we intend to design a channel processing module that strengthens robust representation through the aggregation across different heads. Our design is driven by two main aspects: 1) To promote more compositional representation, it is desirable to introduce channel reweighting since some heads or channels do capture more significant information than the others. 2)The reweighting mechanism should involve more spatially holistic consideration of each channel to leverage the promoted grouping information, instead of making “very local” channel aggregation decisions.

实现上述目标的一个起点是引入一种类似于XCiT的通道自注意设计(El Nouby等人,2021年)。如图6(a)所示,通道注意(CA)模块采用自注意设计,将MLP块移动到自注意块中,然后与来自通道注意分支的D×D通道注意矩阵相乘。

A starting point towards the above goals is to introduce a channel self-attention design similar to XCiT (El-Nouby et al., 2021). As shown in Figure 6 (a), the channel attention (CA) module adopts a self-attention design which moves the MLP block into the self-attention block, followed by matrix multiplication with the D×D channel attention matrix from the channel attention branch.

注意特征转换。

FAN块引入以下通道注意(CA)来执行特征转换,其公式如下:

    (6)

此处和是线性变换参数。与SA不同,CA沿着通道维度而不是token维度计算注意矩阵(回忆),它利用特征协方差(线性变换后,)进行特征变换。具有较大相关性值的强相关特征通道将被聚合,而具有较低相关性值的离群特征将被隔离(isolated)。这有助于模型过滤出不相关的信息。在CA的帮助下,该模型可以过滤不相关的特征,从而对前景和背景标记形成更精确的token聚类。我们将在下面一节对这种影响进行更正式的描述。

在本文的其余部分,我们将验证CA对现有ViT模型的改进鲁棒性。

2.5. 有效通道自注意

在通道维度上应用传统的自注意计算机制有两个限制。第一个是计算开销。等式6中引入的CA的计算复杂度与成二次比例,其中是通道维度(is quadratically proportional to $D^2$)。对于现代金字塔模型设计(Wang等人,2021;Liu等人,2021),通道尺寸在顶部阶段变得越来越大。因此,直接应用CA可能会导致巨大的计算开销。二是参数效率低。在传统的SA模块中,注意力权重的注意力分布通过Softmax操作被锐化。因此,只有部分通道有助于表征学习,因为大多数通道通过乘以一个小的注意权重而减少。为了克服这些问题,我们探索了一种既具有高计算效率又具有参数效率的新型自注意机制。具体而言,提出了两项重大修改。首先,我们首先对通道维度进行平均,生成一个token原型,,而不是计算token特征之间的关联矩阵。直观地说,聚集了由标记表示的每个空间位置的所有通道信息。因此,计算token特征和token原型之间的关联矩阵是有用的,从而导致关于通道维度的学习复杂性。其次,我们没有使用Softmax函数,而是使用Sigmoid函数来规范化注意权重,然后将其与token特征相乘,而不是使用MatMul来聚合通道信息。直观地说,我们不会强迫通道只选择几个“重要”的标记特征,而是基于空间相关性重新加权每个通道。实际上,通道特征通常被认为是独立的。价值大的通道不应限制其他通道的重要性。通过结合这两个设计概念,我们提出了一种新的通道自注意,并通过公式(7)进行了计算:

    (7)

这里,表示沿token维度的Softmax操作,表示token原型)。我们以sigmoid为Norm。详细的模块架构设计也如图6所示。我们验证了新的高效通道自注意在显著提高性能的同时消耗更少的计算成本。详细结果将在第3.2.节中显示。

3    实验结果与分析

3.1. 实验细节

数据集和评估指标。    我们在Imagenet-C(IN-C)、Cityscape-C和COCO-C上验证了模型的鲁棒性,并且没有额外的与损坏相关的微调。后缀'-C'表示基于原始数据集的损坏图像,其方式与(Hendrycks&Dieterich,2019)中提出的相同。为了测试对其他类型分布外(OOD)场景的泛化,我们还评估了ImageNet-A(Hendrycks等人,2021)(IN-A)和ImageNet-R(IN-R)(Hendrycks&Dieterich,2019)的准确性。在实验中,我们评估了ImageNet-1K(In-1K)上的干净精度和这些分布外基准上的鲁棒性精度。为了量化模型的抗腐蚀能力,我们建议使用干净的精度进行校准。我们使用保留率(Ret R)作为鲁棒性指标,定义为R=鲁棒性Acc。干净Acc.=IN-C IN-1K。我们还报告了以下平均腐蚀误差(mCE)(Hendrycks&Dieterich,2019年)。有关更多详细信息,请参阅附录A.2。对于城市景观,我们按照SegFormer(谢等人,2021年)的做法,采用噪声类别三个严重级别的平均mIoU。对于所有其他数据集,我们取所有五个严重性级别的平均值

型号选择。

我们为我们的FAN模型设计了四种不同的模型尺寸(小、小、底座和大),分别缩写为'-T'、'-S'、'-B'和'-L'。其详细配置如表1所示。对于消融研究,我们使用ResNet-50作为CNN的代表性模型,ViT-S作为常规视觉Transformer的代表性模型。ResNet-50和ViT-S的模型尺寸和计算预算与FAN-S相似。与SOTA模型相比,我们以最新的vision transformer和CNN模型为基线。

3.2. 分析

在本节中,我们将介绍一系列消融研究,以分析自注意对模型鲁棒性的贡献。由于最近引入了多种高级训练方法,我们首先研究它们在提高模型鲁棒性方面的效果。然后,我们将VIT和CNN与完全相同的训练配方进行比较,以排除除架构设计以外可能影响模型鲁棒性的因素。

高级训练技巧的效果。

我们根据经验评估了如何使用不同的训练方法来提高鲁棒性,结果如表2所示。有趣的是,人们观察到,广泛使用的技巧,如知识提取(KD)和大数据集预训练,确实提高了绝对精度。然而,当传输到ImageNet-C时,它们并没有显著降低性能下降。主要的改进来自高级训练配方,如DeiT训练配方中采用的CutMix和RandAugmentation。在下面的比较中,我们使用用DeiT配方训练的ViT-S,并用减小的通道尺寸增加块数,表示为ViT-S∗ . 此外,为了进行公平比较,我们首先应用这些先进的训练技术来重现ResNet-50的性能。

向CNN添加新的训练配方。

我们对添加高级技巧时ResNet-50模型的鲁棒性如何变化进行了逐步的实证研究。我们研究了三种设计选择:训练配方、注意机制和下采样方法。对于训练配方,我们采用与训练上述ViT-S模型相同的配方。我们使用挤压和激发(SE)注意力(Hu et al.,2018),并将其沿通道维度应用于每个块的特征输出。我们还研究了不同的降采样策略,即平均池(ResNet-50默认)和跨步卷积。结果见表3。可以看出,添加注意(挤压和激发(SE)注意)和使用更高级的训练配方确实显著提高了ResNet-50的鲁棒性。我们使用性能最好的ResNet-50,并将其命名为ResNet-50∗ , 以下是比较。

ViTs在鲁棒性方面优于CNN。

为了进行公平比较,我们使用上述所有经过验证的训练技巧来训练ViT-S和ResNet-50,使其达到最佳性能。具体而言,ResNet-50∗ 使用DeiT配方、SE和跨步卷积进行训练;ViT-S∗ 还使用DeiT配方进行训练,有12个块,384个嵌入维度,用于匹配ResNet-50的模型大小。表4中的结果表明,即使采用相同的训练方法,ViTs在鲁棒性方面仍优于ResNet-50。这些结果表明,ViTs鲁棒性的提高可能来自其自身注意的架构优势。这促使我们通过更广泛地利用自注意来进一步增强模型的鲁棒性,从而进一步改进ViTs的体系结构。

ViT、SwinViT和ConvNeXt之间的差异。

最近的CNN模型显示了其鲁棒性优于最近最先进的基于Transformer的模型Swintransformer。这里我们从信息瓶颈的角度来解释这一点。如第2节所述。2.3,SA模块正在形成一个IB来选择基本token。由于Swintransformer部署了基于窗口的局部自注意机制,它强制模型从预定义的窗口区域选择信息。这样的本地窗口IB强制每个窗口从本地受约束的特征中选择token。直观地说,当选定的窗口不包含基本信息时,本地SA被迫选择一些关键标记,从而产生一组次优聚类。因此,Swintransformer的鲁棒性比最近的SOTA CNN模型ConvNeXt差。然而,如表5所示,与ConvNeXt模型相比,DeiT实现了更好的鲁棒性,参数数量减少了24.1%。因此,我们认为,具有全局SA模块的Transformer仍然比最先进的ConvNeXt模型更健壮。

3.3. 全注意网络

在本小节中,我们将研究新的FAN体系结构如何在不同的体系结构中提高模型的健壮性。

有效通道注意的影响

我们首先从GPU内存消耗、清晰图像精度和鲁棒性方面消除了不同形式的通道注意的影响。结果如表6所示。与原始的自注意模块相比,SE attention消耗更少的内存,实现了相当清晰的图像精度和模型鲁棒性。通过考虑空间关系,我们提出的CSA产生了最佳的模型鲁棒性,与SE注意的内存消耗相当。

FAN ViT和FANSwin。

使用FAN块代替传统Transformer块形成FAN ViT。FAN ViT显著增强了鲁棒性。然而,与ViT相比,Swin架构(Liu et al.,2021)(使用迁移窗口注意力)的鲁棒性有所下降。这可能是因为他们的局部注意力阻碍了全局聚类和基于IB的信息提取,详见第3.2节。通过使用FAN块,可以有效地弥补鲁棒性的下降。通过将ECA加入到Swin模型的特征变换中,我们得到了FAN-Swin,这是一种新的FAN模型,其空间自注意被Swin中的迁移窗口注意增强。如表7所示,添加FAN块可将ImageNet-C上的精度提高5%。如此显著的改进表明,我们提出的CSA在提高模型鲁棒性方面确实具有显著的有效性。

混合FAN。

从图3所示的聚类过程中,我们发现聚类主要出现在FAN模型的顶部阶段,这意味着底部阶段侧重于提取局部视觉模式。出于这一动机,我们建议对具有下采样的底部两级使用卷积块,然后将FAN块附加到卷积级的输出。每个阶段包括3个卷积块。这就给出了FAN Hybrid模式。特别是,我们使用最近的CNN模型ConvNeXt(Liu等人,2022)来构建混合模型的早期阶段。如表7所示,我们发现原始ConvNeXt比Swintransformer具有更强的鲁棒性,但比FAN-ViT和FAN-Swin模型的鲁棒性差。然而,FAN Hybrid实现了与FAN ViT和FAN-Swin相当的健壮性,并且对于干净和损坏的数据集都具有更高的精确度,这意味着FAN还可以有效地增强基于CNN的模型的健壮性。与FAN-Swin类似,FAN Hybrid在处理大分辨率输入和密集预测任务方面具有效率,有利于下游任务。因此,对于所有下游任务,我们使用FAN Hybrid模型与其他最先进的模型进行比较。有关FAN Hybrid和FAN-Swin体系结构的更多详细信息,请参阅附录。

3.4. 与SOTA在各种任务上的比较

在本小节中,我们评估了FAN与其他SOTA方法在不同下游任务(包括图像分类(ImageNet-C)、语义分割(Cityscapes-C)和对象检测(COCO-C))上对常见损坏的鲁棒性。此外,我们还评估了FAN在其他各种鲁棒性基准(包括ImageNet-A和ImageNet-R)上的鲁棒性,以进一步显示其在鲁棒性方面的非平凡改进。

图像分类的鲁棒性。

我们首先比较FAN与其他SOTA模型的鲁棒性,将它们(在ImageNet-1K上预先训练)直接应用于ImageNetC数据集(Hendrycks&Dieterich,2019),而无需任何微调。我们根据模型大小将所有模型分为三组进行公平比较。结果如表8所示,详细结果总结如表12所示。从结果可以清楚地看到,所有基于Transformer的模型都比基于CNN的模型表现出更强的鲁棒性。在所有模型尺寸下,我们提出的FAN模型明显优于所有其他模型。它们对所有类型的腐蚀都具有很强的鲁棒性。值得注意的是,FAN在恶劣天气条件和数字噪音下表现出色,非常适用于手机和自动驾驶汽车的视觉应用。

我们还评估了Swintransformer和最近的ConvNeXt的零样本鲁棒性。与具有全局自注意的Transformer相比,它们都表现出较弱的鲁棒性。然而,向它们添加FAN可以提高它们的健壮性,从而使生成的FAN-Swin和FAN Hybrid变量既能继承对下游任务的高适用性,又能继承对损坏的强健壮性。我们将在分割和检测应用中使用FAN Hybrid变量。

语义分割的鲁棒性。

我们进一步评估了我们提出的FAN模型对分割任务的鲁棒性。我们使用Cityscapes-C进行评估,将Cityscapes验证集扩展为16种自然腐蚀。我们将我们的模型与DeeplabV3+和最新SOTA模型的变体进行比较。表9总结了结果,表13总结了分类结果。我们的模型明显优于以前的模型。FAN-S-Hybrid超过最新的SegFormer-a基于Transformer的细分模型6.8%的mIoU,模型尺寸相当。结果表明,FAN具有很强的鲁棒性。

目标检测的鲁棒性。

我们还评估了FAN在COCO-C数据集上检测任务的鲁棒性,COCO-C数据集是COCO的一个扩展,与Cityscapes-C类似。表10总结了结果,表14总结了详细结果。FAN再次展示了强大的鲁棒性,在相同的训练设置下,与最近的SOTA Swintransformer(Liu等人,2021年)相比,模型尺寸(26M vs 29M)的mAP提高了6.2%,并显示了42.0%mAP的最新结果,编码器模型的参数数量仅为7680万。

抗分布外的鲁棒性。

FAN鼓励标记特征形成集群,并隐式选择信息特征,这将有利于模型的泛化性能。为了验证这一点,我们直接在ImageNet-A和ImageNet-R上测试我们的ImageNet-1K训练模型,以评估其鲁棒性,尤其是对分布外样本的鲁棒性。表11总结了实验结果。在这些模型中,ResNet-50(Liu等人)的泛化能力最弱,而最近的Convenet显著提高了CNN的泛化性能。基于Transformer的模型Swin和RVT的性能与CONVEXT相当,比ResNet-50好得多。我们提出的FANs显著优于所有这些模型,这意味着当不相关的特征得到有效处理时,完全注意结构有助于学习表征的泛化能力。

4、相关工作

视觉Transformer(Vaswani et al.,2017)是一系列基于计算机视觉任务的Transformer体系结构。与依赖于某些归纳偏置(例如,位置和平移不变性)的CNN不同,VIT通过自注意执行视觉标记之间的全局交互,因此对输入图像数据的归纳偏置较小。此类设计在各种视觉任务上提供了显著的性能改进,包括图像分类(Dosovitskiy et al.,2020;Yuan et al.,2021;Zhou et al.,2021a;b)、目标检测(Carion et al.,2020;Zhu et al.,2020;Dai et al.,2021;Zheng et al.,2020)和分割(Wang et al.,2020;Liu et al.,2021;Zheng et al.,2020)。视觉任务中视觉Transformer的成功引发了关于自注意相对于卷积的优势的广泛辩论和研究(Raghu等人,2021;Tang等人,2021)。与卷积相比,一个重要的优点是对可观察到的损坏具有鲁棒性。几项研究(Bai et al.,2021;Xie et al.,2021;Zhu et al.,2021;Paul&Chen,2022;Naseer et al.,2021)从经验上表明,ViTs反腐蚀的鲁棒性始终显著优于Convents。然而,关键因素(即自注意)如何影响鲁棒性还没有得到充分的研究。相比之下,我们的工作进行了实证研究,以揭示自注意的耐用性的有趣特性(即标记分组和噪声吸收),并提出了一种新的完全注意架构设计,以进一步提高鲁棒性。

通过开发鲁棒训练算法(Kurakin et al.,2016;Shao et al.,2021),在对抗性示例的背景下提高深度学习模型的鲁棒性方面有大量的工作(Kurakin et al.,2016;Shao et al.,2021),这与我们的工作范围不同。在这项工作中,我们重点研究了对自然腐蚀的零样本鲁棒性,并主要从模型体系结构的角度研究了如何提高模型的鲁棒性。

5.结论

在这篇论文中,我们验证了自注意是视觉Transformer鲁棒性提高的一个因素。我们的研究表明,自注意促进了token中自然形成的集群,这与深度学习之前视觉分组的广泛早期研究表现出有趣的关系。我们还从自解释的角度来解释这些信息的瓶颈属性。为了推动具有自注意的鲁棒表征学习的边界,我们引入了一系列完全注意网络(FAN)体系结构,其中自注意在标记混合和通道处理中都得到了利用。与CNN和ViT模型相比,FAN模型的鲁棒性显著提高。我们的工作为理解视觉Transformer的工作机理提供了一个新的角度,展示了超越卷积的电感偏置的潜力。我们的工作有助于广泛的实际应用,尤其是自动驾驶等安全关键应用。

A、 补充详细信息

A.1。信息瓶颈与自注意关系的证明

给定一个分布X∼ N(X0,C)X是观测到的噪声输入,X0是目标清除码,IB寻求映射f(Z | X),使得Z包含X中用于预测X0的相关信息。这一目标被表述为以下信息论优化问题

服从马尔可夫约束↔ 十、↔ X0。β是一个自由参数,它权衡了第一项对信息的压缩和第二项对相关信息的维护。

信息瓶颈方法可用于解决无监督聚类问题。这里,我们选择X作为索引为i的数据点,该数据点将被聚集到索引为c的集群中。

如上所述,我们假设以下数据分布:

其中s是平滑参数。我们假设边际为p(i)=1n,其中N是数据点的数量。

使用上述符号,聚类迭代IB中的第t步公式如下:

这里K(x,β)是归一化因子,Sc表示分配给聚类c的数据点的索引集。

我们选择用高斯近似g(x | c)=N(x |µc,∑c)代替q(x | c),并假设c足够小。然后

其中,B表示不依赖于向集群分配数据点的术语,因此与目标无关。因此,上述集群更新可以写成:

下一步是更新µc,以最小化g(x | c)和p(x | c)之间的KL偏置:

将上述w.r.t.µc降至最低可得出:

通过正确地重新安排上述术语并将其写入紧凑的矩阵形式,IB方法和自注意之间的关系将变得更加清晰。假设∑c=在所有集群中共享。假设µc是标准化的w.r.t.∑−1摄氏度,即µ>摄氏度∑−1 cµc=1。

定义Z=[µ(t)1>;…;µ(t)N>],V=[x1,…,xN]WV,K=[µ(t−1) 1,µ(t)−1) N],Q=∑−1[x1,…,xN]。定义d=1/2。然后,上述更新(15)可以写为:

此处,沿行方向应用softmax规范化。因此,我们得出命题2.1的证明结论。命题2.1可以通过遵循上述路线图来证明。

A.2。实施细节

ImageNet分类

对于所有实验和烧蚀研究,如果没有另外规定,则在ImageNet-1K上对模型进行预训练。对于基线模型和我们提议的FAN模型系列,训练配方遵循(Touvron等人,2021a)中使用的配方。具体来说,我们使用AdamW训练300个epoch的FAN,学习率为2e-3。我们使用5个阶段来线性预热模型。之后我们采用余弦衰减时间表。我们使用的批量为2048,重量衰减为0.05。我们采用了与(Touvron等人,2021a)相同的数据增强方案,包括混音、剪切混音、随机增强和随机擦除。我们使用指数移动平均(EMA)加速模型收敛,其方式与timm库(Wightman,2019)相似。对于图像分类任务,我们还按照Touvron等人的建议在顶层包含两个类注意块。。

语义分割与目标检测

对于FAN ViT,我们遵循语义Transformer(semantic transformer,SETR)(郑等人,2021年)中提出的相同解码器,以及Segformer(谢等人,2021年)中使用的相同训练设置。对于目标检测,我们使用2倍多尺度训练对更快的RCNN(Ren等人,2015)进行微调。训练图像的分辨率从640×640到896×896之间随机选择。我们使用尺寸为896×896的确定性图像分辨率进行测试。

对于FAN Swin和FAN Hybrid,我们在COCO数据集上对Mask R-CNN(He et al.,2017)进行了微调。继SwinTransformer(Liu等人,2021年)之后,我们使用了多尺度训练、AdamW优化器和3x时间表。这些代码是使用MMSegmentation(贡献者,2020)和MMDetection(Chen等人,2019)工具箱开发的。

腐蚀数据集的准备

对于ImageNet-C,我们直接从Hendrycks&Dieterich提供的镜像下载它。对于Cityscape-C和COCO-C,我们遵循Kamann&Rother的方法,从噪声、模糊、天气和数字类别生成16种算法生成的腐蚀。

评估指标

对于ImageNet-C,我们使用保留作为主要指标来衡量被定义为ImageNet-C Acc的模型的鲁棒性。

ImageNet干净附件。

它测量在ImageNet-C数据集上进行评估时可以保留多少准确性。与其他模型相比,我们还以ImageNet-C论文(Hendrycks&Dieterich,2019)中定义的相同方式报告了平均腐蚀误差(mCE)。评估代码基于timm库(Wightman,2019)。对于语义分割和目标检测,我们将ImageNet-1k预训练权重和精细调整加载到Cityscpaes和COCO clean图像数据集。然后,我们直接评估了Cityscapes-C和COCO-C的性能。我们报告了使用联合平均交集(mIoU)的语义分割性能和使用平均精度(mAP)的对象检测性能。

A.3。损坏图像分类、分割和检测的详细基准测试结果

选项卡中显示了所选模型和FAN模型的分类鲁棒性。12,选项卡。13和选项卡。分别为14个。如图所示,FAN的强大鲁棒性可迁移到所有下游任务。

A.4。FANSwin和FANHybrid的架构细节

对于FAN-Swin体系结构,我们遵循相同的宏观体系结构设计,仅以Swintransformer中提出的相同方式,将传统的自注意模块替换为高效的窗口迁移自注意(Liu et al.,2021)。对于FAN Hybrid架构,我们在ConvNeXt(Liu等人,2022)中提出的相同架构中,为每个阶段使用三个卷积构建块。

A、 5。特征聚类和可视化

为了对token特性进行集群,我们首先使用SoftMax函数对从最后一个块的输出中提取的token进行规范化。然后,我们根据归一化标记计算自相关矩阵,并将其用作谱聚类的亲和矩阵。图9提供了我们的FAN、ViT和CNN模型中标记特征聚类结果的更多可视化。城市景观的可视化如图8所示。

你可能感兴趣的:(FAN:理解视觉Transformer的鲁棒性(ICML2022))