MAFormer: A Transformer Network with Multi-scale Attention Fusion for Visual Recognition
Vision Transformer 及其变体在各种计算机视觉任务中展示了巨大的潜力。但传统的vision transformer通常侧重于粗略级别的全局依赖,这在全局关系和token级别的细粒度表示方面存在学习挑战。在本文中,我们将 Multi-scale Attention Fusion 引入到 Transformer (MAFormer) 中,它探索了用于视觉识别的双流框架中的局部聚合和全局特征提取。我们开发了一个简单但有效的模块,通过在token级别学习细粒度和粗粒度特征并动态融合它们来探索transformer在视觉表示方面的全部潜力。我们的多尺度注意力融合 (MAF) 块包括:i) 一个局部窗口注意力分支,它学习窗口内的短程交互,聚合细粒度的局部特征; ii) 通过一种新颖的全局下采样学习 (GLD) 操作提取全局特征,以有效地捕获整个图像中的远程上下文信息; iii)一个融合模块,通过注意力自我探索两个特征的整合。我们的 MAFormer 在常见的视觉任务上实现了最先进的性能。特别是 MAFormer-L 在 ImageNet 上的 Top-1 准确率达到 85.9%,分别超过 CSWin-B 和 LV-ViT-L 1.7% 和 0.6%。在 MSCOCO 上,MAFormer 在目标检测方面的 mAPs 比现有技术 CSWin 高 1.7%,在具有相似大小参数的实例分割方面比现有技术 CSWin 高 1.4%,证明了成为通用backbone的潜力。
自 ViT [11] 取得突破以来,Transformers 在计算视觉中占据了主导地位,在图像识别、对象检测和语义分割等各种视觉任务中取得了优异的成绩。尽管取得了这些进展,但符合 ViT [11, 21] 的全局自注意力机制对输入图像大小具有二次计算复杂度,这对于高分辨率场景来说是无法忍受的。为了降低复杂性,引入了几种变体来用局部自我关注代替全局自我关注。具有分层架构的 Swin Transformer [24] 将输入特征划分为非重叠窗口,并逐层移动窗口位置。之后,设计了各种窗口分区机制以更好地捕获局部特征。 CSWin Transformer [10] 将特征平行地分成水平和垂直条纹,旨在扩大窗口感受野。但是,它只关注窗口内的信息,而未探索跨窗口的依赖关系。 Shuffle Transformer [16] 重新审视了 ShuffleNet [26] 并将空间 shuffle 嵌入到局部窗口中以加强它们的连接。
另一类研究工作侧重于将 CNN 与transformer相结合,这是局部模式和全局模式之间的权衡。 CvT [52] 将自注意力块中的linear projection转换为convolution projection。 CoatNet [46] 通过简单的相对注意将深度卷积与自我注意合并,并以原则性的方式堆叠卷积和注意层。 DS-Net [27] 提出了一种双流框架,该框架通过交叉注意融合了卷积和自我注意,其中每种形式的尺度都学习与其他形式对齐。 然而,如 DS-Net [27] 所示,卷积和注意力具有本质上相互冲突的属性,这可能会导致训练中的歧义。 例如,全局自注意力捕获的远程信息可能会扰乱高分辨率特征图中卷积的相邻细节,从而影响全局和局部表示。
在本文中,我们开发了一种多尺度注意力融合transformer(MAFormer),它在dual-stream transformer框架中探索了局部聚合和全局特征提取。为了避免卷积和自注意力不兼容的风险,我们应用local window attention来提取细粒度的特征表示。我们还设计了一个带下采样的全局学习 (GLD) 模块来提取全局特征,该模块根据full-sized input输入捕获粗粒度特征。我们通过位置嵌入进一步将输入的token级位置信息编码为全局表示。此外,我们描述了两种基于不同融合策略的双流架构,特别是多尺度注意力融合(MAF)方案,可以充分挖掘这两种特征的潜力。其有效性是因为MAF块可以增强每个局部-全局token对之间的交互,其中局部特征和全局特征在统一的框架中共同训练,形成更丰富的表示。
提出了多尺度注意力融合机制,以在token级别提取细粒度和粗粒度特征并动态融合它们,形成通用vision transformer主干,称为MAFormer,提高各种视觉任务的性能。 图 1(a) 显示了 MAFormer 的整体架构。 它以图像X∈ R^(H×W ×3)作为输入,其中W和H表示输入图像的宽度和高度,并采用分层设计。 通过降低特征图的分辨率,网络可以捕获不同阶段的多尺度特征。
我们将输入图像划分为patches并执行patch merging,接收具有C个特征通道的 H/4 × W/4 visual tokens。 从那里,tokens两个stages通过MAF块和两个stages通过原始的Vision Transformer块。 在每个阶段,MAFormer 按照惯例采用了一个patch merging层,它将特征图的空间大小下采样 2 倍,同时增加了特征通道维度。
根据最近对特征表示的研究[29],像 ViT 这样的vision transformer在其较低层局部和全局参与,但主要关注较高层的全局信息。 根据该模式,我们在 MAFormer 的前两个阶段合并了多尺度特征表示,而在后两个阶段,使用了原始的vision transformer块,后两个阶段降低了特征的分辨率因此原始vison transformer的计算成本变得负担得起。
如图 1(b) 所示,MAF 块包括一个局部聚合分支和一个带下采样的全局学习 (GLD) 分支,分别生成token级细粒度和粗粒度特征。 两个流都被输入到融合模块中,以提高特征表示的能力。
以前的混合网络 [8, 20] 利用 CNN 提取局部特征,这些特征进一步集成到Transformer分支中。 然而,这种方法存在卷积和自注意力之间不匹配的风险。 在 MAF 中,我们避免了不兼容通过探索使用基于局部窗口的多头注意力机制作为细粒度表示。 考虑输入X∈R^(H×W ×C) ,局部聚合定义为:
代表的是第l个Transformer block的输出。
尽管局部窗口自注意力方法取得了优异的性能,但它们只能捕获窗口信息,无法探索它们之间的依赖关系。 此外,由于粗粒度上下文信息的使用不足,现有方法在全局依赖提取方面仍面临挑战。 因此,有效捕获全局依赖关系是模型表示的组成部分。
为了解决这些问题,我们引入了一个带下采样的全局学习 (GLD) 模块,以从大型输入中提取全局信息。 为此,我们首先使用一个完全连接到特征输入的单个神经元层。 在不切割任何维度的情况下,它会输出一个动态学习的下采样上下文抽象。 如图 1(c) 所示,输入 X ∈ R^(H×W×C) 首先被展平为 XG ∈ R^(C×L),其中 L 等于 H×W。 然后 XG ∈ R^(C×L)由一个全连接层全局提取,缩小到缩放比例 N。 在实验过程中,我们调整了 N 的几个值,0.5 是最佳值,在 MAFormer 中设置为默认值。 此外,我们通过位置嵌入将输入的token级位置信息编码为全局表示。 如图 1(c) 所示,Pos 操作使用逐层双线性插值作为度量,FC 表示为全连接。
代表的是第l个transformer block的global分支的输出。
我们开发了两种类型的双流多尺度表示,如图 2 所示。首先,我们在局部表示之上提取全局依赖关系作为增强,旨在提供跨局部窗口的信息流。 如图 2(b) 所示,GLD 模块获取局部窗口注意力的输出,并将全局表示与局部表示融合回来。 然而,这种方法只能捕捉局部属性之间的全局相关性,而不是来自输入。 因此,我们提出了多尺度注意力融合 (MAF) 度量,直接分别提取输入的局部和全局尺度。 两个信息流都通过注意力输入到一个融合块中,如图 2(c) 所示。 通过这种方式,我们的 MAF 块可以捕获每个局部-全局标记对之间的相关性,并提示局部特征自适应地探索它们与全局表示的关系,从而使其更具代表性和信息量。
给定提取的局部特征XL∈R^(C×Llocal)局部特征和全局特征XG∈R^(C×Lglobal)全局,多尺度注意融合被定义为:
其中WQ,WK,WV是学习超参数矩阵。然后,我们计算了每对XL和XG之间的多尺度注意融合(MAF):
在本节中,我们首先提供MAF块的消融研究。然后,给出了MAFormer在图像分类、基于实例分割的目标检测和语义分割三种情况下的实验结果。具体地说,我们使用ImageNet-1K[9]进行分类,MSCOCO 2017[23]与Mask R-CNN[12]和Cascade R-CNN[1]用于实例分割的目标检测,ADE20K[54]用于语义分割,其中我们使用语义FPN[19]和UPerNet[43]作为基本框架。所有实验都在V100 GPU上进行。
MAFormer网络中的多尺度注意力融合(MAF)模块主要由三部分组成:the Local Aggregation mechanism, the Global Learning with Down-sampling (GLD) module, and the dynamic fusion module。在接下来的实验中,我们通过替换网络的不同部分来探索性能最好的MAFormer结构。我们以MAFormer-S为基准,在图像分类数据集ImageNet-1K上进行实验。
Local Aggregation模块中注意力方法的选择非常灵活,可以用不同的基于窗口的自注意力方法来替代[17、24、15]。 在 MAF 模块中,我们比较了Swin及其最近的变体基于十字形窗口的自我注意 CSwin。 如表 2 所示,实验表明,使用基于十字形窗口的自注意力的MAFormer-S 在 ImageNet 1K 上的 top-1 精度优于移位窗口的自注意力 +0.3%,被设置为默认方法.
全局信息对于特征表示至关重要。 我们在表 2 中显示,与在 ImageNet-1K 上没有全局信息的方法相比,具有 GLD 的 MAFormer-S 产生 +1% 的 top-1 准确度。 我们还将 GLD 与其他提取全局信息并同时对输入进行下采样的方法进行了比较。 如图所示,GLD 比基本配置卷积带来了 +0.3% 的准确度,表明可以使用 GLD 以可学习和动态的方式从全局toekn中提取详细信息,并对局部位置信息进行编码。
表3比较了不同连接模块的实现。如图所示,我们提出的多尺度融合注意比以前的局部/全局双流结构更有效[DS-Net]。此外,MAF在我们的实验中得到了验证,与局部增强融合措施相比,MAF具有+0.2%的优势。跨尺度信息传输不是固定融合,而是由特征本身自动确定,使组合更有效。
Settings
在本节中,我们在 ImageNet-1K 分类 [9] 上进行 MAFormer 实验,并将所提出的架构与之前的最新技术进行比较。 MAFormer 默认遵循 [18],并使用 Token Labeling [18] 进行训练。 MAFormer-S/B/L的Dropout正则化率[32]分别设置为0.1/0.3/0.4,如表1所示。MAFormer-S和MAFormer-B的学习率为1.6e-3,而MAFormer -L 是 1.2e-3。 所有实验均在 V100GPU 上进行。
Results
如表 1 所示,只有23M参数的 MAFormer-S 在 ImageNet-1k 上可以达到 83.7% 的 top-1 准确率。 增加嵌入维度和网络深度可以进一步提高性能。 表 4 详细显示了 MAFormer 优于以前最先进的vision transformer。 具体来说,MAFormer-L 以 22.6G FLOP 达到 85.9% 的 Top-1 准确率,分别超过 CSWin-B [10] 和 LV-ViT-L [18] 1.7% 和 0.6%。 MAFormer 变体在相当大的计算量下也大大优于现有技术的混合架构 [8, 27] 和基于局部窗口注意的transformer[16, 3, 24]。
在图像分类资源上预训练模型并使其适应下游任务已成为大多数视觉工作的标准方法。 然而,下游任务的数据量远低于分类基准,例如 ImageNet。 根据最近的研究 [29],由于缺乏归纳偏差,当训练少量数据时,基于注意力的网络的较低层在聚合局部相关性方面表现不佳。 因此,ImageNet 上最先进的transformer骨干网对下游子任务没有显着改进。 另一方面,MAFormer 在较低层利用基于局部窗口的注意力,并用它战略性地编码全局信息。 这样,当训练数据不足时,局部模式更容易获取,使其成为通用且高效的视觉骨干。
Settings
为了展示 MAFormer 在下游任务中的优点,我们在 COCO 对象检测任务 [23] 上评估了该模型。我们首先使用典型的框架 Mask R-CNN [12],其中我们配置 1x schedule 12 个 epoch 训练计划。具体来说,图像的短边调整为 800,同时保持长边不超过 1333。我们使用相同的 AdamW [25] 优化器,初始学习率为 1e-4,在 epoch 8 和 11 衰减 0.1( 1x schedule),weight decay 0.05。我们为 MAFormer-S 骨干网设置 0.2 的随机下降路径正则化,为 MAFormer-B 和 MAFormer-L 骨干网设置 0.3,如表 1 所示。为了扩展我们的研究,我们在另一个典型的框架 Cascade R-CNN [1] 中评估 MAFormer .对于 Cascade R-CNN,我们采用具有 36 个 epoch 训练计划的 3x 计划和多尺度训练策略 [2, 34] 将较短边的大小随机调整到 480 到 800 之间。我们使用相同的 AdamW [25] 优化器进行初始学习速率为 1e-4,在 epoch 27 和 33 衰减 0.1,权重衰减 0.05。我们分别为 MAFormer-S、MAFormer-B 和 MAFormer-L 主干设置了 0.2、0.3 和 0.4 的随机丢弃路径正则化。我们将 MAFormer 与各种作品进行了比较:典型的 CNN 主干 ResNet [13]、ResNeXt [45],以及具有竞争力的 Transformer 主干 PVT [41]、Twins [6]、Swin [24] 和 CSWin [10]。
Results
在本文中,我们介绍了一个通用的vision transformer主干 MAFormer,它在token中集成了局部和全局特征。 MAFormer 可以改善局部窗口之间的信息交互,局部和全局特征均采用线性运算进行部署,以保证特征分布的一致性。 MAFormer 在图像分类和密集的下游任务方面表现出色,在视觉任务中显示出其巨大的潜力。 将来,MAFormer 可以用作自我监督预训练任务中的通用主干。