AS-MLP: AN AXIAL SHIFTED MLP ARCHITECTURE FOR VISION全文中文翻译

摘要

本文提出了轴向转移MLP架构(AS-MLP)。与 MLP-Mixer 不同,全球空间功能通过矩阵转换和单象征性混合 MLP 编码信息流,我们更注重本地功能通信。通过对轴向移动功能图的通道,AS-MLP 能够从不同的轴向获取信息流,从而捕获本地依赖性。这种操作使我们能够利用纯粹的 MLP 架构实现与 CNN 式架构相同的本地接受领域。我们还可以设计 AS-MLP 块的接受场大小和扩散等,就像设计汇合内核一样。通过建议的 AS-MLP 架构,我们的模型在 ImageNet-1K 数据集上获得了 83.3% 的 Top-1 精度,具有 88M 参数和 15.2 GFLOP。这种简单而有效的架构优于所有基于 MLP 的架构,与基于变压器的架构(例如 Swin 变形金刚)相比,即使具有略低的 FLOP,也具有竞争力。此外,AS-MLP 也是第一个应用于下游任务(例如对象检测和语义分割)的基于 MLP 的架构。实验结果也令人印象深刻。我们提议的 AS-MLP 在 COCO 验证集上获得 51.5 mAP,在 ADE20K 数据集中获得 49.5 MS mIoU,与基于变压器的架构相比,该数据集具有竞争力。代码可在 https://github.com/svip-lab/AS-MLP

1.介绍

在过去的十年中,卷积神经网络(CNN)(Krizhevsky 等人,2012 年;He 等人,2015 年)受到了广泛关注,并已成为计算机视觉事实上的标准。
此外,随着对 self-attention 的深入探索和研究,基于 Transformer 的架构也逐渐出现,并在自然语言处理(例如 Bert (Devlin et al., 2018))和视觉方面超越了基于 CNN 的架构

理解(例如,ViT (Dosovitskiy et al., 2020), DeiT (Touvron et al., 2020))大量的训练数据。
最近,Tolstikhin 等人。 (2021) 首次提出了基于 MLP 的架构,其中几乎所有的网络参数都是从 MLP(线性层)学习的,并取得了惊人的结果,可与类 CNN 模型相媲美。这些有希望的结果推动了我们对基于 MLP 的架构的探索。在 MLP-Mixer (Tolstikhin et al., 2021) 中,该模型通过矩阵转置和 token-mixing 投影获得全局感受野,从而覆盖了远程依赖关系。
然而,这很少充分利用局部信息,这在类 CNN 架构中非常重要 (Simonyan & Zisserman, 2014; He et al., 2015),因为并非所有像素都需要远程依赖,并且校准信息更侧重于提取低级特征。
在基于transformer的架构中,一些论文已经强调了局部感受野的优势,并在transformer中引入了局部信息,如Localvit (Li et al., 2021)、NesT (Zhang et al., 2021)等。在这些想法的驱动下,我们主要探索局部性对基于 MLP 的架构的影响。
为了在基于 MLP 的架构中引入局部性,一个最简单、最直观的想法是在 MLP-Mixer 中添加一个窗口,然后对窗口内的特征进行局部信息的 token-mixing 投影,就像在 Swin Transformer 中所做的一样(Liu 等人,2021b)。然而,对于基于 MLP 的架构,如果我们划分窗口(例如,7 × 7)并在窗口中执行 token-mixing 投影,那么只采用 49 × 49 shared1 线性层,这极大地限制了模型容量,从而影响参数的学习和最终结果。因此,我们为基于 MLP 的架构提出了一种轴向移动策略,我们在水平和垂直方向上空间移动特征。轴向移位可以将不同空间位置的特征排列在同一位置。之后,使用通道混合 MLP 来组合这些功能,简单而有效。这种方法使模型能够获得更多的局部依赖,从而提高性能。它还使我们能够像卷积核一样设计 MLP 结构,例如设计核大小和膨胀率。基于轴向位移策略,我们设计了轴向位移 MLP 架构,命名为 AS-MLP。我们的 AS-MLP 在 ImageNet-1K 数据集中使用 88M 参数和 15.2 GFLOP 获得了 83.3% 的 Top-1 准确率,无需任何额外的训练数据。与基于变压器的架构相比,这种简单而有效的方法优于所有基于 MLP 的架构,并实现了具有竞争力的性能。 AS-MLP 架构也可以转移到下游任务(例如,对象检测)。据我们所知,这也是第一个将基于 MLP 的架构应用到下游 task2 的工作。使用 ImageNet-1K 数据集中的预训练模型,AS-MLP 在 COCO 验证集上获得 51.5 mAP,在 ADE20K 数据集上获得 49.5 MS mIoU,与基于 Transformer 的架构相比具有竞争力。

2、相关工作

CNN-based Architectures

自从 AlexNet (Krizhevsky et al., 2012) 在 2012 年赢得ImageNet 竞赛后,基于 CNN 的架构逐渐被用于自动提取图像特征,而不是手工制作的特征。随后,提出了 VGG 网络 (Simonyan & Zisserman, 2014),它纯粹使用了一系列 3 × 3 卷积和全连接层,在图像分类方面取得了出色的表现。此外,还提出了 ResNet (He et al., 2015),它利用残差连接来传输不同层的特征,从而缓解梯度消失问题并获得卓越的性能。之后,残差模块成为网络设计的重要组成部分,也被用于后续基于变压器的架构和基于 MLP 的架构中。一些论文对基于 CNN 的架构中的卷积操作进行了进一步的改进,例如空洞卷积 (Yu & Koltun, 2015) 和可变形卷积 (Dai et al., 2017)。这些架构构建了 CNN 系列,并广泛用于计算机视觉任务。

Transformer-based Architectures

Transformer 在 (Vaswani et al., 2017) 中首次提出,其中利用注意力机制对来自不同空间位置的特征之间的关系进行建模。随后,BERT (Devlin et al., 2018) 在 NLP 中的流行也推动了对 Transformer 在视觉领域的研究。 ViT (Dosovitskiy et al., 2020) 使用纯变换器框架来提取视觉特征,其中图像被划分为 16 × 16 块,完全放弃卷积层。它表明基于转换器的架构可以在大规模数据集(例如 JFT-300M)中表现良好。之后,DeiT (Touvron et al., 2020) 仔细设计了训练策略和数据增强,以进一步提高小数据集(例如 ImageNet-1K)的性能。 DeepViT (Zhou et al., 2021) 和 CaiT (Touvron et al., 2021b) 考虑了网络加深时的优化问题,训练了一个更深的 Transformer 网络。 CrossViT (Chen et al., 2021) 使用两个视觉变换器结合了局部补丁和全局补丁。 CPVT (Chu et al., 2021b) 使用条件位置编码来有效地编码空间位置

3、THE AS-MLP ARCHITECTURE

3.1 OVERALL ARCHITECTURE

你可能感兴趣的:(深度学习,自然语言处理,深度学习,神经网络)