MOBILEVITV3: MOBILE-FRIENDLY VISION TRANS- FORMER WITH SIMPLE AND EFFECTIVE FUSION OF LOCAL, GLOBAL

paper链接: https://arxiv.org/abs/2209.15159
code链接

MOBILEVITV3: MOBILE-FRIENDLY VISION TRANS- FORMER WITH SIMPLE AND EFFECTIVE FUSION OF LOCAL, GLOBAL

  • (一)、引言
  • (二)、实现细节
  • (三)、模型构建块
  • (四)、实验
    • (一)、分类
    • (二)、与vits的比较
    • (三)、语义分割
    • (四)、检测
    • (五)、消融实验

(一)、引言

虽然mobilevit-v1有助于实现最先进的竞争结果,但mobilevit-v1块内部的融合块创建了扩展挑战,并具有复杂的学习任务。本文对融合块进行简单有效的更改,以创建mobilevit-v3块,这解决了扩展问题并简化了学习任务。提出的用于创建MobileViTv3-XXS、XS和S模型的MobileViTv1在ImageNet-1k、ADE20K、COCO和PascalVOC2012数据集上的性能优于MobileViT-v1。最近发布的MobileViT-v2架构去掉了融合块,并使用线性复杂的transformer来实现比MobileViT-v1更好的性能。
最近,视觉transformer(ViTs)已经成为CNN在视觉任务中的强大替代品。CNN由于其架构设计,与局部相邻像素/特征相互作用,生成嵌入局部信息的特征图。相比之下,ViTs中的自注意机制与图像/特征映射的各个部分相互作用,产生嵌入全局信息的特征。这已被证明可以产生与CNN相当的结果,但需要大量的预训练数据和预先数据增强。此外,这种全局处理以大参数和flop为代价,以匹配ViT及其不同版本(如DeiT、SwinT、 MViT 、Focal-ViT、 PVT、 T2T-ViT、 XCiT )中所见的CNN性能。而且VIT存在对优化器选择、学习率、权值衰减和收敛速度慢等超参数高度敏感的问题。
最近许多工作在ViT架构中引入了卷积层来形成混合网络,以提高性能,实现样本效率,并使模型在参数和flop方面更加高效,如 MobileViTv1, MobileViTv2, CMT ,CvT ,PVTv2,ResT, MobileFormer,CPVT,MiniViT,CoAtNet, CoaT。
其中许多模型在ImageNet-1K上的性能(包括参数和flop)如下图所示。在这些模型中,只有MobileViTs和MobileFormer是专门为移动设备等资源受限的环境设计的。与其他混合网络相比,这两种模型具有更少的参数和FLOPs,从而实现了具有竞争力的性能。尽管这些小型混合模型对于移动设备上的视觉任务至关重要,但在这一领域的研究很少。
MOBILEVITV3: MOBILE-FRIENDLY VISION TRANS- FORMER WITH SIMPLE AND EFFECTIVE FUSION OF LOCAL, GLOBAL_第1张图片
本文提出了简单有效的方法来融合输入、局部(CNN)和全局(ViT)特征,从而导致Imagenet-1K、ADE20k、PascalVOC和COCO数据集的显著性能改进。
对MobileViTv1块进行四个主要更改(对MobileViTv2块进行三更改),如下图所示。融合块中有三个变化:首先,将3x3卷积层替换为1x1卷积层。其次,将局部表示块和全局表示块的特征融合在一起,而不是将输入表示块和全局表示块融合在一起。第三步,在融合块中加入输入特征,作为生成MobileViT块输出前的最后一步。第四个变化是在局部表示块,将普通的3x3卷积层替换为深度3x3卷积层。这些变化导致MobileViTv1块的参数和FLOPs减少,并允许缩放(增加模型宽度)创建新的MobileViTv3-S, XS和XXS架构。
MOBILEVITV3: MOBILE-FRIENDLY VISION TRANS- FORMER WITH SIMPLE AND EFFECTIVE FUSION OF LOCAL, GLOBAL_第2张图片

(二)、实现细节

**将融合块中的3x3卷积层替换为1x1卷积层:**在融合中替换3x3卷积层有两个主要动机。首先,融合局部和全局特征,独立于特征图中的其他位置,以简化融合块的学习任务。从概念上讲,3x3卷积层是融合输入特征、全局特征,以及其他位置的输入特征和感受野中的全局特征,这是一个复杂的任务。融合块的目标可以简化,允许它融合输入和全局特征,独立于特征图中的其他位置。为此,在融合中使用1x1卷积层而不是3x3卷积层。其次,是消除了MobileViTv1架构扩展的主要限制之一。将MobileViTv1从XXS扩展到S是通过改变网络宽度并保持深度不变来实现的。改变MobileViTv1块的宽度(输入和输出通道的数量)会导致大量增加参数和flop的数量。例如,如果MobileViTv1块中的输入和输出通道增加了一倍(2x),则融合块内部到3x3卷积层的输入通道数量增加了4倍,输出通道增加了2倍,因为到3x3卷积层的输入是输入和全局表示块特征的拼接。这将导致MobileViTv1块的参数和FLOPs大量增加。使用1x1卷积层避免了缩放时参数和flop的大幅增加。
**局部和全局特征融合:**在融合层中,来自局部和全局表示块的特征被连接到提出的MobileViTv3块中,而不是输入和全局表示特征。这是因为与输入特征相比,局部表示特征与全局表示特征更密切相关。局部表示块的输出通道略高于输入特征中的通道。这导致输入特征映射到融合块的1x1卷积层的数量增加,但由于3x3卷积层变为1x1卷积层,参数和flop的总数明显少于基线MobileViTv1块。
**融合输入特征:**在融合块的1x1卷积层输出中加入输入特征。ResNet和DenseNet等模型中的残差连接已被证明有助于架构中更深层次的优化。通过将输入特征添加到融合块的输出中,在新的MobileViTv3架构中引入了这种残差连接。该残差连接贡献0.6%的精度增益。
**局部表示块的深度卷积层:**为了进一步减少参数,将局部表示块的3x3卷积层替换为深度3x3卷积层。

(三)、模型构建块

MOBILEVITV3: MOBILE-FRIENDLY VISION TRANS- FORMER WITH SIMPLE AND EFFECTIVE FUSION OF LOCAL, GLOBAL_第3张图片

(四)、实验

(一)、分类

MOBILEVITV3: MOBILE-FRIENDLY VISION TRANS- FORMER WITH SIMPLE AND EFFECTIVE FUSION OF LOCAL, GLOBAL_第4张图片

(二)、与vits的比较

MOBILEVITV3: MOBILE-FRIENDLY VISION TRANS- FORMER WITH SIMPLE AND EFFECTIVE FUSION OF LOCAL, GLOBAL_第5张图片

(三)、语义分割

MOBILEVITV3: MOBILE-FRIENDLY VISION TRANS- FORMER WITH SIMPLE AND EFFECTIVE FUSION OF LOCAL, GLOBAL_第6张图片

(四)、检测

MOBILEVITV3: MOBILE-FRIENDLY VISION TRANS- FORMER WITH SIMPLE AND EFFECTIVE FUSION OF LOCAL, GLOBAL_第7张图片

(五)、消融实验

MOBILEVITV3: MOBILE-FRIENDLY VISION TRANS- FORMER WITH SIMPLE AND EFFECTIVE FUSION OF LOCAL, GLOBAL_第8张图片
在100个epoch下
MOBILEVITV3: MOBILE-FRIENDLY VISION TRANS- FORMER WITH SIMPLE AND EFFECTIVE FUSION OF LOCAL, GLOBAL_第9张图片
在300个epoch下
MOBILEVITV3: MOBILE-FRIENDLY VISION TRANS- FORMER WITH SIMPLE AND EFFECTIVE FUSION OF LOCAL, GLOBAL_第10张图片

你可能感兴趣的:(Transformer,深度学习,神经网络,人工智能)