【读点论文】EfficientViT: Enhanced Linear Attention for High-Resolution Low-Computation将softmax注意力转变为线性注意力

EfficientViT: Enhanced Linear Attention for High-Resolution Low-Computation Visual Recognition

Abstract

  • 视觉transformer(ViT)在许多视觉任务中取得了显著的性能。然而,在针对高分辨率移动视觉应用时,ViT次于卷积神经网络(CNNs)。ViT的关键计算瓶颈是softmax注意模块,它的计算复杂度与输入分辨率是二次的。降低ViT在边缘设备上的部署成本至关重要。现有的方法(如Swin、PVT)将软最大注意限制在局部窗口内或降低键/值张量的分辨率以降低成本,牺牲了ViT在全局特征提取方面的核心优势。

  • 在这项工作中,本文提出了高效率的ViT架构,用于高分辨率低计算的视觉识别。本文提出用线性注意代替softmax注意,并用深度卷积增强其局部特征提取能力,而不是限制softmax注意。高效率vit在保持全局和局部特征提取能力的同时,享受线性计算复杂度。大量的COCO目标检测和城市景观语义分割实验证明了该方法的有效性。

  • 在COCO数据集上,efficiency entvit在4.4G mac上实现了42.6 AP,比efficientdet - d1多2.4 AP,而mac减少了27.9%。在cityscape上,efficiency entvit在19.1G mac上达到78.7 mIoU,比SegFormer高出2.5 mIoU,而所需的计算成本不到后者的1/3。在高通骁龙855 CPU上,efficiency entvit比efficiency entnet快3倍,同时实现更高的ImageNet精度。

Introduction

  • 视觉transformer(ViT)最近在各种计算机视觉任务中证明了巨大的成功,并受到了相当多的关注。与卷积神经网络(CNNs)相比,ViT具有更强的全局信息捕获能力和远程交互能力,表现出优于CNNs的准确性,特别是在扩大训练数据大小和模型大小时[An image is worth 16x16 words: Transformers for image recognition at scale,Coatnet]。

  • 尽管ViT在低分辨率和高计算领域取得了巨大成功,但在高分辨率和低计算场景下,ViT仍不如cnn。例如,下图(左)比较了COCO数据集上当前基于cnn和基于vit的一级检测器。基于vit的检测器(160G mac)和基于cnn的检测器(6G mac)之间的效率差距超过一个数量级。这阻碍了在边缘设备的实时高分辨率视觉应用程序上部署ViT

    • 【读点论文】EfficientViT: Enhanced Linear Attention for High-Resolution Low-Computation将softmax注意力转变为线性注意力_第1张图片

    • 左图:现有的基于vit的一级检测器在实时目标检测方面仍然不如当前基于cnn的一级检测器,需要的计算量多出一个数量级。本文引入了第一个基于vit的实时对象检测器来弥补这一差距。在COCO上,efficientvit的AP比efficientdet高3.8,而mac较低。与YoloX相比,efficient ViT节省67.2%的计算成本,同时提供更高的AP。

    • 中:随着输入分辨率的增加,计算成本呈二次增长,无法有效处理高分辨率的视觉应用。

    • 右图:高分辨率对图像分割很重要。当输入分辨率从1024x2048降低到512x1024时,MobileNetV2的mIoU减少12% (8.5 mIoU)。在不提高分辨率的情况下,只提高模型尺寸是无法缩小性能差距的。

  • ViT的根本计算瓶颈是softmax注意模块,其计算成本随输入分辨率的增加呈二次增长。例如,如上图(中)所示,随着输入分辨率的增加,vit- small[Pytorch image models. https://github.com/rwightman/ pytorch-image-models]的计算成本迅速显著大于ResNet-152的计算成本。

  • 解决这个问题的一个直接方法是降低输入分辨率。然而,高分辨率的视觉识别在许多现实世界的计算机视觉应用中是必不可少的,如自动驾驶,医疗图像处理等。当输入分辨率降低时,图像中的小物体和精细细节会消失,导致目标检测和语义分割性能显著下降。

  • 上图(右)显示了在cityscape数据集上不同输入分辨率和宽度乘法器下MobileNetV2的性能。例如,将输入分辨率从1024x2048降低到512x1024会使cityscape的性能降低12% (8.5 mIoU)。即使是3.6倍高的mac,只放大模型尺寸而不增加分辨率也无法弥补这一性能损失。

  • 除了降低分辨率外,另一种代表性的方法是限制softmax注意,方法是将其范围限制在固定大小的局部窗口内[Swin transformer,Swin transformer v2]或降低键/值张量的维数[Pyramid vision transformer,Segformer]。然而,它损害了ViT的非局部注意能力,降低了全局接受域(ViT最重要的优点),使得ViT与大内核cnn的区别更小[A convnet for the 2020s,Scaling up your kernels to 31x31: Revisiting large kernel design in cnns,Lite pose: Efficient architecture design for 2d human pose estimation]。

  • 本文介绍了一个有效的ViT体系结构,以解决这些挑战。发现没有必要坚持softmax注意力。本文建议用线性注意[Transformers are rnns: Fast autoregressive transformers with linear attention]代替softmax注意。

  • 线性注意的关键好处是,它保持了完整的 n 2 n^2 n2注意映射,就像softmax注意。同时,它利用矩阵乘法的联想特性,避免显式计算完整的注意映射,同时保持相同的功能。因此,它保持了softmax注意力的全局特征提取能力,且计算复杂度仅为线性。线性注意的另一个关键优点是它避免了softmax,这使得它在移动设备上更有效(下图左)。

    • 【读点论文】EfficientViT: Enhanced Linear Attention for High-Resolution Low-Computation将softmax注意力转变为线性注意力_第2张图片

    • 左图:线性注意比类似mac下的softmax注意快3.3-4.5倍,这是因为去掉了硬件效率不高的softmax功能。延迟是在Qualcomm Snapdragon 855 CPU和TensorFlow-Lite上测量的。本文增加线性注意的头部数量,以确保它具有与softmax注意相似的mac。

    • 中:然而,如果没有softmax注意中使用的非线性注意评分归一化,线性注意无法有效集中其注意分布,削弱了其局部特征提取能力。后文提供了可视化。

    • 右图:本文用深度卷积增强线性注意,以解决线性注意的局限性。深度卷积可以有效地捕捉局部特征,而线性注意可以专注于捕捉全局信息。增强的线性注意在保持线性注意的效率和简单性的同时,表现出在各种视觉任务上的强大表现(图4)。

  • 然而,直接应用线性注意也有缺点。以往的研究表明线性注意和softmax注意之间存在显著的性能差距(下图中间)。

    • 【读点论文】EfficientViT: Enhanced Linear Attention for High-Resolution Low-Computation将softmax注意力转变为线性注意力_第3张图片

    • 左:高通骁龙855上的精度和延迟权衡。效率vit比效率网快3倍,精度更高。中:ImageNet上softmax注意与线性注意的比较。在相同的计算条件下,本文观察到softmax注意与线性注意之间存在显著的精度差距。而深度卷积增强模型后,线性注意的精度有明显提高。

    • 相比之下,softmax注意的精度变化不大。在相同MAC约束下,增强线性注意比增强软最大注意提高了0.3%的精度。右图:与增强的softmax注意相比,增强的线性注意硬件效率更高,随着分辨率的增加,延迟增长更慢。

  • 深入研究线性注意和softmax注意的详细公式,一个关键的区别是线性注意缺乏非线性注意评分归一化方案。这使得线性注意无法有效地将注意力分布集中在局部模式产生的高注意分数上,从而削弱了其局部特征提取能力。

  • 本文认为这是线性注意的主要限制,使其性能不如softmax注意。本文提出了一个简单而有效的解决方案来解决这一限制,同时保持线性注意在低复杂度和低硬件延迟方面的优势。具体来说,本文建议通过在每个FFN层中插入额外的深度卷积来增强线性注意。因此,本文不需要依赖线性注意进行局部特征提取,避免了线性注意在捕捉局部特征方面的不足,并利用了线性注意在捕捉全局特征方面的优势

  • 本文广泛评估了efficient vit在低计算预算下对各种视觉任务的有效性,包括COCO对象检测、城市景观语义分割和ImageNet分类。本文想要突出高效的主干设计,所以没有包括任何正交的附加技术(例如,知识蒸馏,神经架构搜索)。尽管如此,在COCO val2017上,efficientvit的AP比efficientdet - d1高2.4倍,同时节省27.9%的计算成本。在cityscape上,efficientvit提供了比SegFormer高2.5个mIoU,同时降低了69.6%的计算成本。在ImageNet上,efficientvit在584M mac上实现了79.7%的top1精度,优于efficientnet - b1的精度,同时节省了16.6%的计算成本。

  • 与现有的以减少参数大小或mac为目标的移动ViT模型[Mobile-former,Mobilevit,NASVit]不同,本文的目标是减少移动设备上的延迟。本文的模型不涉及复杂的依赖或硬件低效操作。因此,本文减少的计算成本可以很容易地转化为移动设备上的延迟减少。

  • 在高通骁龙855 CPU上,efficient vit运行速度比efficientnet快3倍,同时提供更高的ImageNet精度。本文的代码和预训练的模型将在出版后向公众发布。希望本研究能对移动视觉ViT技术的发展有所帮助。本文的贡献总结如下:

    • 本文是第一个研究使用ViT架构的高分辨率低计算视觉识别。本文对ViT的瓶颈进行了深入分析,并表明线性注意是softmax注意的一个强有力的替代方案,而且更有利于硬件。它提醒本文重新思考ViT中softmax注意力的必要性。

    • 针对线性注意在局部特征提取中的局限性,提出了增强线性注意的方法。增强的线性注意在保持低复杂度和高硬件效率的同时,显示了强大的视觉特征提取能力。

    • 本文基于增强的线性注意力构建了efficient vit。在三个代表性的视觉任务(COCO对象检测,城市景观语义分割,ImageNet分类)上,在没有附加技术(例如,神经架构搜索和知识精蒸)的情况下,与最先进的方法(例如,efficiendet, SegFormer, efficientnet)相比,efficientvit提供了显著的改进。据本文所知,在移动对象检测方面,efficientvit是第一个基于vit的模型,其性能优于最先进的基于cnn的模型。

Related Work

Vision Transformer .

  • 受Transformer在自然语言处理(NLP)方面的巨大成功的启发,Vision Transformer最近引起了人们的极大兴趣,并已被应用到各种计算机视觉任务中,包括图像分类,目标检测[End-to-end object detection with transformers,Deformable {detr}: Deformable transformers for end-to-end object detection,Exploring plain vision transformer backbones for object detection],语义分割,姿态估计等。

  • 与cnn不同的是,ViT依赖于softmax注意力模块,该模块直接建模特征图中每对标记之间的交互,以聚合空间信息。因此,ViT比cnn能更好地捕获远程交互和全局信息。然而,这并不是免费的。ViT在输入分辨率上比cnn具有更高的计算复杂度,这使得在高分辨率视觉应用中使用ViT在计算上是禁止的。

  • 解决这一挑战的一种代表性方法是将softmax注意力限制在固定大小(如7x7)的局部窗口内[Swin transformer,Swin transformer v2],将计算复杂度从二次型降低到线性型。另一种具有代表性的方法[Pyramid vision transformer,Segformer]是降低键/值张量的分辨率,这可以通过一个固定因素降低成本。

  • 除了这两种具有代表性的方法外,[Multi-scale vision longformer]采用结构化稀疏softmax注意,[Co-scale conv-attentional image transformers]通过将softmax注意分解成两个函数来逼近softmax注意,以降低成本。虽然这些模型可以处理高分辨率图像,但它们牺牲了ViT在全局特征提取方面的核心优势。此外,它们在注意模块中仍然依赖于softmax,不适合移动视觉。

  • 本文在目标检测(表1)、语义分割(表2)和图像分类(表3)方面的大量实验表明,本文的模型在高分辨率低计算的视觉识别方面比这些模型更有效

Efficient Vision Transformer.

  • 提高ViT的效率对于在资源受限的边缘平台上部署ViT至关重要,如手机、物联网设备等。尽管ViT在高计算区域提供了令人印象深刻的性能,但在针对低计算区域时,它通常不如以前高效的cnn[Efficientnet, mobilenetv3,Once for all: Train one network and specialize it for efficient deployment]。为了缩小差距,MobileViT建议结合CNN和ViT的长处,使用transformer将卷积中的局部处理替换为全局处理。MobileFormer提出了在MobileNet和Transformer之间建立双向桥以实现特征融合的并行化。NASViT提出利用神经架构搜索来搜索高效的ViT架构。

  • 这些模型在ImageNet上提供了极具竞争力的准确性和效率的权衡。然而,它们并不适合高分辨率的视觉任务,因为它们仍然依赖于softmax注意力。

Method

  • 在本节中,本文首先回顾了自然语言处理中的线性注意,并讨论了它的优缺点。接下来,本文介绍了一个简单而有效的解决方案来克服线性注意的局限性。最后,给出了efficient vit的详细架构。

Review of Linear Attention in NLP

  • 给定输入 x ∈ R N × f x∈\Bbb R^{N×f} xRN×f, softmax注意的广义形式可写成:

  • O i = ∑ j = 1 N S i m ( Q i , K j ) ∑ j = 1 N S i m ( Q i , K j ) V j w h e r e   Q = x W Q , K = x W K , V = w W V , ( 1 ) O_i=\sum^N_{j=1}\frac{Sim(Q_i,K_j)}{\sum^N_{j=1}Sim(Q_i,K_j)}V_j\\ where~Q=xW_Q,K=xW_K,V=wW_V,(1) Oi=j=1Nj=1NSim(Qi,Kj)Sim(Qi,Kj)Vjwhere Q=xWQ,K=xWK,V=wWV,(1)

  • W Q / W K / W V ∈ R f × d W_Q/W_K/W_V∈R^{f×d} WQ/WK/WVRf×d为可学习投影矩阵。Oi表示矩阵O的第i行。Sim(·,·)为相似度函数。当使用 S i m ( Q , K ) = e x p ( Q K T d ) Sim(Q, K) = exp(\frac{QK^T}{\sqrt{d}}) Sim(Q,K)=exp(d QKT)时,Eq.(1)变成了softmax注意力。

  • 虽然softmax注意力在视觉和NLP方面非常成功,但它并不是唯一的选择。例如,线性注意提出了如下相似度函数:

  • S i m ( Q , K ) = ϕ ( Q ) ϕ ( K ) T , ( 2 ) Sim(Q,K)=\phi(Q)\phi(K)^T,(2) Sim(Q,K)=ϕ(Q)ϕ(K)T,(2)

  • 其中,φ(·)为核函数。在本工作中,本文选择了ReLU作为内核函数,因为它对硬件来说是友好的。当Sim(Q, K) = φ(Q)φ(K)T时,式(1)可改写为:

    • O i = ∑ O_i=\sum Oi=
  • 线性注意的一个关键优点是,它允许利用矩阵乘法的结合律,在不改变功能的情况下,将计算复杂度从二次型降低到线性型:

    • O i = ∑ ϕ , ( 4 ) O_i=\frac{\sum}{\phi},(4) Oi=ϕ,(4)

    • 根据式(4),只需要计算一次 ( ∑ j = 1 N ϕ ( K j ) T V j ) ∈ R d × d (\sum^N_{j=1}\phi(K_j)^TV_j)\in\Bbb R^{d×d} (j=1Nϕ(Kj)TVj)Rd×d ( ∑ j = 1 N φ ( K j ) T ) R d × 1 (\sum^N_{j=1}φ(K_j)^T)\Bbb R^{d×1} (j=1Nφ(Kj)T)Rd×1,就可以在每次查询中重用它们,因此只需要O(N)计算代价和O(N)内存。

  • 除了线性复杂度之外,线性注意的另一个关键优点是它不涉及注意模块中的softmax。Softmax在硬件上效率非常低。避免它可以显著减少延迟。例如,下图(左)显示了softmax注意和线性注意之间的延迟比较。在类似的mac上,线性注意力比移动设备上的softmax注意力要快得多

    • 【读点论文】EfficientViT: Enhanced Linear Attention for High-Resolution Low-Computation将softmax注意力转变为线性注意力_第4张图片

EfficientViT

  • Enhancing Linear Attention with Depthwise Convolution

    • 虽然线性注意在计算复杂度和硬件延迟方面优于softmax注意,但线性注意也有局限性。以往的研究[Luna: Linear unified nested attention,Random feature attention,Combiner: Full attention transformer with sparse computation cost,cosformer: Rethinking softmax in attention]表明,在NLP中线性注意和softmax注意之间通常存在显著的性能差距。对于视觉任务,之前的研究[Visual correspondence hallucination,Quadtree attention for vision transformers]也表明线性注意不如softmax注意。在本文的实验中,本文也有类似的观察结果(图中)。

    • 【读点论文】EfficientViT: Enhanced Linear Attention for High-Resolution Low-Computation将softmax注意力转变为线性注意力_第5张图片

    • 本文对这一假设提出了质疑,认为线性注意的低劣性能主要是由于局部特征提取能力的丧失。如果没有在softmax注意中使用的非线性评分归一化,线性注意很难像softmax注意那样集中其注意分布。下图(中间)提供了这种差异的示例。

    • 【读点论文】EfficientViT: Enhanced Linear Attention for High-Resolution Low-Computation将softmax注意力转变为线性注意力_第6张图片

    • 在相同的原始注意力得分下,使用softmax比不使用softmax更能集中注意力。因此,线性注意不能有效地聚焦于局部模式产生的高注意分数(下图),削弱了其局部特征提取能力。

    • 【读点论文】EfficientViT: Enhanced Linear Attention for High-Resolution Low-Computation将softmax注意力转变为线性注意力_第7张图片

    • 注意图的可视化显示了线性注意的局限性。通过非线性注意归一化,softmax注意可以产生清晰的注意分布,如中间行所示。相比之下,线性注意的分布相对平滑,使得线性注意在捕捉局部细节方面的能力较弱,造成了显著的精度损失。本文通过深度卷积增强线性注意来解决这一限制,并有效提高了准确性。

    • 介绍了一个简单而有效的解决方案来解决这个限制。本文的想法是用卷积增强线性注意,这在局部特征提取中是非常有效的。这样,本文就不需要依赖于线性注意来捕捉局部特征,而可以专注于全局特征提取。具体来说,为了保持线性注意的效率和简单性,本文建议在每个FFN层中插入一个深度卷积,这样计算开销很小,同时极大地提高了线性注意的局部特征提取能力

  • Building Block

    • 下图(右)展示了增强线性注意的详细架构,它包括一个线性注意层和一个FFN层。如第3.2.1节所述,在FFN的中间插入深度卷积。

    • 【读点论文】EfficientViT: Enhanced Linear Attention for High-Resolution Low-Computation将softmax注意力转变为线性注意力_第8张图片

    • 与之前的方法[Swin transformer,Coatnet]不同,本文在efficientvit中没有使用相对位置偏差。相对位置偏差虽然可以改善模型的性能,但它使模型容易受到分辨率变化[Segformer]的影响。多分辨率训练或新分辨率下的测试在检测和分割中很常见。去除相对位置偏差使高效率vit对输入分辨率更加灵活。

    • 与之前低计算CNNs[Mobilenetv2,mobilenetv3]的设计不同,本文为下采样块添加了额外的下采样快捷方式。每个下采样快捷方式由一个平均池和一个1x1卷积组成。在本文的实验中,这些额外的下采样快捷方式可以稳定训练效率,提高性能。

  • Macro Architecture

    • 下图说明了efficientvit的宏观体系结构。它由输入 stem 和4级组成。最近的研究[Coatnet,Levit,Early convolutions help transformers see better]表明在早期阶段使用卷积对ViT更好。本文遵循这个设计,在第三阶段开始使用增强的线性注意。

    • 【读点论文】EfficientViT: Enhanced Linear Attention for High-Resolution Low-Computation将softmax注意力转变为线性注意力_第9张图片

    • EfficientViT宏观架构。本文从第三阶段开始使用增强的线性注意。P2、P3和P4形成了一个金字塔特征图,用于检测和分割。P4用于分类。

    • 为了突出高效的主干本身,本文对MBConv和FFN使用相同的扩展比e (e = 4)保持超参数简单,对所有深度卷积使用相同的内核大小k(除了输入stem),对所有层使用相同的激活函数(hard swish)。

    • P2、P3和P4表示阶段2、3和4的输出,形成了特征图的金字塔。本文按照惯例将P2、P3和P4送至检测头。本文使用YoloX进行检测。为了分割,本文融合了P2和P4。融合特征被馈送到一个轻量级头,包括几个卷积层,遵循Fast-SCNN。为了分类,本文将P4输入到轻量级头部,与MobileNetV3相同。

Experiments

Setups

  • 数据集。本文在三个代表性的视觉数据集上评估了effecentvit,包括COCO对象检测,城市景观语义分割和ImageNet分类。

  • 模型架构。本文将模型构建为在224x224输入分辨率下拥有约400M mac。宏观体系结构如上图所示。详细配置如下:

    • 在这里插入图片描述
  • 在线性注意中,键/值维度为16,而在3/4阶段中正面数为12/24。对于归一化,本文遵循[coatnet]的设计,对早期阶段(输入stem、阶段1和阶段2)使用批归一化,对后期阶段(阶段3和阶段4)使用层归一化。在下面的小节中,本文将该模型称为effecentvit- base。

  • 训练的细节。本文使用AdamW来训练本文的模型。为了简单起见,本文不使用与主干设计正交的附加技术,如知识蒸馏、神经架构搜索等。

  • 对于COCO对象检测,本文训练300个epoch的模型,批处理大小为192。本文使用ImageNet上预训练的权值来初始化主干,而检测头是随机初始化的。对于数据增强,本文使用mixup中建议的设置,包括颜色抖动、随机展开、随机裁剪和随机水平翻转。还采用检测mixup来防止过拟合。

  • 对于城市景观语义分割,本文训练485个epoch的模型,批次大小为16。与检测相同,本文使用ImageNet上预训练的权重来初始化主干,同时随机初始化头部。数据增强包括0.5-2.0比率的随机缩放、随机水平翻转和随机裁剪。

  • 对于ImageNet分类,本文训练450个epoch的模型,批次大小为2048。本文使用RandAugment, Mixup , Cutmix , StochasticDepth来避免过拟合。本文还使用因子为0.1的标签平滑。

COCO Object Detection

  • 表1和下图(左)报告了efficientvit和最先进的一级目标探测器之间的比较。与以前的基于vit的对象检测器相比,efficientvit在性能和效率上都有显著的改进。具体来说,efficientvit需要比MobileFormer少38.2倍的mac,提供4.6倍的AP

    • 【读点论文】EfficientViT: Enhanced Linear Attention for High-Resolution Low-Computation将softmax注意力转变为线性注意力_第10张图片
  • 与最先进的基于cnn的物体探测器(如YoloX , efficientdet , PP-PicoDet-L)相比,efficientvit也提供了显著的改进。具体来说,efficientvitdet -r608在PP-PicoDet-L的基础上提供了1.7 AP改进,需要的mac数量略少。efficient - vitt - dt -r416比efficiency - dt - d0提高了3.8 AP,同时减少了1.2×的计算成本。

  • 此外,efficientdet和PP-PicoDet-L通过与主干设计正交的额外技术(例如,神经结构搜索、复合缩放等)进行了优化。相比之下,efficientvit没有利用这些技术,因此仍有很大的改进空间。

Cityscapes Semantic Segmentation

  • 下表提供了efficientvit和城市景观的最新分割模型之间的比较。得益于高效率,EfficientViT可以直接在高分辨率图像(1024x2048)上运行推理,而不是像在SegFormer中那样使用1024x1024滑动窗口。这将带来显著的性能改进。

  • 具体而言,与SegFormer相比,efficientvit的mIoU提高了2.5个,计算成本降低了3.3×。还缩小了effecentvit的输入分辨率,以获得不同mac约束下的多个模型。权衡曲线如下图(中间)所示。与SegFormer相比,高效率vit需要6.9×少的mac才能实现类似的mIoU。

    • 【读点论文】EfficientViT: Enhanced Linear Attention for High-Resolution Low-Computation将softmax注意力转变为线性注意力_第11张图片

ImageNet Classification

  • 上图(右)展示了effecentvit和ImageNet上最先进的分类模型之间的比较。NASViT和LeViT不包括在下表中,因为它们使用知识蒸馏和非常长的训练计划(例如,1000 epoch)进行训练。

    • 【读点论文】EfficientViT: Enhanced Linear Attention for High-Resolution Low-Computation将softmax注意力转变为线性注意力_第12张图片

    • ImageNet分类结果。’ r224 ‘表示输入分辨率为224x224。’ w1.2 '表示宽度倍增器为1.2。‡:结果来自[Mobile-former]。虽然effecentvit不是专门为图像分类设计的,但它在ImageNet上仍然具有很强的竞争力。在584M mac上,efficientvit的ImageNet top1精度达到了79.7%,比efficientnet - b1提高了0.6%,同时节省了1.2×的计算成本。结果表明,efficientvit在视觉特征学习方面具有很强的能力。

  • 由于强大的视觉特征提取能力,尽管efficientvit不是专门为图像分类设计的,但它提供了极具竞争力的性能。effecentvit在移动设备上是快速和实用的。与efficientnet相比,efficientvit速度快3倍,ImageNet精度更高。与MobileNetV3相比,efficientvit在保持相似延迟的情况下,提高了1.1%的精度。延迟是在使用Tensorflow-Lite的Qualcomm Snapdragon 855 CPU上测量的,批处理大小为1。

  • 与MobileFormer相比,efficientvit提供了0.9%更高的ImageNet top1精度和略高的mac。值得注意的是,efficientvit不像MobileFormer那样涉及复杂的双分支设计,这使得efficientvit在移动端部署时更加友好。与MobileNetV3-Large相比,efficientvit提供了1.1%的ImageNet top1精度,同时需要更少的mac。与efficientnet - b1相比,efficientvit的ImageNet top1精度提高0.6%,计算成本降低1.2×。

Analysis and Discussion

  • Visualization.

    • 在上文可视化图中,在ImageNet上可视化了softmax注意和线性注意的注意映射。输入分辨率为224x224。如果没有非线性注意归一化方案,线性注意不能产生像softmax注意那样的集中注意分布。线性注意在捕捉局部细节方面比softmax注意弱。
  • Ablation Study.

    • 本文在研究了增强线性注意模块的有效性。用ImageNet上的随机初始化训练180个epoch的模型。在efficientvit - base中,将线性注意替换为softmax注意,建立了softmax注意模型,其他模块保持不变。

    • 本文将softmax注意力的键/值维度减少到8,如[NASVit]中所建议的。还调整了头部的数量,以确保softmax注意具有与线性注意相似的mac。此外,本文增加了普通注意模型的宽度倍增器[Mobilenetv2],以确保它们具有与增强注意模型相似的mac。

    • 结合以往的研究[Luna: Linear unified nested attention,Random feature attention,Visual correspondence hallucination],本文发现原始的线性注意显著低于原始的softmax注意。相比之下,增强的线性注意优于增强的softmax注意0.3%的ImageNet top1精度,同时具有较低的输入分辨率复杂度,在移动设备上更高效。说明了提高线性注意的局部特征提取能力的重要性。

Conclusion

  • 本文提出了efficientvit用于高分辨率低计算的视觉识别。本文的研究表明,对于硬件友好的视觉识别,线性注意是softmax注意的一个强有力的替代方案。然而,直接应用线性注意不能捕获局部信息。在不牺牲其优点的情况下,用深度卷积增强它可以有效地解决这一局限性。在三个代表性的视觉任务(COCO, Cityscapes, ImageNet)上的大量实验证明了efficientvit的有效性,显著优于最先进的模型。

  • Limitations, Future Work, and Social Impact.

    • 虽然本文提出的efficientvit为高分辨率低计算视觉提供了强大的性能,但还没有研究本文的研究在高计算场景下是否仍然有效。未来的工作将扩大efficientvit来研究这个问题。在负面的社会影响方面,本文的研究涉及到GPU资源来训练模型,这将导致二氧化碳的排放。
      ImageNet)上的大量实验证明了efficientvit的有效性,显著优于最先进的模型。

你可能感兴趣的:(论文笔记)