论文笔记 《Next-ViT: Next Generation Vision Transformer for Efficient Deployment inRealistic Industrial 》

论文笔记 《Next-ViT: Next Generation Vision Transformer for Efficient Deployment inRealistic Industrial 》_第1张图片

Abstract 

由于复杂的注意机制和模型设计,现有的大多数视觉变形器(ViTs)在现实工业部署场景中无法像卷积神经网络(CNNs)那样高效,如TensorRT和CoreML。这就提出了一个明显的挑战:视觉神经网络能否设计得像CNNs一样快,像ViTs一样强大?在这些工作中,我们提出了在现实工业场景中有效部署的下一代愿景变压器,即next - vit,它从延迟/精度权衡的角度主导了CNNs和vit。分别开发了下一个卷积块(Next Convolution Block, NCB)和下一个变压器块(Next Transformer Block, NTB),以部署友好的机制捕获局部和全局信息。然后,Next Hybrid Strategy (NHS)被设计成在一个高效的混合范式中堆叠NCB和NTB,这提高了各种下游任务的性能。大量实验表明,Next-ViT在各种视觉任务的延迟/精度权衡方面显著优于现有的CNNs、ViTs和CNN-Transformer混合架构。在TensorRT上,Next-ViT在COCO检测上超过ResNet 5.5 mAP(从40.4到45.9),在相似的延迟下,在ADE20K分割上超过7.7% mIoU(从38.8%到46.5%)。同时,其性能与CSWin相当,推理速度提高3.6倍。在CoreML上,Next-ViT在COCO检测上超过了effecentformer 4.6 mAP(从42.6到47.2),在相似的延迟下,在ADE20K分割上超过了3.5% mIoU(从45.1%到48.6%)。我们的代码和模型在https://github.com/bytedance/Next-ViT上公开

Introduction

主要就是介绍了CNN在视觉领域还是占据主导,但是相比较于Transformer在大数据集的精度上还是有所欠缺,不过Transformer在实际应用中相较于CNN速度太慢,主要原因是:MHSA多头自注意力的计算复杂度太高,和LN和GELU的低效,而且Transformer的模型设计也很复杂,导致频繁的访问内存和复制。之后许多人就对Transformer进行改进。

论文笔记 《Next-ViT: Next Generation Vision Transformer for Efficient Deployment inRealistic Industrial 》_第2张图片

本文的三个主要贡献:

1.设计了一种新的卷积模块(NCB),在NCB中包含了一种新的Attention框架下的针对通道作为输入的多头卷积注意力(MHCA)。

2.设计了一种新的Transformer模块(NTB)里面包含一个E-MHSA和MHCA和MLP。

3.在设计了两种模块下,新增了一种CNN和Transformer的混合策略。

4.通过实验验证了。

Overview

论文笔记 《Next-ViT: Next Generation Vision Transformer for Efficient Deployment inRealistic Industrial 》_第3张图片

 遵循金字塔结构 每个阶段配备一个patch Embedding用来降低空间分辨率,并且每一个阶段都有一系列卷积和Transformer。一共四个阶段,每个阶段都是NCB和NTB的结合,并且都是卷积在前,Transfomrmer在后。

NCB

Transformer的metaformer范式和基于注意力的token混合共同提供了优越性。

论文笔记 《Next-ViT: Next Generation Vision Transformer for Efficient Deployment inRealistic Industrial 》_第4张图片

论文笔记 《Next-ViT: Next Generation Vision Transformer for Efficient Deployment inRealistic Industrial 》_第5张图片

MHCA

z1,z2....是特征z在通道维度上划分为多头形式,这也使得在不同阶段通道数表的越来越多。

 Tm,Tn是输入特征中相邻的两个token。O代表内积

论文笔记 《Next-ViT: Next Generation Vision Transformer for Efficient Deployment inRealistic Industrial 》_第6张图片

NTB

Transformer可以捕获较好的全局信息,但是在局部信息上有所缺失,所以设计了E-MHSA来融合高频和低频信息。实验发现E-MHSA很容易受到通道数的影响。所以在E-MHSA之气通过点卷积

论文笔记 《Next-ViT: Next Generation Vision Transformer for Efficient Deployment inRealistic Industrial 》_第7张图片

论文笔记 《Next-ViT: Next Generation Vision Transformer for Efficient Deployment inRealistic Industrial 》_第8张图片

 K,V的Avg-pool就是针对空间维度进行降采样,以降低计算成本。可能这就是它高效的由来,再加上BN。

论文笔记 《Next-ViT: Next Generation Vision Transformer for Efficient Deployment inRealistic Industrial 》_第9张图片

论文笔记 《Next-ViT: Next Generation Vision Transformer for Efficient Deployment inRealistic Industrial 》_第10张图片

NHS 

就是混合策略

论文笔记 《Next-ViT: Next Generation Vision Transformer for Efficient Deployment inRealistic Industrial 》_第11张图片

论文笔记 《Next-ViT: Next Generation Vision Transformer for Efficient Deployment inRealistic Industrial 》_第12张图片

论文笔记 《Next-ViT: Next Generation Vision Transformer for Efficient Deployment inRealistic Industrial 》_第13张图片

 实验就不细说了,反正都是他的好,里面还有一些消融实验的讨论可以自行阅读论文。

论文笔记 《Next-ViT: Next Generation Vision Transformer for Efficient Deployment inRealistic Industrial 》_第14张图片

你可能感兴趣的:(transformer,深度学习,人工智能)