#今日论文推荐# Transformer 落地出现 | Next-ViT实现工业TensorRT实时落地,超越ResNet、CSWin

#今日论文推荐# Transformer 落地出现 | Next-ViT实现工业TensorRT实时落地,超越ResNet、CSWin

由于复杂的注意力机制和模型设计,大多数现有的 ViTs 在现实的工业部署场景中不能像 CNNs 那样高效地执行,例如。TensorRT 和 CoreML
这带来了一个明显的挑战:视觉神经网络能否设计为与 CNN 一样快的推理和与 ViT 一样强大的性能?
最近很多工作试图设计 CNN-Transformer 混合架构来解决这个问题,但这些工作的整体性能远不能令人满意。为了结束这些,本文作者提出了在现实工业场景中有效部署的next generation vision Transformer,即 Next-ViT,从延迟/准确性权衡的角度来看,它在 CNN 和 ViT 中均占主导地位。
在这项工作中,分别开发了Next Convolution BlockNCB)和Next Transformer BlockNTB),以通过部署友好的机制捕获局部和全局信息。然后,Next Hybrid Strategy (NHS) 旨在以高效的混合范式堆叠 NCB 和 NTB,从而提高各种下游任务的性能。
大量实验表明,在跨各种视觉任务的延迟/准确性权衡方面,Next-ViT 显著优于现有的 CNNViT 和 CNN-Transformer 混合架构。在 TensorRT 上,Next-ViT 在 COCO 检测上超过 ResNet 5.4 mAP(从 40.4 到 45.8),在 ADE20K 分割上超过 8.2% mIoU(从 38.8% 到 47.0%),其推理延迟相差无几。同时,在与 CSWin 相当的性能,同时推理速度提高了 3.6 倍。在 CoreML 上,Next-ViT 在 COCO 检测上超过 EfficientFormer 4.6 mAP(从 42.6 到 47.2),在 ADE20K 分割上超过 3.5% mIoU(从 45.2% 到 48.7%)。

近年来 ViTs 在业界和学术界受到了越来越多的关注,并在图像分类、目标检测、语义分割等各种计算机视觉任务中取得了很大的成功。然而,从现实世界部署的角度来看,cnn仍然主导着视觉任务,因为vit通常比经典的cnn要慢得多,例如ResNets。包括多头自注意力(MHSA)机制其复杂度与Token长度呈二次关系、不可融合的LayerNormGELU层、复杂模型设计导致频繁的内存访问和复制等因素限制了ViTs模型的推理速度。

许多工作都在努力将 vit 从高延迟的困境中解放出来。例如,Swin 和 PVT 试图设计更有效的空间注意力机制,以缓解 MHSA 二次增加的计算复杂度。其他的工作也在考虑结合有效的卷积块和强大的Transformer Block来设计CNN-Transformer混合架构,以获得在精度和延迟之间更好的权衡。巧合的是,几乎所有现有的混合架构都在浅层阶段采用卷积块,在最后几个阶段只采用堆栈Transformer Block。然而,作者观察到,这种混合策略可能会地导致下游任务(例如分割和检测)的性能饱和。此外,作者还发现,在现有的工作中,卷积块和Transformer Block都不能同时具有效率和性能的特征。虽然与 vit 相比,精度-延迟的权衡得到了改善,但现有的混合架构的整体性能仍远远不够令人满意。

为了解决上述问题,这项工作开发了3个重要组件来设计高效的视觉 Transformer 网络。

首先,介绍了 Next Convolution Block(NCB),NCB擅长使用新颖的部署友好的多头卷积注意力 (MHCA) 来捕获视觉数据中的短期依赖信息。

其次,构建了 Next Transformer Block(NTB),NTB 不仅是捕获长期依赖信息的专家,而且还可以作为轻量级的高低频信号混合器来增强建模能力。

最后,设计了 Next Hybrid Strategy (NHS),在每个阶段以一种新颖的混合范式堆叠 NCB 和 NTB,大大降低了 Transformer 块的比例,并在各种下游任务中最大程度的保留了 Vision Transformer 网络的高精度。

基于上述方法提出了用于现实工业部署场景的next generation vision Transformer(简称为Next-ViT)。在本文中,为了提供一个公平的比较,作者提供了一个观点,将特定硬件上的延迟视为直接的效率反馈。TensorRT 和 CoreML 分别代表了服务器端和移动设备的通用和易于部署的解决方案,有助于提供令人信服的面向硬件的性能指导。通过这种直接和准确的指导,重新绘制了图1中几个现有竞争模型的准确性和延迟权衡图。如图1(a)(d)所示,Next-ViTImageNet-1K分类任务上实现了最佳的延迟/准确性权衡。更重要的是,Next-ViT在下游任务上显示出了更显著的延迟/准确性权衡优势。

论文题目:Next-ViT: Next Generation Vision Transformer for Efficient Deployment in Realistic Industrial Scenarios
详细解读:https://www.aminer.cn/research_report/62cfc7d87cb68b460feaf753icon-default.png?t=M666https://www.aminer.cn/research_report/62cfc7d87cb68b460feaf753
AMiner链接:https://www.aminer.cn/?f=cs

你可能感兴趣的:(深度学习,深度学习,机器学习,人工智能)