RepViT:从ViT视角重新审视移动CNN

摘要

https://arxiv.org/pdf/2307.09283.pdf
近年来,与轻量级卷积神经网络(CNN)相比,轻量级视觉Transformers(ViTs)在资源受限的移动设备上表现出了更高的性能和更低的延迟。这种改进通常归功于多头自注意模块,它使模型能够学习全局表示。然而,轻量级VIT和轻量级CNN之间的架构差异还没有得到充分的研究。在这项研究中,我们重新审视了标准轻量级CNN的高效设计,并强调了它们在移动设备上的潜力。我们通过整合轻量级ViTs的有效架构选择,逐步增强了一个标准轻量级CNN(特别是MobileNetV3)的移动友好性。这最终形成了一个新的纯轻量级CNN系列,即RepViT。大量实验表明,RepViT在各种视觉任务中比现有的最先进轻量级ViTs表现更出色,并具有有利的延迟。在ImageNet上,RepViT使用近1ms的延迟实现了超过80%的最高精度,这是我们所知道的最轻量级的模型首次实现这一壮举。我们的最大模型RepViT-M3获得了81.4%的精度和仅1.3ms的延迟。代码和训练模型可在https://github.com/jameslahm/RepViT上获取。

1、简介

针对轻量级模型的研究一直是计算机视觉任务的重点,目标是实现卓越的模型性能,同时降低计算成本。这对于资源有限的移动设备尤为重要,使得视觉模型可以在边缘进行部署。在过去的十年中,研究人员主要关注轻量级卷积神经网络(CNNs)的设计,并取得了重大进展。提出了许多有效的设计原则,包括可分离卷积[20],倒残差瓶颈[43],通道洗牌[34,63],和结构重参数化[11],从而产生了代表性的模型,如MobileNets [19,20,43],ShuffleNets [34,63]&

你可能感兴趣的:(高质量AI论文翻译,transformer,深度学习,人工智能,计算机视觉,图像处理)