【第37篇】EdgeViTs: 在移动设备上使用Vision Transformers 的轻量级 CNN

文章目录

  • 摘要
  • 1 简介
  • 2 相关工作
  • 3 EdgeViTS
    • 3.1 概述
    • 3.2 局部-全局-局部瓶颈
    • 3.3 架构
  • 4 实验
    • 4.1 ImageNet-1K上的图像分类
    • 4.2 密集预测
    • 5 结论
  • 算法 1 EdgeViTs 构建块,类似 PyTorch 的代码

【第37篇】EdgeViTs: 在移动设备上使用Vision Transformers 的轻量级 CNN_第1张图片

摘要

基于自我注意的模型,例如视觉转换器 (ViT),已成为计算机视觉中卷积神经网络 (CNN) 的一种极具竞争力的架构替代方案。尽管越来越强大的变体具有越来越高的识别精度,但由于自我注意的二次复杂性,现有的 ViT 通常对计算和模型大小有要求。尽管先前 CNN 的几个成功的设计选择(例如,卷积和分层多级结构&

你可能感兴趣的:(高质量AI论文翻译,深度学习,人工智能,计算机视觉)