【第76篇】Conv2Former:用于视觉识别的简单 Transformer-Style的ConvNet

文章目录

  • 摘要
  • 1、简介
  • 2、相关工作
    • 2.1、卷积神经网络
    • 2.2、Vision Transformers
    • 2.3、其他方法
  • 3、模型设计
    • 3.1、架构
    • 3.2、卷积调制块
    • 3.3、Micro设计
  • 4、实验
    • 4.1 实验设置
    • 4.2、与其他方法的比较
    • 4.3、方法分析
    • 4.4、ViTs各向同性模型的结果
    • 4.5、下游任务的结果
  • 5、结论与讨论

摘要

本文并没有试图设计一种最先进的视觉识别方法,而是研究了一种更有效的方法,利用卷积来编码空间特征。通过比较最近的卷积神经网络(ConvNets)和Vision transformer的设计原理,我们提出利用卷积调制操作来简化自注意。我们证明了这样一

你可能感兴趣的:(图像分类,高质量人类CV论文翻译,transformer,深度学习,人工智能)