【第53篇】MAFormer: 基于多尺度注意融合的变压器网络视觉识别

文章目录

  • 摘要
  • 1 简介
  • 2 相关工作
  • 3 方法
    • 3.1 总体架构
    • 3.2 多尺度注意融合块
  • 4 实验
    • 4.1消融研究与分析
    • 4.2 ImageNet-1K图像分类
    • 4.3基于MSCOCO的对象检测与实例分割
    • 4.4 在ADE20K上使用语义FPN和UPerNet进行语义分割实验
  • 5 结论

摘要

【第53篇】MAFormer: 基于多尺度注意融合的变压器网络视觉识别_第1张图片
链接:https://arxiv.org/abs/2209.01620v1

  Vision Transformer及其变体在各种计算机视觉任务中显示出了巨大的潜力。但是传统的Vision Transformer通常关注粗级别的全局依赖,这在令牌级别的全局关系和细粒度表示方面面临学习挑战。在本文中,我们将多尺度注意力融合到Transformer(MAFormer)中,探讨了双流框

你可能感兴趣的:(高质量AI论文翻译,网络,人工智能,深度学习)