【第40篇】TransFG:用于细粒度识别的 Transformer 架构

TransFG:用于细粒度识别的 Transformer 架构

  • 摘要
  • 介绍
  • 相关工作
    • 细粒度视觉分类
    • Transformer
  • 方法
    • 视觉转换器作为特征提取器
    • TransFG 架构
  • 实验
    • 实验设置
    • 消融研究
    • 定性分析
  • 结论

摘要

论文地址:https://arxiv.org/abs/2103.07976

旨在从子类别中识别对象的细粒度视觉分类(FGVC)是一项非常具有挑战性的任务,因为其固有的细微类间差异。大多数现有工作主要通过重用主干网络来提取检测到的判别区域的特征来解决这个问题。然而,这种策略不可避免地使管道复杂化,并推动建议的区域包含大部分对象,因此无法定位真正重要的部分。最近,视觉变换器(ViT)在传统分类任务中显示出其强大的性能。转换器的自注意力机制将每个补丁标记链接到分类标记。在这项工作中,我们首先评估 ViT 框架在细粒度识

你可能感兴趣的:(高质量AI论文翻译,transformer,深度学习,人工智能)