ViT-FRCNN:面向基于Transformer的目标检测

与DETR和可变形DETR范式不同,本文将ViT与RPN进行结合,即将CNN主干替换为transformer,组成为:ViT-FRCNN,作者称这可视为迈向复杂视觉任务(例如目标检测)纯transformer解决方案的重要基石。

注:文末附【Transformer】和【目标检测】学习交流群

Toward Transformer-Based Object Detection
ViT-FRCNN:面向基于Transformer的目标检测_第1张图片

  • 作者单位:Pinterest
  • 论文:https://arxiv.org/abs/2012.09958

背景

Transformers已成为NLP中的主要模型,这是因为它们具有对大量数据进行预训练,然后通过微调迁移到更小,更具体的任务的能力。

Vision Transformer(ViT)是将纯transformer模型直接应用于图像作为输入的首次重大尝试,这表明与卷积网络相比,基于transformer的体系结构可以在基准分类任务上取得有竞争力的结果。

但是,注意力运算的计算复杂性意味着我们仅限于低分辨率输入。对于诸如检测或分割之类的更复杂的任务,保持高输入分辨率对于确保模型可以正确识别并在其输出中反映出精细细节至关重要。这自然引发了一个问题,即基于transformer的体系结构(例如Vision Transformer)是否能够执行除分类以外的任务。

ViT-FRCNN

在本文中,我们确定通用检测任务可以将Vision Transformer用作骨干,以产生具有竞争力的COCO结果。我们提出的模型ViT-FRCNN展示了与transformer相关的几种已知特性,包括大的预训练能力和快速的微调性能。

ViT-FRCNN:面向基于Transformer的目标检测_第2张图片
ViT-FRCNN:面向基于Transformer的目标检测_第3张图片
ViT-FRCNN:面向基于Transformer的目标检测_第4张图片

我们还研究了对标准检测主干的改进,包括在域外图像上的出色性能,在大型物体上的更好性能以及对非极大值抑制的依赖性降低。

ViT-FRCNN:面向基于Transformer的目标检测_第5张图片
我们将ViT-FRCNN视为迈向复杂视觉任务(例如目标检测)纯transformer解决方案的重要基石。

实验结果

ViT-FRCNN:面向基于Transformer的目标检测_第6张图片
ViT-FRCNN:面向基于Transformer的目标检测_第7张图片

Transformer交流群

已建立CVer-Transformer微信交流群!想要进Transformer学习交流群的同学,可以直接加微信号:CVer5555。加的时候备注一下:Transformer+学校+昵称,即可。然后就可以拉你进群了。

目标检测交流群

已建立CVer-目标检测交流群!想要进检测学习交流群的同学,可以直接加微信号:CVer5555。加的时候备注一下:目标检测+学校+昵称,即可。然后就可以拉你进群了。

强烈推荐大家关注CVer知乎账号和CVer微信公众号,可以快速了解到最新优质的CV论文。

ViT-FRCNN:面向基于Transformer的目标检测_第8张图片

你可能感兴趣的:(计算机视觉论文速递,目标检测,深度学习,计算机视觉,人工智能,机器学习,自动驾驶)