Co-DETR:基于协作混合分配训练的DETR

摘要

https://arxiv.org/pdf/2211.12860v5.pdf
本文观察到一个现象,即在DETR中使用一对一的集合匹配时,被分配为正样本的查询太少,导致对编码器输出的监督稀疏,这严重影响了编码器的判别特征学习,反之亦然,影响了解码器中的注意力学习。为了缓解这个问题,我们提出了一种新颖的协作混合分配训练方案,即Co-DETR,从多种标签分配方式中学习更高效、更有效的基于DETR的检测器。这种新的训练方案可以通过训练多个由一对多标签分配(如ATSS和Faster RCNN)监督的并行辅助头,轻松提高端到端检测器中编码器的学习能力。此外,我们通过从这些辅助头中提取正坐标来进行额外的定制正查询,以提高解码器中正样本的训练效率。在推理过程中,这些辅助头被丢弃,因此我们的方法不会给原始检测器引入额外的参数和计算成本,同时也不需要手工制作的非最大抑制(NMS)。我们进行了广泛的实验来评估所提出的方法在DETR变体上的有效性,包括DAB-DETR、Deformable-DETR和DINO-DeformableDETR。最先进的DINO-Deformable-DETR与Swin-L的结合在COCO val上的AP可以从58.5%提高到59.5%。令人惊讶的是,与ViT-L骨干网结合,我们在COCO test-dev上实现了66.0%的AP,在LVIS val上实现了67.9%的AP,以更少的模型大小明显超过了以前的方法。代码可在https://github.com/Sense-X/Co-DETR上获得。

1、简介

目标检测是计算机视觉中的一项基本任务,它要求我们定位对象并分类其类别。开创性的R-CNN系列[11、14、27]和一系列变体[31、37、44],如ATSS[41

你可能感兴趣的:(RT-DETR实战与改进手册,高质量AI论文翻译,人工智能,深度学习)