Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection(论文解析)

Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection:根据文字提示检测任意目标

    • 摘要
    • 1介绍
    • 2 相关工作
      • 3. Grounding DINO
      • 3.1.特征提取和增强器
      • 3.2. 语言引导的查询选择
      • 3.3.交叉模态解码器
      • 3.4. 子句级别文本特征
      • 3.5.损失函数
    • 4 实验
      • 4.1.设置
      • 4.2. Zero-Shot Transfer of Grounding DINO
      • 4.3.引用对象检测设置
      • 4.4.消融实验
      • 4.5. Transfer from DINO to Grounding DINO
    • 5 结论

Open-Set Object Detection:根据文字提示检测任意目标)

摘要

这篇论文介绍了一种名为"Grounding DINO"的开放域目标检测器,通过将基于Transformer的检测器DINO与Grounding预训练技术相结合,可以检测具有人类输入(如类别名称或指代表达式)的任意对象。这篇论文的关键解决方案是引入语言到封闭集检测器中,以进行开放集概念的泛化。为了有效融合语言和视觉模态,论文将封闭集检测器概念上划分为三个阶段,并提出了一种紧密融合的解决方案,其中包括特征增强器、语言引导的查询选择和跨模态解码器用于跨模态融合。尽管以前的工作主要在新颖类别上评估开放集目标检测,但本文提出在使用属性指定的对象的指代表达理解方面也进行评估。Grounding DINO在所有三种设置上表现出色,包括在COCO、LVIS、ODinW和RefCOCO/+/g等基准数据集上的性能。Grounding DINO在COCO检测零样本迁移基准测试中实现了52.5的AP,即没有来自COCO的训练数据。在使用COCO数据进行微调后,Grounding DINO的AP达到了63.0,创下了ODinW零样本基准测试的新纪录,均值AP为26.1。相关代码将会在 https://github.com/IDEA-Research/GroundingDINO 上提供。

1介绍

理解新概念是视觉智能的基本能力。在这项工作中,我们的目标是开发一个强大的系统,可以检测人类语言输入指定的任意对象,我们将其称为“开放集对象检测”。这个任务有着广泛的应用潜力,因为它可以作为通用对象检测器。例如,我们可以将它与生成模型配合进行图像编辑(如图1(b)所示)。

图1。(a) 封闭式目标检测要求模型检测预定义类别的对象。(b) 先前的工作将零-shot转移模型用于模型的泛化到新类别。我们提出将指称表达理解(REC)作为模型在具有属性的新对象上进行泛化的另一种评估。© 我们通过结合Grounding DINO和Stable Diffusion [42]提出了一个图像编辑应用程序。最佳视图请参考彩色图。

开放集检测的关键在于引入语言以实现对未见过对象的泛化[1, 7, 26]。例如,GLIP [26]将对象检测重新定义为短语定位任务,并引入了对象区域和语言短语之间的对比训练。它在异构数据集上表现出很大的灵活性,对于封闭集和开放集检测都表现出卓越的性能。尽管GLIP的结果令人印象深刻,但它的性能可能受到限制,因为它是基于传统的一阶段检测器Dynamic Head [5]设计的。由于开放集和封闭集检测密切相关,我们相信一个更强大的封闭集对象检测器可以实现更好的开放集检测。

受到基于Transformer的检测器取得的令人鼓舞的进展[24, 25, 31, 58]的启发,我们在这项工作中提出基于DINO [58]构建一个强大的开放集检测器。这个检测器不仅提供了最先进的对象检测性能,还允许我们通过基于预训练的方法将多层文本信息整合到其算法中。我们将这个模型命名为Grounding DINO。Grounding DINO相对于GLIP具有几个优势。首先,它基于Transformer架构,类似于语言模型,使其更容易处理图像和语言数据。例如,由于所有的图像和语言分支都是基于Transformer构建的,我们可以在整个流程中轻松地融合跨模态特征。其次,基于Transformer的检测器已经证明具有利用大规模数据集的出色能力。最后,作为一个类似DETR的模型,DINO可以进行端到端优化,而不需要使

你可能感兴趣的:(目标检测,人工智能,计算机视觉)