PROB: Probabilistic Objectness for Open World Object Detection(论文解析)

PROB: Probabilistic Objectness for Open World Object Detection

    • 摘要
    • 2 相关工作

摘要

开放世界目标检测(OWOD)是一个新的、具有挑战性的计算机视觉任务,它弥合了传统的目标检测(OD)基准和现实世界中的目标检测之间的差距。除了检测和分类已知/标记的对象外,OWOD算法还应该能够检测新颖/未知的对象,这些对象可以进行分类和增量学习。在标准的OD中,不与已标记对象重叠的对象提议会自动分类为背景。因此,简单地将OD方法应用于OWOD会失败,因为未知对象将被预测为背景。检测未知对象的挑战源于在区分未知对象和背景对象提议方面缺乏监督。先前的OWOD方法尝试通过生成伪标签来克服这个问题,然而未知对象的检测性能一直较低。概率/生成模型可能为解决这一挑战提供了解决方案。在这里,我们介绍了一种用于目标性估计的新颖概率框架,我们在嵌入特征空间中交替进行概率分布估计和已知对象的目标性似然最大化,最终使我们能够估计不同提议的目标性概率。由此产生的基于概率的目标性变换型开放世界检测器 PROB 将我们的框架集成到传统的目标检测模型中,使它们适应开放世界的设置。在OWOD基准上进行的全面实验显示,PROB在未知对象检测(∼ 2×未知召回率)和已知对象检测(∼ 10% mAP)方面优于所有现有的OWOD方法。我们的代码可在https://github.com/orrzohar/PROB 上找到。

2 相关工作

开放世界目标检测
开放世界目标检测任务是由Joseph等人[10]最近引入的,已经引起了很多关注[8, 18, 25, 29–31, 34],因为它可能在现实世界中产生重要影响。在他们的工作中,Joseph等人[10]引入了ORE,该方法通过特征空间对比聚类、基于RPN的未知对象检测器以及基于能量的未知对象标识器(EBUI)来调整faster-RCNN模型,以实现OWOD目标。Yu等人[31]尝试扩展ORE,通过将特征聚类的数量设置为类别数量,以最小化嵌入特征空间中已知和未知类别之间的重叠分布,减少了已知和未知对象之间的混淆。与此同时,Wu等人[29]试图通过引入第二个基于定位的目标性检测头(由Kim等人[11]引入)来扩展ORE,并报告了在未知对象召回方面的增益,从而证明了目标性在OWOD中的实用性。

最近,当Gupta等人[8]调整了可变形DETR模型用于开放世界目标时,Transformer-based方法在OWOD目标中表现出了巨大潜力,并引入了OW-DETR。OW-DETR使用伪标记方案来监督未知对象的检测,其中选择了与高级别骨干激活不匹配的对象提议作为未知对象。Maaz等人[19]报告了多模态视觉Transformer(MViTs)的高类别无关目标检测能力。他们随后利用MViTs来监督ORE的未知对象检测,并报告了其性能的显著增益(∼ 4×)。尽管Maaz等人的工作侧重于类别无关的目标检测,并未引入OWOD方法,但他们的工作激发了MViTs和基于Transformer的模型的可能的泛化潜力。最近的OWOD工作激发了使用基于Transformer的模型[8]和集成目标性[29]以实现强大的OWOD性能。尽管先前的方法尝试使用目标性估计[8, 29],但没有直接将其集成到类别预测本身。与以前的工作不同,我们引入了一种用于概率估计目标性的新方法,并直接将其集成到类别预测本身,从而改善了未知对象的检测。

类不可知的目标检测
类别无关的目标检测(CA-OD)试图在有限数量的已标记对象类别的情况下学习通用的目标性特征。然后,这些通用特征用于检测先前未见过的对象类别。CA-OD方法预计以类别无关的方式定位对象。当前的SOTA目标性检测方法[11, 23]都解决了同样的问题;数据集的标记不密集,因此不能简单地确定一个提议的检测是否错误,如果它不与任何地面真实标签重叠。Saito等人[23]通过引入自定义图像增强方法BackErase来解决了这个问题,该方法将带有注释的对象粘贴在没有对象的背景上。Kim等人[11]探讨了不同损失对学习开放世界提议的影响,并发现将分类替换为定位损失(不对假阳性进行惩罚)可以提高性能。不幸的是,直接集成CA-OD方法在OWOD性能上表现不佳。例如,将Kim等人[11]的基于定位的目标性方法直接集成到ORE中,正如Wu等人[29]所提出的那样,导致未知对象召回率下降了70%。尽管间接地,我们的工作整合了CA-OD的见解,例如不对假阳性进行惩罚的问题。

你可能感兴趣的:(目标检测,人工智能,计算机视觉)