CVPR 2021 Towards Open World Object Detection

动机

虽然目标检测技术目前已经发展得较为成熟,但如果要真正能实现让计算机像人眼一样进行识别,有项功能一直尚未达成——那就是像人一样能识别现实世界中的所有物体,并且能够逐渐学习认知新的未知物体。开放集和开放世界图像分类的进展不能简单地适用于开放集和开放世界的目标检测,开放集和开放世界的目标检测的不同之处在于:在目标检测器的训练过程中,将那些未知的目标当做背景。许多未知类的实例已经和已知目标一起引入到目标检测器中。由于它们没有被标注,训练检测模型时,这些未知的实例将被学习为背景。本论文解决了两个挑战:一是在没有明确监督的情况下,保证已知类别的object的准确性的同时,除了已知的类别,其他的所有目标识别为“未知”,二是如果“未知”的信息或者标签得到了,就让网络做增量学习,同时不遗忘之前学过的类,也就是说能够同时识别N+1种类别(N:以前就能识别的类别,1:新增的类别)。为解决这些挑战,文中提出了一种新的基于对比聚类和基于能量的未知识别的开放世界目标检测模型(ORE)。开放世界目标检测模型是一个新问题,即一个模型应该能够以一种通用的方式识别未知目标的实例作为“未知”,然后在训练数据逐步取得时,学习识别它们。

方法

在每一个增量学习的步骤,一旦识别出那些未知的目标(“?”),oracle就会在所有未知的目标中为感兴趣的目标提供标签(蓝色圆圈),加入到现有的知识库(绿色圆圈)中,从而逐步学习新类。通过存储一组平衡的样本,并在每个增量步骤之后对模型进行微调。在每个点上,确保每个类的最小实例出现在范例集中,从而减轻之前学过的类被遗忘的问题。

开放世界目标检测模型采用Faster R-CNN作为基底检测器,通过一个基于能量的分类头和unknown-aware RPN来识别出那些潜在的未知目标。具体包括如下two stages:

第一阶段,依赖于区域候选网络(RPN)是类别不可知的这一事实,自动将图像中的一些物体标记为潜在的未知物体。给定一个输入图像,RPN生成一组包含前景和背景实例的边界框预测,以及相应的目标得分。将那些具有较高的目标得分,但不与真实目标重叠的候选框作为潜在的未知目标。简单地说,按照目标得分排序,选择前k个背景区域候选,作为未知目标。

第二阶段,对每个候选区域的边界框进行分类和调整坐标。在感兴趣区域(RoI)头部,对残差块产生的特征应用对比学习方法来学习有判别力的聚类,且能够在不遗忘之前学习过的类别的情况下,持续地灵活添加新的类别。RPN和分类头分别用于自动标注和识别未知。给定潜伏空间中的特征及其对应的标签,基于能量模型(EBMs)学习一个函数,使用单个输出标量,用来估计观测变量F和可能的输出变量集L之间的兼容性。EBMs的本能是将低能量值分配给分布数据,反之亦然将能量度量用来判别一个样本是否来自一个未知类别。用对数定义分类模型的自由能量,以将标准Faster R-CNN的分类头变换为一个能量函数。由于通过对比聚类在潜在空间中做了强制明显的分离。针对这一趋势,文中用一组移位的威布尔分布对已知和未知能量值的能量分布进行了建模。
CVPR 2021 Towards Open World Object Detection_第1张图片

实验细节

ORE重新使用骨干网络为renet - 50的标准Faster R-CNN目标检测器。利用来自RoI头部最后一个残差块的2048维的特征向量做对比聚类。对比损失是被用在标准Faster R-CNN分类和定位损失运算中,并共同优化。

实验评估和消融研究证实了ORE在实现开放世界目标的有效性,并发现了识别和描述未知实例有助于减少一个增量目标检测setting中的混乱,在增量对象检测setting中,表现出了最先进的性能,而不需要额外的方法辅助。

你可能感兴趣的:(CVPR,2021)