Unsupervised Recognition of Unknown Objects for Open-World Object Detection(论文解析)

Unsupervised Recognition of Unknown Objects for Open-World Object Detection

    • 摘要
    • 2 相关工作

摘要

开放世界目标检测(OWOD)将目标检测问题扩展到一个现实且动态的场景,要求检测模型能够检测已知和未知对象,并能够增量学习新引入的知识。当前的OWOD模型,如ORE和OW-DETR,侧重于将具有高物体性分数的区域标记为未知对象,它们的性能在很大程度上依赖于已知对象的监督。虽然它们可以检测与已知对象相似的未知对象,但它们面临着严重的标签偏差问题,即它们倾向于将与已知对象不相似的所有区域(包括未知对象区域)都检测为背景的一部分。为了消除标签偏差,本文提出了一种新颖的方法,该方法学习一个无监督的判别模型,用于从无监督区域提案方法生成的原始伪标签中识别真正的未知对象。生成的模型可以通过无需分类的自我训练方法进一步优化,该方法迭代地将伪未知对象扩展到未标记的区域。实验结果表明,我们的方法在MS COCO数据集上在检测未知对象时明显优于先前的最佳方法,同时在检测已知对象类别方面保持了竞争性能,而在LVIS和Objects365数据集上具有更好的泛化能力。我们的代码可以在https://github.com/frh23333/mepu-owod上找到。

2 相关工作

开放集目标检测
Dhamija等人[6]是第一个明确探讨OSOD问题的工作,其中检测器在测试期间需要识别未知对象。[23, 24]使用Dropout Sampling (DS)来测量目标检测器的不确定性并拒绝未知对象。VOS [25]合成了虚拟异常值,在训练过程中可以调整模型的决策边界。OpenDet [11]通过在潜在空间中分离高/低密度区域来识别未知对象,它使用对比特征学习器 (CFL) 和未知概率学习器 (UPL) 来实现这一目标。

一些其他的工作[1, 22, 26-28]专注于生成对于未知类别的对象具有更高泛化能力的类别无关的区域提议。Kim等人[22]提出了一个称为Object Localization Network (OLN)的方法,将Faster-RCNN [1]的分类头替换为定位质量预测头,以确保检测器不会过拟合已知类别并降低未知对象的得分。[26]提出了一种新的增强方法BackErase,它将已知对象粘贴到从原始图像的小区域中采样的背景图像上,以确保潜在的未知对象不会被当作负样本抑制。[27]提出了通用分组网络 (GGNs),它们学习像素的成对关联性 (Pairwise Affinities,PA) 并使用PA预测构建潜在适用于未知对象的伪标签。[28]提出了实体分割任务,要求分割图像中的所有视觉实体,包括物体和背景。他们基于统一的中心表示提出了一个实体分割框架,并提出了全局核库和重叠抑制模块,以生成高质量的类别无关分割掩码。

开放世界目标检测
Joseph等人[7]将OSOD任务扩展到更动态的场景,并制定了OWOD问题,要求模型能够识别已知和未知对象,并可以通过引入新的知识进行增量训练。他们提出了ORE模型,该模型使用RPN的物体性分数来伪标记未知对象,并采用基于能量的分类器来分离已知和未知类别。OWDETR [8]采用可变形DETR(检测变换器)作为基础检测器,并使用中间特征获得的注意力图作为分数来分配未知类别的伪标签。PROB [9]进一步将概率物体性头部整合到标准的可变形DETR模型中,迭代地估计物体性概率分布,并最大化已知对象的似然性,以学习更一般的特征,适用于已知和未知对象。CAT [10]通过级联解码的方式通过共享解码器解耦了检测过程,并采用了自适应伪标记机制,将模型驱动和输入驱动的伪标记自适应地结合起来,以为未知对象生成稳健的伪标记。Wu等人[29]提出了未分类开放世界目标检测(UC-OWOD),要求模型将未知对象分类为不同的未知类别。他们设计了基于相似性的未知分类(SUC)来将未知对象检测为不同的类别,并使用未知聚类精化(UCR)来精化未知对象的分类。

尽管先前的方法在OWOD任务的未知对象识别方面取得了显著进展,但它们仍然利用物体性分数进行未知对象的伪标记,这依赖于已知对象标签的监督。因此,它们仍然面临前面提到的标签偏差问题,该问题限制了它们对于与已知对象在语义上无关的未知对象的识别能力。相比之下,我们的模型实现了对未知对象的无监督判别识别,有效解决了标签偏差问题,并提高了OWOD模型对未知对象的检测性能。

无监督区域提议框的生成方法
在深度学习时代之前,许多工作[13–15, 30–32]侧重于基于手工制作的低级特征(如颜色、纹理和轮廓)生成区域提案作为对象候选。Selective Search [14]通过贪婪地合并超像素来生成提案。EdgeBoxes [13]通过对边缘轮廓数量进行评分来生成提案的边界框。但由于精度较低且时间成本较高,它们后来被基于深度学习的有监督方法[1]所取代。Geodesic Object Proposal [15]基于在图像中放置的种子计算的测地距离变换中的关键级别集,识别了一组候选对象。最近,一些工作[16, 17]探索了以无监督方式生成基于深度网络的区域提案。FreeSOLO [16]学习了不需要任何手动注释的类别无关的实例分割,其提案质量明显优于以前的无监督方法。Detreg [17]在ImageNet [33]上使用Selective Search进行训练,以提供伪标签的地面真实标签。

尽管这些无监督的区域提案生成方法不能准确地定位每个对象,但它们提供了关于可能存在未知对象的区域的额外知识和几何约束。在我们提出的方法中,我们利用这些无监督的区域提案生成器来生成未知对象的原始伪标签。

基于重构的OOD检测
OOD(Out-of-Distribution)检测旨在检测和拒绝那些不属于模型训练数据分布的测试样本。基于重构的方法的核心思想是,在ID(In Distribution)数据上训练的编码器-解码器框架对于OOD数据具有更大的重构误差,因此我们可以在推理期间根据它们的重构误差来区分ID和OOD样本。[18]在潜在空间中引入马哈拉诺比斯距离,以更好地捕捉远离ID样本但接近模型的潜在维度流形的OOD样本。[19]将基于重构方法的本质公式化为一个带有内在偏差的四重域翻译,仅查询条件数据不确定性的代理。因此,他们采用了包括语义重构、数据确定性分解和归一化L2距离等策略,显著提高了OOD检测性能。READ [20]将自动编码器嵌入到基于分类器的OOD检测模型中,通过将原始像素的重构误差转化为分类器的潜在空间来实现。

我们的REW模块受到OOD检测中基于重构的方法的启发。关键区别在于,我们方法中的自动编码器重构了所有区域特征,包括频繁出现的背景区域和很少出现的前景区域,因此它们的重构误差可以用来建模背景-前景识别的概率分布;而OOD检测方法专注于重构图像级别的ID样本。此外,REW通过我们的Weibull建模学习一个软标签,指示每个伪未知对象成为真实对象的概率。而基于重构的OOD检测模型仅将重构误差用作OOD分数,用于拒绝那些分数高于预定义用户阈值的测试样本。在我们的问题设置中,这样的硬阈值策略无法适应每个训练图像,导致高假阴性错误,即真正的未知对象被硬阈值过滤为背景区域。

未完待续

你可能感兴趣的:(目标检测,目标跟踪,人工智能)