【小样本论文解读】Robust Region Feature Synthesizer for Zero-Shot Object Detection

Robust Region Feature Synthesizer for Zero-Shot Object Detection

作者:YPeiliang Huang1, Junwei Han1, De Cheng2, Dingwen Zhang1

一、Background

  • 随着CNN和Transformer等深度学习技术的快速发展,目标检测研究领域出现了很多amazing的工作。虽然现有方法的检测性能看起来很成功,但在实际场景中应用它们存在一个隐藏的缺点——即只能在已见类(seen)上发挥较好的作用,在未见类(unseen)上的检测结果并不乐观。
  • 也就是说模型一旦被训练,它只能识别出现在训练数据中的物体,而其他出现在测试图像中但在训练过程中看不到的物体会极大地混淆模型,导致无法避免的检测结果错误。
  • 为了解决这个问题,近年来提出了零样本目标检测(ZSD)的任务。目标是使模型能够预测在训练期间没有见过的对象。

二、Motivation

  • 零样本目标检测可以提升模型对训练阶段不可见目标类的检测能力。
  • 在实际情况下,样本构建的特征空间显示出较高的类内多样性,但仍具有类间可分离性,如a所示。
  • 而现有方法学习的合成视觉特征空间要么类内多样性不足(如b所示),要么具有过多的类内多样性,使类间不可分割(如c所示)。
    【小样本论文解读】Robust Region Feature Synthesizer for Zero-Shot Object Detection_第1张图片

三、Model

(一)The framework of TRAR

  • 本文方法的核心是如何学习一个生成模型来学习视觉域和语义域之间的关系。
  • 具体来说,作者设计了一个区域特征合成器,用于在现实世界检测场景中进行特征合成,其中包含一个类内语义发散组件和一个类间结构保持组件。
  • 前者用于实现一对多映射,从每个类语义向量中获取不同的视觉特征,防止将真实的unseen的物体误分类为图像背景。
  • 而后者用于避免合成特征过于分散而混淆类间和前景-背景关系。
    【小样本论文解读】Robust Region Feature Synthesizer for Zero-Shot Object Detection_第2张图片

(二)The Robust Region Feature Synthesizer(RRFS)

【小样本论文解读】Robust Region Feature Synthesizer for Zero-Shot Object Detection_第3张图片

【小样本论文解读】Robust Region Feature Synthesizer for Zero-Shot Object Detection_第4张图片
【小样本论文解读】Robust Region Feature Synthesizer for Zero-Shot Object Detection_第5张图片
【小样本论文解读】Robust Region Feature Synthesizer for Zero-Shot Object Detection_第6张图片

(三)Intra-class Semantic Diverging

【小样本论文解读】Robust Region Feature Synthesizer for Zero-Shot Object Detection_第7张图片
【小样本论文解读】Robust Region Feature Synthesizer for Zero-Shot Object Detection_第8张图片
【小样本论文解读】Robust Region Feature Synthesizer for Zero-Shot Object Detection_第9张图片

四、Experiment

(一) Datasets

  • Seen/unseen split
    • PASCAL VOC (有20个类),seen/unseen:16/4
    • MS COCO(有80个类),seen/unseen:48/17或65/15
    • DIOR(有20个类),seen/unseen:16/4

(二)Evaluation Protocols

  • mAP:各类别平均准确率的平均值。AP是Precision-Recall曲线下的面积
  • Recall@100:对于单一个查询图片,在系统中搜索它的100个最近邻的图片,如果返回的100张图片中有至少一张图片和查询图片属于同一个类,则该次查询的score记为1,否则记为0。Recall@100则是测试集中所有查询图片score的平均。
    在这里插入图片描述
  • 调和平均数(HM):每个数的倒数的算术平均数的倒数(当所掌握的资料未进行统计分组,且各个标志值所对应的标志总量都相同时,用简单调和平均数计算。)
    在这里插入图片描述

(三)Comparison with the State-of-the-art

【小样本论文解读】Robust Region Feature Synthesizer for Zero-Shot Object Detection_第10张图片
【小样本论文解读】Robust Region Feature Synthesizer for Zero-Shot Object Detection_第11张图片
【小样本论文解读】Robust Region Feature Synthesizer for Zero-Shot Object Detection_第12张图片
【小样本论文解读】Robust Region Feature Synthesizer for Zero-Shot Object Detection_第13张图片
【小样本论文解读】Robust Region Feature Synthesizer for Zero-Shot Object Detection_第14张图片
【小样本论文解读】Robust Region Feature Synthesizer for Zero-Shot Object Detection_第15张图片

(四)Ablation Study

【小样本论文解读】Robust Region Feature Synthesizer for Zero-Shot Object Detection_第16张图片
【小样本论文解读】Robust Region Feature Synthesizer for Zero-Shot Object Detection_第17张图片

五、Conclusion

  • 作者揭示了零样本目标检测领域的核心挑战:
    • 对于未见对象,如何合成与真实样本一样具有类内多样性和类间可分性的鲁棒区域特征,从而可以实现强大的未见目标检测器。
  • 为了应对这一挑战,研究者构建了一个新的零样本目标检测框架,其中包括IntraSD和InterSP组件。
    • IntraSD实现了一对多的映射,从每个类语义向量中获得不同的视觉特征,避免了将真实的unseen物体误分类为图像背景。
    • InterSP组件通过充分利用来自不同对象类别的合成区域特征和真实区域特征,提高了对合成视觉特征的识别能力。首次实现了同时针对可见目标类和不可见目标类的统一目标检测模型。

你可能感兴趣的:(小样本,目标检测,计算机视觉,深度学习)