pdf:https://arxiv.org/pdf/2006.09238.pdf
目录
主要工作
目录
主要工作
1、介绍
1.1 范围
1.2 与之前的综述的对比
1.3 文章结构
2 研究背景
2.1 一阶段目标检测器中的不均衡
Anchor-Based One-Stage Detectors
Anchor-Free One-Stage Detectors.
2.2 两阶段目标检测的不平衡
3 解决方法
3.1 抽样启发式
3.1.1 硬采样
在这篇文章中,作者调研了近期解决前景和背景不平衡问题的先进的解决方法。
第一,分析了不同种类的深度检测器中的不平衡问题的特点,包括一阶段和两阶段的检测器。
第二,将现有的解决方案分为两类:抽样启发式和非抽样方案,并详细审查它们。
第三,通过实验比较了一些最先进的解决方法在COCO数据集上。
还展望了研究方向和下一步工作。
目标检测包含了识别种类和精确定位一个图像中出现的目标,近年来吸引了大量的研究。作为计算机时间领域基本任务,他是解决更复杂和更高级别的视觉问题如实例分割、图片说明[1],场景理解[3的基础,此外,它在一系列真实世界的应用中发挥着关键作用,如自动驾驶、机器人视觉和视频监控。
在早期,手工制作特征的滑动窗口范例被广泛用于检测物体。随着深度学习技术的快速发展,深度目标检测器[2, 12, 14, 16, 17, 20, 21, 22, 25, 28, 29, 30, 31, 33, 37, 39, 40]迅速主导了目标检测研究,并且极大地提高了检测精度。尽管在不同的检测体系结构中存在明显的差异,如一阶段 [25, 28] 和两阶段[19, 22, 25, 31, 32] ,揭示了在训练目标检测器中普遍存在的前景背景不平衡问题,即前景示例的数目与背景示例的数目之间存在极端的不平等。强有力的证据[19,22,25,32]表明,不平衡问题阻碍探测器实现更高的检测精度。
本文综述了国内外在解决前景-背景不平衡问题方面的研究进展。首先,由于不平衡问题在不同的目标检测器中会产生不同的结果,我们仔细分析了不同目标检测器的不平衡特性,即不平衡。、基于锚的单阶段、无锚的onestage和两阶段方法。随后,我们分解分为两组:抽样启发式[3,19,和非抽样方案[4,5,6,27],和系统地回顾现有的解决不平衡问题的方法。同时,对其进行了比较性能。最后是几个有希望的方向的讨论以启发未来的研究。
在机器学习研究中,类别不平衡问题作为一个长期存在的难题已经被研究了很长时间。然而深度目标检测器中的前景和背景不平衡问题也可以被视为一种类别不均衡问题,这是由于探测器的搜索空间大,而不是由于数据分布等常见原因造成的(),因此,在目标检测中,我们只讨论了前景-背景不平衡问题。此外,由于最先进的性能通常是由深度对象探测器实现的,我们将忽略经典的非深度对象探测器的不平衡解决方案。
一些研究如【24】已经全部综述了目标检测任务,数据集,度量和方法。尽管如此,他们没有特别的详细的讨论目标检测不均衡问题。Oksuz等人[15]综述了目标检测中的各种不平衡问题,包括类不平衡、尺度不平衡、空间不平衡和客观不平衡。他们没有关注深度目标检测器前景和背景之间的不平衡。我们关注前景与背景的不平衡问题,并对解决这一问题的方法进行了较为专门的回顾。
第二节介绍深度目标检测器的研究背景并解释前景和背景不均衡问题;
第三节详细介绍了针对远景背景不平衡问题的解决方案,并比较了不同解决方案的性能。
第四节总结了本文,并讨论了几个有前景的方向。
使用密集的、预定义的限定框(例如。基于锚的一级探测器[19,22,25,29,30,38]通过对这些锚点进行定位和分类,可以直接识别物体。早期的代表包括SSD[25]和YOLOv2[29],它们能够在多个特性级别上预测对象,实现了令人印象深刻的速度/精度权衡。
但是,在训练过程中,前景示例和背景示例之间有一个很大的差距(例如∼100和∼100k)。即前-背景不平衡。正如之前的工作[19,22,25]所说明的,这种不平衡会阻碍基于锚的一级探测器变得更加精确。RetinaNet [22], RefineDet [38], and GHM [19]探索了解决不平衡问题的几种不同方法,获得了更好的检测精度。
由于anchors会与引入很多的超参数去觉得如scales、高宽比,一些研究者开始尝试一些无锚范式。早期包括DenseBox,YOLO,和ConerNet,他们分别依靠中心区域、固定单元和关键点来确定初始位置。他们的成功可以被分为两种,基于中心的【 [16, 33, 39]】和基于点的【37,40】框架。一些两阶段的方法也借鉴了无锚的一阶段管道,例如GA-RPN[35]。
实际上,无论是关键点还是中心区域目标仅仅占图像很小的一快,而图像的大部分区域是背景。尽管无锚方法通过关键点或者中心区域抛弃了密集的anchors去覆盖目标,他们仍然存在着背景点或区域过多造成的不平衡,这可以视为一个背景不平衡问题。因此,不奇怪的是,大多数无锚的应用Focal loss [22]或其变体来解决前景-背景不平衡。
到目前为止,两阶段(基于区域的)目标检测器在几个基准测试中领先于最高的精度[8,23],这表明在检测精度方面优于一阶段的。这些方法主要基于Faster R-CNN[31]的架构,该架构首先通过RPN[31]生成候选对象建议的稀疏集,然后通过卷积网络确定准确的边界盒和类。多年来出现了大量的R-CNN变体[2,12,20,21,26,35],极大地提高了检测精度。
与单阶段目标检测器相似,两阶段目标检测器也存在不平衡问题。首先,提出的阶段可以看作是一个基于锚的二值分类单级检测器(即基于锚的单级检测器)。因此,RPN通常会遭受极端的不平衡,这需要应用小批量抽样启发式来缓解这种不平衡。在RPN过滤了大量的背景示例之后,其余的示例仍然包含大量的背景示例(例如,前景与背景的比率为∼1:10)。因此,每个区域阶段也配备了小批量抽样启发式。
我们将解决前景背景不平衡问题的方法分为两组:
(1)抽样启发式,包括硬[26,31,32]和软抽样启发式[3,19,22];
(2)非抽样方案,包括基于排序的损失函数[6,27]和无偏学习机制[4,5]。
在本节中,我们将详细描述这些解决方案。
在本质上,抽样启发式通过改变每个例子的贡献来解决不平衡,例如,把更多的注意力放在罕见的前景例子:
其中CE()表示交叉熵代价。Lcls, pi和gi分别表示第i个实例的分类损失、预测概率和真实值标号。我们用Ω表示抽样启发式(),即,考虑到输入真实值G,例子 E,预测P,和例子索引i,Ω(G, E、P, i)输出第i个例子的权重因子。为简单起见,我们用X表示Nx,根据图1和方程1,我们描述不同的抽样启发式如下。
硬采样选择一部分训练样本而忽略另一部分。即 Ω(G, E, P, i) ∈ {0, 1}。我们进一步表示P r (G,E,P, i)的概率Ω(G, E,P, i) = 1。