Cascade R-CNN: High Quality Object Detection
and Instance Segmentation
Zhaowei Cai, and Nuno Vasconcelos
https://github.com/guoruoqian/cascade-rcnn_Pytorch
摘要在目标检测中,交并比(IoU)阈值经常被用来定义正/负。用于训练检测器的阈值定义了检测器的质量。虽然常用的阈值0.5会导致噪声(低质量)检测,但如果阈值较大,检测性能往往会下降。这种高质量检测的悖论有两个原因:1)过拟合,由于大阈值的正样本消失;2)检测器和测试假设之间的推断时间质量不匹配。为了解决这一问题,提出了一种多阶段目标检测体系结构,即级联R-CNN,它由一系列经过提高IoU阈值训练的检测器组成检测器是按顺序训练的,使用检测器的输出作为下一个检测器的训练集。这种重采样逐步提高了假设质量,保证了所有检测器的正训练集大小相等,并最小化了过度拟合。为了消除假设和检测器之间的质量不匹配,在推理时采用了相同的级联。级联R-CNN的一种无钟或无哨声的实现在COCO数据集上实现了最先进的性能,并显著提高了对通用和特定对象检测数据集(包括VOC、KITTI、CityPerson和WiderFace)的高质量检测。最后,将级联R-CNN推广到实例分割中,对掩模R-CNN进行了改进。为了便于将来的研究,在https://github.com/zhaoweicai/cascade-rcnn(Caffe)和https://github.com/zhaoweicai/Detectron-cascade-rcnn(Detectron)上提供了两个实现。
索引项 对象检测,高质量,级联,包围盒回归,实例分割。
1简介
目标检测是一个复杂的问题,需要解决两个任务。首先,检测器必须解决识别问题,区分前景对象和背景对象,并给它们分配合适的对象类标签。其次,探测器必须解决定位问题,为不同的目标分配精确的包围盒。两级R-CNN框架[21]、[22]、[37]、[47]是解决这两个问题的有效架构,最近提出的许多目标检测器都是基于此架构的。该框架检测作为一个多任务学习问题,结合分类,解决识别问题,边界盒回归,解决定位问题。
尽管这种体系结构取得了成功,但这两个问题可能难以准确解决。这在一定程度上是由于存在许多“关闭”误报,对应于“关闭但不正确”的边界框。一个有效的检测器必须找到图像中所有的真阳性,同时抑制这些接近的假阳性。这一要求使得检测比其他分类问题(例如对象识别)更加困难,因为正和负之间的区别没有细粒度。事实上,正反之间的界限必须仔细界定。在文献中,这是通过对候选和地面真相边界框之间的交集(IoU)得分进行阈值化来实现的。虽然阈值通常设置为u=0.5,但这是一个非常宽松的积极要求。由此产生的检测器经常产生噪声包围盒,如图1(a)所示。假设大多数人认为接近假阳性经常通过IoU≥0.5检验。虽然在u=0.5标准下组装的训练示例丰富多样,但它们很难训练能够有效拒绝闭合误报的检测器。
图1:(a)和(b)由质量不断提高的目标探测器进行的检测,以及(c)质量不断提高的示例
在这项工作中,我们定义了一个检测假设的质量为它的IoU与地面真相,以及一个检测器的质量为IoU阈值u用来训练它。图1(c)示出了提高质量的假设的一些示例。目的是研究高质量目标检测器的学习问题。如图1(b)所示,这些是产生少量接近假阳性的检测器。开始的前提是,一个检测器只能在一个质量水平上是最优的。这在对成本敏感的学习文献[12]、[42]中是已知的,其中接收器工作特性(ROC)的不同点的优化需要不同的损失函数。 主要区别在于,我们考虑给定IoU阈值的优化,而不是误报率。
图2:提高IoU阈值u的目标检测器的包围盒定位、分类损失和检测性能。
图2给出了支持这一前提的一些证据,分别给出了三个IoU阈值为u=0.5,0.6,0.7的检测器的包围盒定位性能、分类损失和检测性能。定位和分类作为检测假设IoU的函数进行评估。检测作为IoU阈值的函数进行评估,如COCO[36]所示。图2(a)示出,对于用于检测器训练的阈值附近的IoU实例,三个包围盒回归器趋向于获得最佳性能。图2(c)示出了用于检测的类似效果,直到对最高阈值的一些过度拟合。u=0.5训练的检测器比u=0.6训练的检测器在低ios下性能好,在高ios下性能差。一般来说,针对单个IoU值优化的检测器对于其他值不是最优的。图2(b)所示的分类损失也证实了这一点,其峰值接近用于检测器训练的阈值。一般来说,阈值确定分类器最具辨别力的分类边界,即具有最大的边距[6],[15]。
上述观察结果表明,高质量的检测要求检测器的质量与检测假设的质量密切匹配。只有提出高质量的建议,探测器才能达到高质量。然而,仅仅在训练过程中增加阈值u并不能保证这一点。相反,如图2(c)中u=0.7的检测器所示,强制u的高值通常会降低检测性能。我们将此问题称为高质量检测的悖论,即训练阈值较高的检测器会导致性能较差。这个问题有两个原因。首先,目标提出机制倾向于产生假设分布严重不平衡的低质量。结果,在训练过程中使用更大的IoU阈值会成倍地减少正面训练示例的数量。这对神经网络来说尤其有问题,因为神经网络是典型的密集型网络,使得“高u”训练策略很容易过度拟合。其次,检测器的质量与推理时可用假设的质量不匹配。因为,如图2所示,高质量检测器仅对高质量假设是最优的,所以对于低质量的假设,检测性能可以显著降低。
在本文中,我们提出了一种新的检测器结构,称为级联R-CNN,解决了这些问题,以实现高质量的目标检测。新的架构是R-CNN的多级扩展,在级联中更深的检测器级对接近误报的选择性更高。与通常的分类器级联[49]、[54]一样,R-CNN级的级联是按顺序训练的,使用一个级的输出训练下一个级。这利用了这样的观察,即边界框回归器的输出IoU几乎总是优于其输入IoU,如图2(a)所示,其中几乎所有的图都在灰色线以上。结果表明,训练一定IoU阈值的检测器输出是训练下一个IoU阈值较高的检测器的良好假设分布。这与通常用于装配对象检测数据集的boostrapping方法有一些相似之处[14],[54]。主要的区别是级联R-CNN进行的重采样并不旨在挖掘硬底片。相反,通过调整边界框,每个阶段的目标都是为下一阶段的训练找到一组好的接近误报。这种重采样的主要结果是,从一个阶段到下一个阶段,检测假设的质量逐渐提高。结果,检测器序列解决了高质量检测悖论背后的两个问题。首先,由于重采样操作保证了序列中所有检测器训练的大量示例的可用性,因此可以在不过度拟合的情况下训练高IoU的检测器。其次,在推理时使用相同的级联过程产生了一组质量逐渐提高的假设,与检测器级质量的提高很好地匹配。这使得更高的检测精度,如图2所示。
级联R-CNN的实现非常简单,而且端到端都经过训练。我们的结果表明,在具有挑战性的COCO检测任务[36]中,尤其是在更严格的评估指标下,一个普通的实现,没有任何的钟声和哨声,几乎超过了以往所有最先进的单模型检测器。此外,基于R-CNN框架,级联RCNN可以用任意两级目标检测器构建。我们已经观察到一致的增益(2∼4点,在更严格的本地化指标下更高),在计算上略有增加。对于我们测试过的所有模型,这种增益与基线目标检测器的强度无关。因此,我们相信这种简单有效的检测体系结构可以引起许多目标检测研究工作的兴趣。
这份手稿的初步版本先前发表在[3]。在最初的发布之后,级联R-CNN已经在许多不同的代码库中成功地再现,包括流行的Detectron[20]、PyTorch1和TensorFlow2,显示出独立于实现代码库的一致和可靠的改进。在这个扩展版本中,我们将级联R-CNN扩展到实例分割,在级联中添加一个掩码头,称为级联掩码RCNN。这被证明比流行的面具R-CNN取得了非同小可的改进[25]。本文还提出了一个新的更广泛的评价,表明级联R-CNN与检测和实例分割文献中提出的许多互补增强是相容的,其中一些增强是在[3]之后引入的,例如GroupNorm[56]。最后,我们进一步介绍了在各种流行的通用/特定对象检测数据集(包括PASCAL VOC[13]、KITTI[16]、CityPerson[64]和WiderFace[61])上进行的一系列实验的结果。这些实验表明,高质量目标检测的悖论适用于所有这些任务,并且级联R-CNN比以前可用的方法能够更有效地实现高质量检测。由于这些特性,以及它的通用性和灵活性,级联RCNN最近已被COCO 2018实例分割挑战赛3,OpenS映像2018挑战者4,以及更广泛的挑战20185获胜组所采用。为了便于将来的研究,我们发布了两个代码库,Caffe[31]和Detectron[20]。
2相关工作
由于R-CNN[22]检测器的成功,它结合了一个建议检测器和一个区域分类器,这种两级结构在最近的过去已经成为主流。为了减少冗余的CNN计算,SPP网[26]和Fast R-CNN[21]引入了区域特征提取的思想,使得对象实例能够共享大量的特征计算。更快的R-CNN[47]随后通过引入区域建议网络(RPN)进一步加快速度,成为现代目标检测的基石。后来,一些工作扩展了这个检测器来解决各种细节问题。例如,R-FCN[8]提出了有效的区域全卷积,以避免快速R-CNN的沉重CNN计算;Mask R-CNN[25]增加了计算对象掩码以支持实例分割的网络头。一些最近的工作集中于规范特征统计[45 ],[56 ],建模实例之间的关系[28 ],非最大抑制(NMS)[1 ],和其他方面[39 ],[50 ]。
尺度不变性是有效目标检测的重要条件,在文献[2]、[37]、[52]中也得到了广泛的关注。当自然图像包含不同尺度的物体时,由RPN实现的滤波器的固定接收场大小[47]使其易于缩放不匹配,为了克服这个问题,MS-CNN[2]引入了一个多尺度对象建议网络,通过在多个层上生成输出。这将利用不同层的不同接收场大小来生成一组特定于比例尺的建议生成器,然后将其组合成一个强大的多比例尺生成器。类似地,FPN[37]通过在不同网络深度的特征映射中添加自上而下的连接,借助于比例不变的特征表示,在多个输出层检测高召回提议。MS-CNN和FPN都依赖于多尺度目标检测的特征金字塔表示。另一方面,SNIP[52]最近重新审视了现代目标检测中的图像金字塔。它在训练过程中对不同目标尺度的梯度进行规范化,使整个检测器具有尺度特性。利用图像金字塔进行推理,实现了尺度不变检测。
单级目标检测体系结构由于其计算效率也越来越受欢迎。YOLO[46]输出非常稀疏的检测结果,并通过一次通过有效的骨干网络转发输入图像来实现实时目标检测。SSD[40]以类似于RPN[47]的方式检测对象,但使用不同分辨率的多个特征映射覆盖不同比例的对象。这些探测器的主要局限性在于其精度通常低于两级探测器。RetinaNet[38]检测器的提出解决了密集目标检测中前景背景类的极端不平衡问题,取得了与两级检测器相当的效果。最近,CornerNet[33]提出将对象包围盒作为一对关键点进行检测,放弃了快速R-CNN首先引入的锚的广泛使用的概念。该探测器在一些训练和测试改进的帮助下取得了非常好的性能。RefineDet[65]在单次拍摄的SSD[40]中添加了锚定优化模块,以提高定位精度。这与提出的级联R-CNN实现的级联定位有点相似,但忽略了高质量检测的问题。
对多阶段目标检测也提出了一些探索。文献[17]中的多区域检测器引入了迭代包围盒回归,在迭代包围盒回归中,R-CNN被多次应用以产生连续更精确的包围盒。[18],[19],[60]使用了一个多阶段的过程来生成精确的建议,这些建议被转发到一个精确的模型(例如Fast R-CNN)。[43],[62]提出了一种按顺序定位对象的替代方法。虽然这在精神上类似于级联RCNN,但这些方法使用相同的回归器迭代精确定位。另一方面,[34],[44]在目标检测网络中嵌入了经典的级联结构[54]。最后,[7]在检测任务和分割任务之间迭代,实现改进的实例分割。
在这篇手稿的会议版本出版后,有几部作品一直在追求Cascade R-CNN背后的理念[5]、[32]、[41]、[55]。[41],[55]将其应用于单点目标检测器,分别显示了普通目标和行人的高质量单点检测的重要改进。IoU-Net[32]更详细地探索了高质量的定位,通过级联更多的包围盒回归步骤,获得了一些优于级联R-CNN的增益。[24]表明在级联R-CNN的帮助下,无需ImageNet预训练即可实现最先进的目标探测器。这些工作表明,级联R-CNN的思想是稳健的,适用于各种目标检测体系结构。这表明,尽管在目标检测方面有了未来的发展,它仍将继续发挥作用。
图3:不同框架的体系结构。“I”是输入图像,“conv”是主干卷积,“pool”是区域特征提取,“H”是网络头,“B”是包围盒,“C”是分类。“B0”是所有架构中的建议。
3高质量目标检测
在本节中,我们将讨论高质量目标检测的挑战
3.1目标检测
虽然本文提出的思想可以应用于各种检测器架构,但我们将重点放在快速R-CNN的流行的两级架构上[47],如图3(a)所示。第一阶段是提议子网络,其中整个图像由骨干网络(例如ResNet[27])处理,并且提议头(“H0”)被应用来产生被称为对象提议的初步检测假设。在第二阶段,这些假设由表示为检测头的感兴趣区域检测子网络(“H1”)处理。根据假设分配最终分类分数(“C”)和边界框(“B”)。整个检测器是端到端学习的,使用带包围盒回归和分类成分的多任务损失。
3.1.1边界盒回归
边界框 包含图像块x的四个坐标。边界框回归旨在使用回归器将候选边界框回归到目标边界框中。这是从训练集中学习到的,通过最小化风险
如Fast R-CNN[21]所述,
是平滑损失函数。为了鼓励对比例和位置的不变性,对距离向量进行操作,定义为
由于边界盒回归通常对执行小的调整,因此(4)的数值可能非常小。这通常使回归损失比分类损失小得多。为了提高多任务学习的有效性,将其均值和方差归一化,如替换为
这在文献[2]、[8]、[25]、[37]、[47]中被广泛使用。
3.1.2分类
分类器是一个函数,它将图像补丁分配给M+1类中的一个类,其中类0包含要检测的对象的背景类和其余类。是类上后验分布的M+1维估计,即,其中是类标签。给定一个训练集,通过最小化分类风险来学习。
3.2检测质量
考虑与类标签y相关联的边界框g的基本真值对象和边界框b的检测假设x。由于b通常包括对象和一定数量的背景,因此很难确定检测是否正确。这通常由并集上的交集(IoU)度量来解决
如果IoU高于阈值u,则该面片被视为边界框g的对象的类的示例,并被表示为“正”。因此,假设x的类标签是u的函数
如果IoU不超过任何对象的阈值,x被分配给背景并表示为“负”。
虽然没有必要为bounding box回归任务定义正的/整齐的示例,但是也需要IoU threshold u来选择示例集
用来训练回归者。虽然用于这两个任务的IoU阈值不必相同,但这在实践中是常见的。因此,IoU阈值u定义检测器的质量。较大的阈值鼓励检测到的边界框与它们的基本真相对应项紧密对齐。小阈值奖励检测器,产生松散的边界框,与地面真相有小的重叠。
目标检测的一个主要挑战是,无论阈值的选择如何,检测设置都具有很强的对抗性。当u值较高时,积极的因素包含较少的背景,但很难装配大型积极的训练集。当u值较低时,可能有更丰富、更多样的阳性训练集,但训练后的检测器几乎没有拒绝闭合假阳性的动机。一般来说,很难保证单个分类器在所有IoU级别上的性能一致。在推断时,由于由建议检测器产生的大多数假设(例如RPN[47]或选择性搜索[53])具有低质量,检测器必须对低质量假设具有更高的判别性。这些相互冲突的要求之间的一个标准折衷方案是确定u=0.5,几乎所有现代物体探测器都使用u=0.5。然而,这是一个相对较低的阈值,导致低质量的检测,大多数人认为接近假阳性,如图1(a)所示。
图4:各级联级训练样本的IoU直方图。第一级的分布是RPN输出。红色表示相应IoU阈值的阳性百分比。
3.3高质量检测面临的挑战
尽管近几年来在目标检测方面取得了重大进展,但很少有人试图解决高质量检测问题。这主要是由于以下原因。
首先,评估指标历来更重视低质量的检测制度。对于性能评估,IoU阈值u用于确定检测是成功(IoU(b,g)≥u)还是失败(IoU(b,g),许多目标检测数据集,包括PASCAL VOC[13]、ImageNet[48]、Caltech Pedestrian[11]等,使用u=0.5。这在一定程度上是因为这些数据集是在很久以前建立的,当时的目标检测性能远不如现在。然而,这种松散的评估标准甚至被相对较新的数据集所采用,例如WiderFace[61]或CityPersons[64]。这是其中许多数据集性能饱和的主要原因之一。其他的,如COCO[36]或KITTI[16]使用更严格的评估指标:KITTI中car的平均精度为u=0.7,COCO中u=[0.5:0.05:0.95]的平均精度。虽然最近的工作集中在这些饱和程度较低的数据集上,但大多数检测器仍采用松散的IoU阈值u=0.5,这与低质量的检测机制有关。在这项工作中,我们表明,当使用更严格的评价指标,例如u≥0.75时,还有很大的改进空间,并且通过专门为高质量的区域设计检测器,有可能实现显著的改进。
其次,由于高质量检测的矛盾,高质量的对象检测器的设计并不是对现有方法的简单概括。为了克服这个悖论,有必要匹配假设生成器和目标检测器的质量。在文献中,有人努力提高假设的质量,例如通过迭代包围盒回归[18]、[19]或更好的RPN设计[2]、[37],并努力提高目标检测器,例如使用一组IoU阈值的积分损失[63]。这些尝试无法保证高质量的检测,因为它们只考虑其中一个目标,而忽略了需要同时提高两个任务的质量这一事实。一方面,如果检测器仍然是低质量的,那么提高假设的质量没有什么好处,因为后者没有被训练来区分高质量和低质量的假设。另一方面,如果只提高检测器的质量,那么高质量的假设太少,无法对其进行分类,从而导致检测性能没有改善。事实上,由于如图4(左)所示,正样本集随u快速减少,高u检测器容易过度拟合。因此,如图2(c)所示,高u值检测器容易过拟合,并且性能比低u值检测器差。
4级联R-CNN(CASCADE R-CNN)
在本节中,我们将介绍级联R-CNN检测器
4.1 Architecture
级联R-CNN的结构如图3(b)所示。它是对图3(a)中更快的R-CNN架构的多级扩展。在这项工作中,我们关注于检测子网络,简单地采用图3(a)的RPN[47]进行方案检测。然而,级联R-CNN并不局限于这个提议机制,其他选择应该是可能的。如上文所述,目标是同时提高假设和检测器的质量,以实现高质量的目标检测。这是通过级联包围盒回归和级联检测相结合实现的。
4.2级联包围盒回归
高质量的假设在训练过程中很容易产生,在训练过程中可以使用地面真相边界框,例如,通过在地面真相周围取样。困难在于在无法获得基本事实的情况下,在推理时提出高质量的建议。这个问题是通过级联边界盒回归来解决的
如图2(a)所示,单个回归器通常不能在所有质量水平上均匀地工作。然而,正如通常对于姿势回归[10]或面部对齐[4]、[58]、[59]所做的那样,回归任务可以分解为一系列简单的步骤。在级联R-CNN检测器中,该思想是用图3(b)的结构的级联回归器实现的。这包括一系列专业回归者
图5,(4)的距离矢量在不同叶栅级的分布(无归一化)。顶部:绘制(δx,δy)。底部:绘制(δw,δh)。红点是后期IoU阈值增加的异常值,所示的统计数据是在剔除异常值后得到的。
其中T是级联级的总数。关键是每一个回归器都是针对前一个回归器生成的包围盒分布而不是初始分布进行优化的。这样,假设就逐步得到改进。
这在图5中示出,图5示出了不同级联级的回归距离向量的分布。请注意,当大多数假设在级联过程中进行时,它们会变得更接近基本事实。也有一些假设不符合更严格的IoU标准的后期级联阶段。这些被声明为异常值并被消除。应注意的是,如第3.1.1节所述,为了有效的多任务学习,需要对进行均值/方差标准化,如第(5)节所述。在这个离群值去除步骤之后计算的平均值和方差统计用于在每个级联阶段对进行标准化。我们的实验表明,这种级联包围盒回归的实现在训练和推理方面都产生了非常高质量的假设。
4.3级联检测
如图4的左边所示,由RPN产生的初始假设分布严重地向低质量倾斜。例如,对于IoU阈值u=0.7,只有2.9%的示例是正的。这使得训练高质量的探测器变得困难。级联R-CNN利用级联回归作为重采样机制来解决这个问题这是受图2(a)启发的,图中几乎所有曲线都在对角线灰线以上,显示为某个u训练的边界盒回归器倾向于产生较高IoU的边界盒。因此,从实例开始,级联回归连续地重新计算较高IoU的一个实例分布。这使得连续级的正示例集能够保持大致恒定的大小,即使当检测器质量u增加时也是如此。图4演示了这个属性,显示了在每个重采样步骤之后,示例分布是如何更严重地向高质量示例倾斜的。
在每个阶段t,R-CNN头部包括针对相应IoU阈值优化的分类器和回归器,其中。通过损失式中,是的基本真值对象,λ=1权衡系数,是criterian下的标签,根据(9),[·]是指示函数。注意,[·]的使用意味着包围盒回归的IoU阈值u与用于分类的相同。这种级联学习对探测器训练有三个重要的影响。首先,降低了在较大IoU阈值u处过度拟合的可能性,因为正的例子在所有阶段都变得丰富(参见图4)。第二,对于较高的IoU阈值,较深阶段的探测器是最佳的。第三,由于随着IoU阈值的增加(见图5),一些离群值被移除,因此包围盒回归的学习效果在后期增加。这种假设和检测器质量的同时改进使得级联R-CNN能够克服高质量检测的悖论。在推断时,应用相同的级联。假设的质量是依次提高的,而更高质量的检测器只需要对更高质量的假设进行操作,对于更高质量的假设,它们是最优的。这使得如图2所示的图1(b)的高质量目标检测结果成为可能。
4.4与以往工作的差异
级联R-CNN与以往的迭代包围盒回归和积分损失检测方法有相似之处。然而,也有一些重要的区别。
迭代包围盒回归:一些文献[17]、[18]、[27]先前认为使用单个包围盒回归器f不足以进行精确定位。作为后处理步骤,这些方法迭代地应用f
改进边界框b的一种方法。这称为迭代边界框回归,表示为迭代边界框。它可以用图3(c)的推理架构来实现,其中所有头部都是相同的。注意,这仅用于推断,因为训练与两级目标检测器的训练相同,例如图3(a)中速度更快的R-CNN,u=0.5。这种方法忽略了两个问题。首先,如图2所示,在u=0.5时训练的回归因子f对于高iod的假设是次优的。它实际上会降低ios大于0.85时的包围盒精度。其次,如图5所示,在每次迭代之后,边界框的分布显著地改变。虽然回归器对于初始分布是最优的,但之后可能是次优的。由于这些问题,迭代BBox需要相当数量的人力工程,如提案积累、投票箱等,并且有一些不可靠的收益[17]、[18]、[27]。通常情况下,两次应用f是没有好处的。
级联R-CNN在几个方面不同于迭代BBox。首先,迭代BBox是用于改进边界盒的后处理过程,级联R-CNN使用级联回归作为重采样机制,改变不同阶段处理的假设分布。其次,因为级联回归用于训练和推理,所以没有差异在训练和推理分布之间。第三,多元专业回归方程对于不同阶段的重采样分布是最优的。这不同于(13)的单f,它只对初始分布是最优的。我们的实验表明,级联R-CNN比迭代BBox更能实现精确的定位,而且不需要人工。
图6:掩模R-CNN(a)和三个级联掩模R-CNN策略的结构,例如分段(b)-(d)。在图3的定义之外,“S”表示分段分支。注意,分段分支不一定与检测分支共享头部。
积分损失:[63]提出了一个具有图3(d)结构的分类器集合,并使用积分损失进行训练。这是个损失
它针对不同的质量水平,由一组IoU阈值U={0.5,0.55,···,0.75}定义,选择适合COCO挑战的评估指标。
级联R-CNN在几个方面与这个探测器不同。首先,(14)未能解决各种损失条款对不同数量的积极因素起作用的问题。如图4(左)所示,正样本集随u快速减少。这是特别有问题的,因为它使得高质量的分类器非常容易过度拟合。另一方面,如图4所示,随着IoU阈值u的增加,级联R-CNN的重采样产生几乎恒定数量的正示例。其次,在推理时,高质量的分类器需要处理压倒性的低质量的建议,而这些建议并不是最优的。这与级联R-CNN的高质量检测器不同,后者只需要在高质量假设下工作。第三,积分损失被设计成符合COCO度量,并且根据定义,分类器在推理时被集成。级联RCNN的目标是实现高质量的检测,而高质量的检测器本身在最后阶段可以获得最先进的检测性能。因此,对于大多数质量水平,图3(d)中的积分损耗检测器通常不能优于图3(a)中的香草检测器。这与Cascade R-CNN不同,后者可以有显著的改进。
5实例分割
实例分割在最近几年变得很流行[7],[25],[39]。它的目标是预测每个实例的像素级分割,以及确定其对象类。这比对象检测更困难,对象检测只预测每个实例的边界框(加类)。一般来说,实例分割是在目标检测的基础上实现的,而一个更强的目标检测通常会导致实例分割的改进。最常用的分割方法可以说是掩模R-CNN[25]。和级联R-CNN一样,它是两级探测器的变体。在本节中,我们将级联R-CNN架构扩展到实例分割任务中,添加一个类似于Mask R-CNN的分割分支。
5.1Mask R-CNN
Mask R-CNN(25)通过在训练期间与现有的检测分支并行地添加分段分支来扩展更快的R-CNN。其结构如图6(a)所示。训练实例也是用来训练检测任务的正面例子。在推断时,对于所有检测到的对象,对象检测都用分割遮罩来补充。
5.2 Cascade Mask R-CNN
在掩模R-CNN中,分割分支与检测分支并行插入。然而,级联R-CNN有多个检测分支。这就提出了以下问题:1)在何处添加分段分支;2)要添加多少分段分支。在级联R-CNN中,我们考虑了三种掩模预测策略。前两种策略解决第一个问题,分别在级联R-CNN的第一级或最后级添加单个掩模预测头,如图6(b)和(c)所示由于用于训练分割分支的实例是检测分支的积极因素,因此它们的数量在这两种策略中有所不同。如图4所示,稍后将分割头放置在级联上导致更多示例。然而,由于分割是一个像素级的操作,大量高度重叠的实例并不一定有助于目标检测,而目标检测是一个基于补丁的操作。如图6(d)所示,第三策略处理第二问题,向每个级联阶段添加分割分支。这最大化了用于学习掩码预测任务的样本的多样性。
在推理时,这三种策略都预测最终目标检测阶段产生的斑块上的分割掩模,而不考虑实现分割掩模的级联阶段以及有多少分割分支。最后的掩模预测是从图6(b)和(c)的架构的单个分割分支和图6(d)的架构的三个分割分支的集合中获得的。实验表明,级联掩模R-CNN的结构优于掩模R-CNN。
6实验结果
6.1实验装置
实验在多个数据集和基线网络架构上进行。
6.1.1数据集
大部分实验是在MS-COCO 2017[36]上进行的,其中包含∼118k张用于训练的图像、5k张用于验证(val)的图像和∼20k张用于未提供注释的测试(测试开发)。COCO平均精度(AP)测量IoU阈值范围内的平均AP,范围为0.5到0.95,间隔为0.05。它测量不同质量的检测性能,鼓励高质量的检测结果,如第3.3节所述。所有模型均在COCO训练集上进行训练,并在val集上进行评估。最终结果也会在测试开发集上报告,以便与最新技术进行公平比较。为了评估级联RCNN的鲁棒性和泛化能力,还对Pascal VOC[13]、KITTI[16]、CityPersons[64]和WiderFace[61]进行了实验。使用与目标检测相同的评估指标,在COCO上对实例分割进行评估。唯一的区别是IoU是根据掩码而不是边界框计算的。
6.1.2实施细则
为了简单起见,所有回归函数都是类不可知的。所有级联R-CNN检测级具有相同的结构,即基线检测器的检测头。除非另有说明,否则级联R-CNN由四个阶段实现:一个RPN和三个阈值为U={0.5,0.6,0.7}的检测头。第一检测阶段的采样遵循[21],[47]。在随后的阶段,如第4.3节所述,通过使用前一阶段的所有回归输出来实现重采样。除标准水平图像翻转外,未使用数据增强。推理是在一个单一的图像尺度下进行的,没有进一步的钟声和口哨声。为了公平比较,所有基线检测器都用Caffe[31]重新实现,使用相同的代码基。在Detectron平台上进行了FPN和掩模R-CNN基线的实验。
6.1.3基线网络
为了测试级联R-CNN的多功能性,在多个常用基线上进行了实验:VGG-Net[51]主干的快速RCNN和MS-CNN[2],ResNet主干的RFCN[8]和FPN[37],目标检测任务,ResNet主干的掩码R-CNN[25],例如分割。这些基线具有广泛的性能。除非另有说明,否则将使用它们的默认设置。采用端到端训练代替多步训练。
Faster R-CNN:网络头有两个完全连接的层。为了减少参数,使用了[23]来修剪不太重要的连接。每个完全连接的层保留2048个单元,并移除脱落层。这些变化对检测性能的影响可以忽略不计。训练开始时学习率为0.002,在60k和90k次迭代时,学习率降低了10倍,在100k次迭代时停止,在2个同步gpu上,每个迭代保存4个图像。每张图像使用128个roi。
R-FCN:R-FCN向ResNet添加卷积、包围盒回归和分类层。对于这个基线,所有级联R-CNN头都有这个结构。未使用在线硬负挖掘[50]。训练开始时学习率为0.003,在160k和240k次迭代时学习率降低了10倍,在280k次迭代时停止,在4个同步gpu上,每个迭代保存一个图像。每张图像使用256个roi。
FPN:由于在我们执行最初的实验时,FPN的官方源代码并不公开[3],因此实现细节与后来在Detectron实现中提供的有些不同。roalign[25]被用于更强的基线。这被称为FPN+,用于所有消融研究,ResNet-50通常作为主干。在8个同步GPU上,训练使用0.005的学习率(120k次迭代)和0.0005的学习率(60k次迭代),每个GPU每次迭代保存一个图像。每个图像使用256个roi。我们还重新实现了级联R-CNN的FPN在Detectron平台上,当它是公开可用的。
MS-CNN:MS-CNN[2]是一种流行的多尺度目标检测器,用于特定的目标类别,如车辆、行人、人脸等。它被用作KITTI、Cityperson和WiderFace实验的基线检测器。对于这一基线,级联R-CNN采用了与MS-CNN相同的两步训练策略:先训练提议子网,然后进行联合端到端训练。所有检测头只在第二步添加,其中学习率最初为0.0005,在10k和20k迭代时减少10倍,在25k迭代时停止,在一个批量大小为4的GPU图像上。
Mask R-CNN:掩模R-CNN被用作例如分割的基线。采用默认的Detectron实现,使用1x学习计划。训练以0.02的学习率开始,在60k和80k迭代时,学习率降低了10倍,在90k迭代时停止,在8个同步gpu上,每个迭代持有2个图像。每张图像使用512个roi。
6.2质量不匹配
设计了一组初始实验来评估方案与检测器质量不匹配对检测性能的影响。图7(a)显示了在U={0.5,0.6,0.7}中增加IoU阈值的三个单独训练的检测器的AP曲线。在低IoU水平下,u=0.5的检测器性能优于u=0.6的检测器,但在高IoU水平下性能较差。然而,u=0.7的探测器性能不如其他两个。为了理解为什么会发生这种情况,我们在推断时改变了建议的质量。图7(b)显示了将地面真值边界框添加到建议集时获得的结果。虽然所有探测器都有所改进,但u=0.7的探测器的增益最大,几乎所有IoU级别的性能都最好。这些结果表明了两个结论。首先,通常使用的u=0.5阈值对于精确的检测并不有效,只是对低质量的检测更具鲁棒性建议。其次,精确的检测需要与检测器质量相匹配的假设
接下来,原来的提案被更高质量的级联R-CNN提案所取代(u=0.6和u=0.7分别使用第二和第三阶段提案)。图7(a)表明,当测试方案的质量与探测器质量相匹配时,两个探测器的性能显著提高。在所有级联阶段测试不同质量的级联R-CNN探测器产生了类似的观察结果。图8显示,通过使用更精确的假设,每个检测器都得到了改进,更高质量的检测器显示出更大的增益。例如,u=0.7的检测器在第1阶段的低质量建议中表现不佳,但在较深的级联阶段中更精确的假设中表现更佳。即使使用相同的建议,图8的联合训练的检测器也优于图7(a)的单独训练的检测器。这表明检测器在级联R-CNN结构中得到了更好的训练。
6.3与迭代BBox和积分损失的比较
在本节中,我们将级联R-CNN与迭代BBox和积分损失检测器进行了比较。迭代BBox是通过在推理时迭代地应用FPN+基线的检测头,三次实现的。利用U={0.5,0.6,0.7},用三个分类头实现了积分损耗检测器。
定位:级联回归和迭代BBox的定位性能在图9(a)中进行了比较。对于高IoU的假设,使用一个单一的回归器会降低定位。当迭代应用回归器时,这种影响会累积,如在迭代BBox中,并且性能实际上会随着迭代次数的增加而下降。注意迭代BBox在3次迭代后的性能非常差。相反,级联回归器在后期有更好的性能,在几乎所有IoU级别上都优于迭代BBox。注意,虽然级联回归可以稍微降低高输入的IoU,例如IoU>0.9,但是这种降低可以忽略不计
因为,如图4所示,具有如此高的iod的假设的数量非常少。
积分损失:图9(b)总结了积分损失检测器的所有分类器的检测性能,共享一个回归器。u=0.6的分类器在所有IoU级别上都是最好的,u=0.7产生的结果最差。所有分类器的集合都没有显示可见的增益。
表1显示迭代BBox和积分损失在基线检测器上都略有改善,并且对于高质量检测无效。另一方面,Cascade R-CNN在所有IoU级别上都取得了最好的性能。正如预期的那样,低IOS的收益是温和的,例如AP50的收益是0.8,但高IOS的收益是显著的,例如AP80的收益是6.1,AP90的收益是8.7。注意,在这项工作之前,很少探索高质量的目标检测。这些实验表明:1)它比低质量的AP50检测有更大的改进空间;2)如果能有效地解决,整个AP都能得到显著的改善。
6.4烧蚀实验
为了更好地理解级联R-CNN,我们进行了一些消融实验。
阶段性比较:表2总结了阶段性表现。注意,由于多阶段多任务学习的优点,第一阶段已经优于基线检测器。因为更深层次的级联阶段更喜欢高质量的本地化,所以它们鼓励学习有利于本地化的特性。这有利于早期的级联阶段,因为骨干网共享了特性。第二阶段大大提高了性能,第三阶段相当于第二阶段。这与积分损失检测器不同,后者的IoU分类器相对较弱。虽然前(后)阶段在低(高)IoU度量上更好,但所有分类器的集成是总体上最好的。
IoU阈值:使用IoU阈值u=0.5对所有头部进行级联R-CNN训练。在这种情况下,阶段只在输入的假设上有所不同。每个阶段都使用相应的假设进行训练,即,考虑图5的分布变化。表3的第一行显示这个级联改进了基线检测器。这支持了阶段应该针对相应的样本分布进行优化的说法。第二行显示当阈值u跨阶段增加时性能进一步提高。如第4.3节所述,检测器对接近假阳性变得更具选择性,并且专门针对更精确的假设。
表2:级联R-CNN的分段性能。1∼3表示集合结果,通过对第三阶段方案的三个分类器概率进行平均得到。
表3:烧蚀实验。“IoU `”表示IoU阈值增加,“更新统计数据”表示回归统计数据更新,“阶段损失”表示阶段损失权重。
回归统计:在第3.1.1节中,我们看到距离向量通过回归统计(均值和方差)进行了归一化,如(5)所示。在级联R-CNN中,如图5所示,逐步更新这些统计数据。在更深阶段更新(5)的统计数据有助于有效的分类和回归多任务学习。从经验上讲,学习对这些统计数据的确切值不是很敏感。为简单起见,在所有实验中,我们为所有阶段设置μ=0,为第一阶段设置∑=(σx,σy,σw,σh)=(0.1,0.1,0.2,0.2),为第二阶段设置∑/2,为第三阶段设置∑/3。与在所有阶段(第一行和第二行)中使用第一阶段的统计数据相比,表3的第三行和第四行显示这是有益的。
阶段损失:级联R-CNN有多个探测头,每个探测头都有自己的损失。我们探索了两种方案来组合这些损失:衰减和平均值。在平均值中,阶段t的损失得到权重wt=1/t,其中t是阶段数。在衰变过程中,重量为wt=1/2t-1。对于这两种方案,t级头部参数的学习率被重新调整为1/wt,以确保这些参数得到足够的训练。骨干网参数不需要重新缩放,因为它们从所有阶段接收梯度。表3显示,1)avg在高质量度量方面有较好的性能,但在低质量度量方面有较差的性能;2)这两种方法具有相似的总体AP。本文的其余部分使用了衰减格式。
级数:表4总结了级数对级联R-CNN性能的影响。添加第二级显著改善了基线检测器。三个检测阶段仍然会产生不小的改进,但是增加一个4thstage(u=0.75)会稍微降低性能。不过,请注意
当整个AP降低时,四级级联在高IoU水平下有最好的性能。三级级联实现了成本与AP性能的最佳折衷,并在剩余的实验中得到了应用。
6.5与最新技术的比较
基于FPN+检测器和ResNet-101骨干网的级联R-CNN的实现与表5,6中的最新单模型检测器进行了比较。这些设置是第6.1.3节的设置,但是训练使用了280k次迭代,学习率在160k次和240k次迭代时降低。roi也增加到512个。表的顶部向一级探测器报告,中间向两级报告,底部向多级报告(级联R-CNN为3级+RPN)。注意,所有比较的最新探测器都经过了u=0.5的训练。
初步的观察是,我们的FPN+实现比最初的FPN[37]要好,提供了非常强的基线。然而,从FPN+扩展到Cascade R-CNN,性能提高了4个百分点。事实上,香草级联R-CNN,没有任何钟声和口哨声,在所有评估指标下都优于几乎所有的单模型检测器。这包括COCO challenge 2016获奖者G-RMI[29]、最近的可变形R-FCN[9]、RetinaNet[38]、Mask R-CNN[25]、RelationNet[28]、DetNet[35]、CornerNet[33]等。注意,其中一些方法利用了一些训练或推理增强,例如多尺度、软NMS[1]等,使得比较非常不公平。最后,与COCO上先前最好的多级检测器AttractioNet[18]相比,vanilla Cascade R-CNN的性能提高了7.1个百分点
表5中唯一优于级联R-CNN的检测器是SNIP[52],它使用多尺度训练和推断、更大的输入尺寸、更强的主干、软NMS和一些其他增强。为了更公平的比较,我们使用多尺度训练/推理、更强的骨干(ResNeXt-152[57])和掩模监督等实现了级联R-CNN,这种增强的级联R-CNN比SNIP高5.2个点。它的性能也优于单型号MegDet探测器(50.6map),后者在2017年赢得了COCO挑战赛,并使用了许多其他增强功能[45]。级联R-CNN在概念上简单明了,易于实现,并且可以以即插即用的方式与许多检测器体系结构相结合。
6.6泛化能力
为了更彻底地检验这一说法,使用三个基线检测器实现了三级级联R CNN:更快的R-CNN、R-FCN和FPN+。所有设置如上所述,第6.5节讨论了FPN+探测器。表6给出了三个探测器的AP性能比较。
检测性能:同样,我们的实现比原始的检测器[8]、[37]、[47]要好。尽管如此,Cascade R-CNN在所有基线上提高了2∼4点,这与它们的强度无关。val和test-dev也有类似的增益。这些结果表明级联R-CNN在探测器结构中有广泛的应用。
参数和时间:级联R-CNN参数的数量随着级数的增加而增加。这种增加是线性的,并且与基线探测头的参数基数成正比。然而,由于头部的计算量远小于骨干网,级联R-CNN在训练和测试上的计算开销都很小。如表6所示。
代码库和骨干网:FPN的级联R-CNN也在Detectron代码库[20]上重新实现,具有各种骨干网。表7总结了这些实验,显示了非常一致的改善(3∼4点)跨骨干。Cascade R-CNN也被其他研究小组在Pythorch和TensorFlow上独立复制。这再次表明级联R-CNN可以在检测器体系结构、主干网、代码库和实现中提供可靠的增益。
Faster R-CNN:如图3(b)所示,级联R-CNN不限于标准的快速R-CNN架构。为了验证这一点,我们使用预先收集的建议,以快速R-CNN的方式训练Cascade R-CNN。结果表7显示,级联R-CNN的增益对于更快的R-CNN以外的框架有效。
组规范化:组规范化(GN)[56]是一种新的规范化技术,发表在级联R-CNN之后。它解决了批量规范化(BN)[30]必须冻结以进行对象检测器训练的问题,因为可以从小批量中获得不准确的统计信息[45]。GN是与批大小无关的BN的替代品,其性能与大批量同步BN相当。表7显示,级联R-CNN与GN有类似的收益,为其他架构。这表明Cascade R-CNN将继续有用,即使架构增强继续出现在文献中。
6.7建议书评审
表8总结了用FPN检测器和ResNet-50骨干网实现的级联R-CNN的方案召回性能。第一级级联R-CNN阶段的方案召回接近FPN基线。附加的包围盒回归阶段显著提高了召回率,例如AP1k从59.1提高到70.7,AP1k l接近20个点。这表明附加的包围盒回归在提高提案召回率方面非常有效。增加第三级的增益较小,但不可忽略。这种高建议召回性能保证了以后高质量的目标检测任务。
6.8级联掩码R-CNN实例分割
表9总结了图6的级联掩模R-CNN策略的实例分割性能。这些实验,使用掩模R-CNN,在Detectron上以1x时间表为基线实现。所有这三种策略在基线性能上都有所改善,尽管其增益比目标检测小(见表2),特别是在高质量的情况下。例如,ap90对目标检测8.7点的改进降到了1.8点,这说明为提高高质量的实例分割留下了很大的空间。比较策略,(c)优于(b)。这是因为(b)在第一阶段训练掩模头,但在最后阶段后测试,导致掩模预测不匹配。这种不匹配减少了(c)。通过策略(d)在每个阶段中添加一个掩码分支比(c)没有明显的好处,但是需要更多的计算和内存。策略(b)在成本和AP性能之间具有最佳的权衡,并在本文的其余部分中使用。
为了评估级联掩码R-CNN的实例分割稳健性,在表10中比较了几种骨干网络。由于该体系结构能够检测出目标,因此也给出了检测结果。请注意,附加的掩码监督使这些比表7中的更好。级联掩模R-CNN的增益对于所有骨干网都非常一致。即使最强的模型ResNeXt-152[57]与训练数据增强和1.44x调度一起使用,级联掩模R-CNN的检测增益为2.9点,例如分割增益为1.0点。加上推理增强,检测的增益仍然是2.1点,例如分割的增益仍然是0.8点。这种稳健性解释了Cascade RCNN在COCO challenge 2018中广泛应用的原因,在COCO challenge 2018中,任务是实例分割,而不是对象检测。
6.9帕斯卡VOC结果
Cascade R-CNN在PASCAL VOC数据集上进行了进一步的测试[13]。在[40],[47]之后,对这些模型进行了VOC2007和VOC2012训练(16551张图片),并进行了VOC2007测试(4952张图片)。评估了两种探测器结构:更快的R-CNN
(使用AlexNet和VGG网络主干)和R-FCN(使用ResNet-50和ResNet-101)。训练细节如第6.1.3节所述,AlexNet和VGG Net都被剪除。更具体地说,更快的R-CNN(R-FCN)训练以0.001(0.002)的学习率开始,在30k(60k)时降低10倍,在45k(90k)迭代时停止。由于标准VOC评价指标(AP-at-IoU为0.5)已经相当饱和,而本研究的重点是高质量的检测,因此COCO指标被用于评价7。表11总结了所有探测器的性能,表明级联R-CNN在所有情况下都显著改善了整体AP。这些结果进一步证明了级联R-CNN的鲁棒性。
6.10其他数据集的附加结果
除了一般的目标检测数据集外,级联RCNN还测试了一些特定的目标检测任务,包括KITTI[16]、CityPerson[64]和WiderFace[61]。MS-CNN[2]是一种在这些任务中表现出色的检测器,被用作所有这些任务的基线。
KITTI:最受欢迎的自动驾驶数据集之一,KITTI包含7481个训练/验证图像,以及7518个用于使用保留注释进行测试的图像。二维目标检测任务包括三类:汽车、行人和骑自行车者。评估基于三种类别的VOC AP,IoU分别为0.7、0.5和0.5。由于这项工作的重点是高质量的检测,级联R-CNN只在汽车类测试。如表12所示,在测试集上,中度组的基线提高了0.87分,重度组的基线提高了1.9分。考虑到MS-CNN是一个强大的检测器,而且KITTI汽车检测任务已经相当饱和,这些改进是不平凡的。
CityPersons:CityPersons是一个最近发布的行人检测数据集,在多个欧洲城市收集。它包含2975个训练图像和500个验证图像,以及1575个用于保存注释的测试图像。评估基于IoU=0.5的未命中率(MR)。我们还报告了在IoU=0.75时的磁共振结果,这与高质量检测更相称。这与最近采用更严格的COCO指标进行行人和人脸检测的趋势一致,例如,参见2018年更广泛的挑战。表13比较了级联R-CNN和基线MS-CNN的验证集性能(验证集和测试集的性能通常在此数据集上相等)。级联R-CNN具有很大的性能增益,特别是对于更严格的评价指标。例如,在MR75的合理设置上,它将基线性能提高了10个点。
WiderFace:最具挑战性的人脸检测数据集之一,主要是由于其在规模、姿态和遮挡方面的多样性,WiderFace包含32203个图像,其中有393703个带注释的人脸,其中12880个用于训练,3226个用于验证,其余的用于保留注释的测试。评估基于IoU=0.5的VOC AP,对三个不同检测难度的子集,易、中、难进行评估。同样,我们使用了IoU=0.5和IoU=0.75的AP和对验证集的求值。表14显示,虽然级联R-CNN接近AP50的基线MS-CNN,但它显著提高了AP75的性能。由于前者主要包含非常小且严重遮挡的人脸,因此在硬图像上的增益比在易图像和中等图像上的增益小,这给高质量的检测带来了困难。这一观察反映了表6中的COCO实验,其中APSA的改进小于APL。
7结论
在这项工作中,我们提出了一个多阶段的目标检测框架,级联R-CNN,用于高质量的目标检测,这是检测文献中很少探讨的问题。该结构克服了训练过程中的过拟合和推理过程中的质量失配带来的高质量检测挑战。这是通过依次训练阶段来实现的,使用一个阶段的输出来训练下一个阶段,并且在推理时应用相同的级联。级联R-CNN在多个具有挑战性的数据集(包括COCO、PASCAL VOC、KITTI、CityPersons和WiderFace)上实现了非常一致的性能增益,用于通用和特定对象检测。对于许多对象检测器、骨干网络、检测和实例分割技术,也观察到了这些增益。因此,我们相信级联RCNN可以用于许多未来的目标检测和实例分割研究工作。
感谢:这项工作是由国家科学基金会奖IIS-1546305和IIS-1637941,以及英伟达的GPU捐款资助的。我们还要感谢何凯明的宝贵讨论。
REFERENCES
[1] N. Bodla, B. Singh, R. Chellappa, and L. S. Davis. Soft-nms -
improving object detection with one line of code. In ICCV, pages
5562–5570, 2017. 3, 10
[2] Z. Cai, Q. Fan, R. S. Feris, and N. Vasconcelos. A unified multi-
scale deep convolutional neural network for fast object detection.
In ECCV, pages 354–370, 2016. 3, 4, 5, 8, 12
[3] Z. Cai and N. Vasconcelos. Cascade R-CNN: Delving into high
quality object detection. In CVPR, 2018. 3, 8
[4] X. Cao, Y . Wei, F. Wen, and J. Sun. Face alignment by explicit shape
regression. In CVPR, pages 2887–2894, 2012. 5
[5] K. Chen, J. Pang, J. Wang, Y . Xiong, X. Li, S. Sun, W. Feng, Z. Liu,
J. Shi, W. Ouyang, C. C. Loy , and D. Lin. Hybrid task cascade for
instance segmentation. CoRR, abs/1901.07518, 2019. 3
[6] C. Cortes and V . Vapnik. Support-vector networks. Machine
Learning, 20(3):273–297, 1995. 2
[7] J. Dai, K. He, and J. Sun. Instance-aware semantic segmentation
via multi-task network cascades. In CVPR, pages 3150–3158, 2016.
3, 7
[8] J. Dai, Y . Li, K. He, and J. Sun. R-FCN: object detection via region-
based fully convolutional networks. In NIPS, pages 379–387, 2016.
3, 4, 8, 11
[9] J. Dai, H. Qi, Y . Xiong, Y . Li, G. Zhang, H. Hu, and Y . Wei.
Deformable convolutional networks. In ICCV, 2017. 10, 11
[10] P . Doll´ ar, P . Welinder, and P . Perona. Cascaded pose regression. In
CVPR, pages 1078–1085, 2010. 5
[11] P . Doll´ ar, C. Wojek, B. Schiele, and P . Perona. Pedestrian detection:
An evaluation of the state of the art. IEEE T rans. Pattern Anal.
Mach. Intell., 34(4):743–761, 2012. 5
[12] C. Elkan. The foundations of cost-sensitive learning. In IJCAI,
pages 973–978, 2001. 1
[13] M. Everingham, L. J. V . Gool, C. K. I. Williams, J. M. Winn, and
A. Zisserman. The pascal visual object classes (VOC) challenge.
International Journal of Computer Vision, 88(2):303–338, 2010. 3, 5, 8,
12
[14] P . F. Felzenszwalb, R. B. Girshick, D. A. McAllester, and D. Ra-
manan. Object detection with discriminatively trained part-based
models. IEEE T rans. Pattern Anal. Mach. Intell., 32(9):1627–1645,
2010. 2
[15] Y . Freund and R. E. Schapire. A decision-theoretic generalization
of on-line learning and an application to boosting. In EuroCOLT,
pages 23–37, 1995. 2
[16] A. Geiger, P . Lenz, and R. Urtasun. Are we ready for autonomous
driving? the KITTI vision benchmark suite. In CVPR, pages 3354–
3361, 2012. 3, 5, 8, 12
[17] S. Gidaris and N. Komodakis. Object detection via a multi-region
and semantic segmentation-aware CNN model. In ICCV, pages
1134–1142, 2015. 3, 6
[18] S. Gidaris and N. Komodakis. Attend refine repeat: Active box
proposal generation via in-out localization. In BMVC, 2016. 3, 5,
6, 10, 11
[19] S. Gidaris and N. Komodakis. Locnet: Improving localization
accuracy for object detection. In CVPR, pages 789–798, 2016. 3,
5
[20] R. Girshick, I. Radosavovic, G. Gkioxari, P . Doll´ ar, and K. He. De-
tectron. https://github.com/facebookresearch/detectron, 2018. 3,
11, 13
[21] R. B. Girshick. Fast R-CNN. In ICCV, pages 1440–1448, 2015. 1, 3,
4, 8
[22] R. B. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hi-
erarchies for accurate object detection and semantic segmentation.
In CVPR, pages 580–587, 2014. 1, 3
[23] S. Han, J. Pool, J. Tran, and W. J. Dally . Learning both weights and
connections for efficient neural network. In NIPS, pages 1135–
1143, 2015. 8
[24] K. He, R. Girshick, and P . Doll´ ar. Rethinking imagenet pre-
training. arXiv preprint arXiv:1811.08883, 2018. 3
[25] K. He, G. Gkioxari, P . Doll´ ar, and R. Girshick. Mask r-cnn. In
ICCV, 2017. 3, 4, 7, 8, 10, 11
[26] K. He, X. Zhang, S. Ren, and J. Sun. Spatial pyramid pooling
in deep convolutional networks for visual recognition. In ECCV,
pages 346–361, 2014. 3
[27] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for
image recognition. In CVPR, pages 770–778, 2016. 4, 6, 8, 11
[28] H. Hu, J. Gu, Z. Zhang, J. Dai, and Y . Wei. Relation networks for
object detection. In IEEE CVPR, volume 2, 2018. 3, 10, 11
[29] J. Huang, V . Rathod, C. Sun, M. Zhu, A. Korattikara, A. Fathi,
I. Fischer, Z. Wojna, Y . Song, S. Guadarrama, and K. Murphy .
Speed/accuracy trade-offs for modern convolutional object detec-
tors. CoRR, abs/1611.10012, 2016. 10, 11
[30] S. Ioffe and C. Szegedy . Batch normalization: Accelerating deep
network training by reducing internal covariate shift. In ICML,
pages 448–456, 2015. 11
[31] Y . Jia, E. Shelhamer, J. Donahue, S. Karayev, J. Long, R. B. Girshick,
S. Guadarrama, and T. Darrell. Caffe: Convolutional architecture
for fast feature embedding. In MM, pages 675–678, 2014. 3, 8
[32] B. Jiang, R. Luo, J. Mao, T. Xiao, and Y . Jiang. Acquisition of
localization confidence for accurate object detection. In ECCV,
pages 816–832, 2018. 3
[33] H. Law and J. Deng. Cornernet: Detecting objects as paired
keypoints. In ECCV, pages 765–781, 2018. 3, 10, 11
[34] H. Li, Z. Lin, X. Shen, J. Brandt, and G. Hua. A convolutional
neural network cascade for face detection. In CVPR, pages 5325–
5334, 2015. 3
[35] Z. Li, C. Peng, G. Yu, X. Zhang, Y . Deng, and J. Sun. Detnet: Design
backbone for object detection. In ECCV, pages 339–354, 2018. 10,
11
[36] T. Lin, M. Maire, S. J. Belongie, J. Hays, P . Perona, D. Ramanan,
P . Doll´ ar, and C. L. Zitnick. Microsoft COCO: common objects in
context. In ECCV, pages 740–755, 2014. 2, 5, 8
[37] T.-Y . Lin, P . Doll´ ar, R. Girshick, K. He, B. Hariharan, and S. Be-
longie. Feature pyramid networks for object detection. In CVPR,
2017. 1, 3, 4, 5, 8, 10, 11
[38] T.-Y . Lin, P . Goyal, R. Girshick, K. He, and P . Doll´ ar. Focal loss for
dense object detection. In ICCV, 2017. 3, 10, 11
[39] S. Liu, L. Qi, H. Qin, J. Shi, and J. Jia. Path aggregation network
for instance segmentation. In IEEE CVPR, pages 8759–8768, 2018.
3, 7
[40] W. Liu, D. Anguelov , D. Erhan, C. Szegedy , S. E. Reed, C. Fu, and
A. C. Berg. SSD: single shot multibox detector. In ECCV, pages
21–37, 2016. 3, 11, 12
[41] W. Liu, S. Liao, W. Hu, X. Liang, and X. Chen. Learning effi-
cient single-stage pedestrian detectors by asymptotic localization
fitting. In ECCV, pages 643–659, 2018. 3
[42] H. Masnadi-Shirazi and N. Vasconcelos. Cost-sensitive boosting.
IEEE T rans. Pattern Anal. Mach. Intell., 33(2):294–309, 2011. 1
[43] M. Najibi, M. Rastegari, and L. S. Davis. G-CNN: an iterative grid
based object detector. In CVPR, pages 2369–2377, 2016. 3
[44] W. Ouyang, K. Wang, X. Zhu, and X. Wang. Learning chained
deep features and classifiers for cascade in object detection. CoRR,
abs/1702.07054, 2017. 3
[45] C. Peng, T. Xiao, Z. Li, Y . Jiang, X. Zhang, K. Jia, G. Yu, and J. Sun.
Megdet: A large mini-batch object detector. In IEEE CVPR, pages
6181–6189, 2018. 3, 10, 11
[46] J. Redmon, S. K. Divvala, R. B. Girshick, and A. Farhadi. You only
look once: Unified, real-time object detection. In CVPR, pages 779–
788, 2016. 3, 11
[47] S. Ren, K. He, R. B. Girshick, and J. Sun. Faster R-CNN: towards
real-time object detection with region proposal networks. In NIPS,
pages 91–99, 2015. 1, 3, 4, 5, 8, 11, 12
[48] O. Russakovsky , J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma,
Z. Huang, A. Karpathy , A. Khosla, M. S. Bernstein, A. C. Berg,
and F. Li. Imagenet large scale visual recognition challenge.
International Journal of Computer Vision, 115(3):211–252, 2015. 5
[49] M. J. Saberian and N. Vasconcelos. Learning optimal embedded
cascades. IEEE T rans. Pattern Anal. Mach. Intell., 34(10):2005–2018,
2012. 2
[50] A. Shrivastava, A. Gupta, and R. B. Girshick. Training region-
based object detectors with online hard example mining. In CVPR,
pages 761–769, 2016. 3, 8
[51] K. Simonyan and A. Zisserman. V ery deep convolutional net-
works for large-scale image recognition. CoRR, abs/1409.1556,
2014. 8
[52] B. Singh and L. S. Davis. An analysis of scale invariance in object
detection–snip. In IEEE CVPR, pages 3578–3587, 2018. 3, 10, 11
[53] J. R. R. Uijlings, K. E. A. van de Sande, T. Gevers, and A. W. M.
Smeulders. Selective search for object recognition. International
Journal of Computer Vision, 104(2):154–171, 2013. 5
[54] P . A. Viola and M. J. Jones. Robust real-time face detection.
International Journal of Computer Vision, 57(2):137–154, 2004. 2, 3
[55] X. Wu, D. Zhang, J. Zhu, and S. C. H. Hoi. Single-shot bidirec-
tional pyramid networks for high-quality object detection. CoRR,
abs/1803.08208, 2018. 3
[56] Y . Wu and K. He. Group normalization. In ECCV, pages 3–19,
2018. 3, 11
[57] S. Xie, R. B. Girshick, P . Doll´ ar, Z. Tu, and K. He. Aggregated
residual transformations for deep neural networks. In CVPR,
pages 5987–5995, 2017. 10, 12
[58] X. Xiong and F. D. la Torre. Supervised descent method and its
applications to face alignment. In CVPR, pages 532–539, 2013. 5
[59] J. Yan, Z. Lei, D. Yi, and S. Li. Learn to combine multiple
hypotheses for accurate face alignment. In ICCV Workshops, pages
392–396, 2013. 5
[60] B. Yang, J. Yan, Z. Lei, and S. Z. Li. CRAFT objects from images.
In CVPR, pages 6043–6051, 2016. 3
[61] S. Yang, P . Luo, C. C. Loy , and X. Tang. WIDER FACE: A face
detection benchmark. In CVPR, pages 5525–5533, 2016. 3, 5, 8, 12
[62] D. Yoo, S. Park, J. Lee, A. S. Paek, and I. Kweon. Attentionnet:
Aggregating weak directions for accurate object detection. In
ICCV, pages 2659–2667, 2015. 3
[63] S. Zagoruyko, A. Lerer, T. Lin, P . O. Pinheiro, S. Gross, S. Chintala,
and P . Doll´ ar. A multipath network for object detection. In BMVC,
2016. 5, 7
[64] S. Zhang, R. Benenson, and B. Schiele. Citypersons: A diverse
dataset for pedestrian detection. In CVPR, pages 4457–4465, 2017.
3, 5, 8, 12
[65] S. Zhang, L. Wen, X. Bian, Z. Lei, and S. Z. Li. Single-shot
refinement neural network for object detection. In IEEE CVPR,
2018. 3