论文阅读瞎记(四) Cascade R-CNN: Delving into High Quality Object Detection 2017

概述

在物体检测中1,IOU阈值被用于判定正负样本。在低IOU阈值比如0.5的状态下训练模型经常产生噪音预测,然而检测效果会随着IOU增加而降低。两个主要因素:1.训练时的过拟合,正样本指数消失 2.检测器最优IOU与输入假设的不匹配。
一个单阶段的物体检测器CascadeR-CNN被提出用于解决这些问题。网络由一个检测序列组成,这些序列训练时会伴随IOU增长从而对FP样本更加有选择性地判别。检测器一个阶段一个阶段进行训练,检测器输出的优质分布用于训练下一个更高质量的检测器。逐步改进假设的重采样保证了所有检测器都有一组等价大小的正样本集,减少了过拟合问题。同样的级联程序应用于推理,使每个阶段的假设和检测器质量之间更接近匹配。cascade在COCO数据集上打败了其他单阶段检测器。

介绍

物体检测需要解决两个主要目标,首先检测器需要解决识别问题,为了从背景中区分出前景并且赋值正确的类别标签。第二十检测器需要解决定位问题,为不同的物体赋值正确的bbox。这些都是非常困难的,由于检测器需要处理许多近似的FP样本,这些样本都是相似但是不同的,检测器需要找到TP样本的同时抑制FP样本。
最近的一些工作例如Fast R-CNN, FPN,Faster R-CNN都基于双阶段结构。这些网络被架构用于多任务学习问题:结合了分类与bbox回归。不像物体识别,IOU阈值被用来定义正负样本。然而,IOU经常使用0.5,这是相对宽松的标准。图1可以看到低IOU训练出的检测器产生带有噪声的bbox。
论文阅读瞎记(四) Cascade R-CNN: Delving into High Quality Object Detection 2017_第1张图片

FP样本往往能够通过阈值0.5的检测,使用0.5作为IOU阈值训练模型会使得网络对于FP样本的过滤能力下降。
作者定义一个预测的质量为它与GT的IOU,检测器的质量则是训练时使用的IOU阈值。作者目的在于研究高质量检测器(神经网络高质量检测器)一个基本的思路是单阶段网络只能够被优化在一个等级上。
图1c和d分别展示了三个检测器在不同IOU阈值下训练的定位于检测表现。定位效果使用IOU的输入提议进行评估。检测效果作为IOU阈值的函数。图一c可以看出每个bbox回归器IOU最优表现都是在检测器训练时使用的IOU值的附近。图一d可以看出低IOU样本下阈值使用0.5的效果比0.6好,但在高IOU样本中表现不好。总体来讲,一个检测器只能在一个IOU等级上面取得较好结果。高级检测器需要更进一步匹配需要处理的假设(hypotheses)总体来说只有在高质量输入的情况下才会得到高质量输出。
为了产生高质量检测器,不能简单的提高训练时的IOU,从图1d中可以看出这样做反而会降低表现。问题在于假设的分布对于检测器的提议往往严重不平衡且低质量(特征图中潜在的含有目标的特征与检测器输出特征差距大)总的来说就是强加一个高IOU会导致正训练样本指数减少。密集样本伴随着高IOU会导致过拟合。高质量的检测器只有对于优化高质量的假定输出才是必要的,对于其他质量的假定输出,不同等级的检测器提取效果是次优的。
这篇论文中作者提出了一个新的检测器结构:Cascade R-CNN。这是对于R-CNN一个多阶段拓展网络,检测器随着cascade深入对于FP样本有着更强的判别力。cascade的集序训练的顺序的,使用前一个输出作为后一个输入训练。这么做是因为从图1c中可以看出回归器输出的IOU始终比输入IOU好(几乎所有的曲线都在灰色直线之上)可以看出使用特定IOU训练出来的检测器的输出分布是优质的,可以用于训练下一个更高质量的检测器。这种方法类似于boostrapping。
Cascade R-CNN易于使用且训练时端到端的。作者的实验表明简单使用Cascade R-CNN可以在COCO数据集检测任务上大幅超越所有先前的单模型检测器,尤其是以高IOU进行检测评估的方式下。Cascade可以被构建于任何基于R-CNN框架的的双阶段检测器中。在增加少量计算的前提下获得2-4点的提升。这种增益与基线网络的本身的性能无关,因此这一一种简单有效的检测结构且可以被植入到任何物体检测任务中去。

2.相关工作

由于RCNN成功的结构,解决检测问题的双阶段方案通过结合一个提议检测器(区域提议)和一个区域范围( region-wise)的分类器的做法是过去的主导方法。为了降低R-CNN中多余的计算,SPP-Net与Fast-RCNN引入了一种区域特征提取方法,显著加速了检测器推理速度。之后的Faster-RCNN通过引入RPN更进一步加速。这个结构成为双阶段物体检测的标准架构。最近的一些工作着力于解决各种细节问题,比如R-FCN提出了有效的 区域范围的(region-wise)全卷积网络,提高运行速度同时保证精度不下降,避免了Faster-RCNN中繁重的卷积计算。另一边MS-CNN和FPN在多层检测输出以减缓RPN感受野与物体实际尺寸之间的不匹配,同时提高了检测的召回率。
单阶段检测器的盛行主要是由于计算的高效性,这些结构近似于滑动窗口策略。YOLO推理输出非常系数的检测结果。当使用高效的backbone网络之后可以实现物体的实时检测。SSD与RPN相似的检测检测器,但是使用了多路特征映射在不同的分辨率下,以覆盖到不同大小的物体。这些单阶段网络的限制是精确度往往低于双阶段

你可能感兴趣的:(深度学习,人工智能)