Cascade R-CNN: Delving into High Quality Object Detection 论文笔记

Cascade R-CNN: Delving into High Quality Object Detection

论文链接:https://arxiv.org/pdf/1712.00726.pdf

该论文是CVPR2018的一篇论文,作者通过分析训练时采用的IOU阈值与实际输入的proposal与groundtruth之间的IOU的关系,得出结论:某一固定的训练IOU阈值只能较好的检测与其具有相近IOU的proposal,也即:如果网络训练时只用单一固定的IOU来界定proposal的正负样本,那么测试时如果proposal与groundtruth之间的IOU范围跨度较大,那么该网络的整体性能并不是最佳,尤其对那些距离训练IOU较远的proposal识别效果较差。基于上述结论作者提出了串级的RCNN结构:即用多个IOU阈值来训练网络,并且将经过上一stage调整后的proposal作为下一stage训练的输入,这样就克服了在高IOU阈值训练时正样本过少的问题。通过上述的改进网路取得了非常不错的检测效果。

实验分析:首先看一下作者对于训练所用的IOU阈值与检测效果之间的关系,该实验对于IOU阈值在网络中的作用分析很到位,在论文图1中完美的展现了实验分析的结果。

Cascade R-CNN: Delving into High Quality Object Detection 论文笔记_第1张图片

图1(a)中取u=0.5,一般网络中会选取0.5作为区分正负样本的阈值,这样导致正样本中也会包含有较多的背景噪声,导致误检较多,图1(b)u=0.7,虽然误检有所减少,但是提高区分正负样本的IOU阈值,会导致训练集中正样本很少,容易过拟合。单纯的提高IOU阈值也不是好方法,其效果可以通过图1(d)看出,提高IOU阈值后,整体的检测效果反而变差了。图1(c)展示了单一IOU阈值所存在的问题,也是该实验的关键所在。红、绿、蓝三条线分别表示训练时用以区分正负样本的IOU阈值为0.7、0.6、0.5,观察可有如下两个结论:(1)不同的训练IOU阈值对不同的输入IOU(即proposal与groundtruth的IOU)响应不同,并且当输入IOU接近训练所用的IOU时检测效果最好。(2)参考图中baseline,无论哪个训练用IOU阈值均对输入IOU有所提高,这表明通过网络的调整,由RPN初始化的proposal能够更好逼近groundtruth。

结构改进:基于上述的实验结果,作者提出了cascade R-CNN,其中cascade体现在哪里呢?可以通过论文中图3(d)直观的呈现。

Cascade R-CNN: Delving into High Quality Object Detection 论文笔记_第2张图片

首先看图3(a),这是目标检测中典型的two-stage网络结构,通过conv卷积网络提取特征,H0相当于RPN网络用以产生初始化的proposal,B0则是proposal的初始坐标,H1根据设定的IOU阈值将proposal区分为正负样本,这也是改论文的主要改进的地方。图3(b)中在检测阶段采用了级联的结构,但是其IOU为单一值,这在前文的分析已经得出难以有较大提高。图3(c)虽然采用了不同的IOU阈值,但是三个支路并行,并没有refine的思想。图3(d)为该论文的网络结构,仔细观察可以发现在网络的训练过程中,首先输入RPN网络初始化的proposal坐标B0,根据较小的IOU阈值(例如IOU=0.5)训练第一级回归网络H1,通过H1对RPN初始化的proposal坐标进行调整使其逼近groundtruth,之后调整的结果B1进入网络的第二级,采用较大IOU阈值(例如IOU=0.6)训练回归网络H2,获得的结果B2再次进入第三级通过更大的IOU阈值(例如IOU=0.7)训练网络H3。通过上述流程实现论文中的cascade结构,即通过对RPN网络初始化的proposal反复回归调整,来逐步的适应更高的IOU阈值。这里可参考论文图4。

Cascade R-CNN: Delving into High Quality Object Detection 论文笔记_第3张图片

其中红字表示了采用当前IOU阈值时所有proposal中正样本的百分比,可以明显的看到通过对RPN产生的proposal多个阶段的回归调整,其IOU不断的升高,这样就很好的解决了之前实验中的两个问题,(1)即单一的IOU训练阈值难以良好的实现大范围跨度的IOU检测(输入proposal与groundtruth的IOU),通过这样的cascade结构使得网咯中包含了不同IOU阈值的回归网络。(2)提高训练用的IOU阈值会导致正样本急剧减少,通过cascade结构提高了高IOU阈值下的正样本比例,解决了训练中正负样本不平衡的问题。

上述的cascade结构也在损失函数中有着良好的体现,损失函数:L(x^{t},g)=L_{cls}(h_{t}(x^{t}),y^{t})+\lambda [y^{t}\geqslant 1]L_{loc}(f_{t}(x^t,b^{t}),g)其中b^{t}=f_{t-1}(x^{t-1},b^{t-1})

实验结果:通过table1可以明显看到cascade R-CNN相比于基准FPN有了明显提高,table4中则显示了串联级数与检测效果的关系,可见级数越多对于高IOU阈值的检测标准AP_{90}效果越好。

Cascade R-CNN: Delving into High Quality Object Detection 论文笔记_第4张图片

table6则显示了将cascade结构嵌入到当前two-stage检测网络后,检测时间、参数量以及检测效果的变化,可以看出提升效果很是不错。

Cascade R-CNN: Delving into High Quality Object Detection 论文笔记_第5张图片

另外,作者在conclusion部分的一句话道明了对于当前已有的检测网络加以改进的出发点:The solid and consistent detection improvements of the Cascade R-CNN on the challenging COCO dataset suggest the modeling and understanding of various concurring factors are required to advance object detection.

 

你可能感兴趣的:(目标检测论文)