Cascade R-CNN:Delving into HIgh Quality Object Detection

本篇是2018CVPR收录的关于物体检测的文章,作者仔细分析目前物体检测框架中Iou阈值的选取对于物体定位精度和整体训练的影响。

Iou阈值直接影响训练阶段正负样本的划分,threshold太高,如0.7,正样本的质量越高,但是正样本的数量会急剧减少,加剧正负样本的不平衡,训练容易过拟合;threshold太低,如0.5,正样本的数量会增加,但是正样本的质量下降,容易产生false positive。具体影响如下图所示:

Cascade R-CNN:Delving into HIgh Quality Object Detection_第1张图片

(c)图横轴是输入的proposal的IoU,纵轴是经过bbox reg之后的bbox和ground-truth的IoU。可以看到,低IoU threshold对于低IoU的样本有更好的改善,但是对于高IoU的样本就不如高threshold的有用,即一个固定的IoU阈值只能对同等大小的输入IoU回归效果明显。原因在于不同threshold下样本的分布会不一致,也就导致同一个threshold很难对所有样本都有效。(d)图则表明网络的的检测效果并不随Iou阈值的变化单调地变化。

但是通过(c)图可以发现,选取不同阈值,回归过后的Iou基本上都能有所上升。因此作者提出的级联式的框架,将上一步inference得到的bbox采用更高的Iou阈值在进行训练。如下图(d)所示:

Cascade R-CNN:Delving into HIgh Quality Object Detection_第2张图片

(d)展示的就是本文Cascade R-CNN的基本框架;(a)就是经典的Faster R-CNN框架,也是本文的baseline;(b)结构上和Cascade R-CNN非常相似,区别在于只在测试时采用级联结构对Box多次回归,因此ROI检测网络部分“H1”结构是相同的,也即训练时还是采用的单一的IoU阈值;(c)则是在ROI检测网络部分并联多个检测器,并没有对位置进行迭代更新。

最终作者选用的级联结构共有4个stages, IoU阈值分别设定为递进的0.5/0.6/0.7,大于该阈值的选为正样本,其余均为负样本,进行训练。并实验证明了过多的stage是没必要的,其中第2个stage的提升最为明显。

你可能感兴趣的:(深度学习论文解析)