Accurate Single Stage Detector Using Recurrent Rolling Convolution

1. Introduction

在许多现实世界的应用中,robustly detecting objects with high localization accuracy, namely to predict the bounding box location with high Intersection over Union (IoU) to the groundtruth,对于服务质量至关重要。例如,在基于视觉的机械臂应用中,在拾取物体时产生鲁棒且准确的操作的过程高度依赖于物体定位精度。在驾驶员辅助系统(ADAS)中,准确定位汽车和行人也与自主决策的安全密切相关。

最近在物体检测方面的进展受到前馈深度卷积神经网络(CNN)的成功应用的大力推动。在CNN方法的许多变体中,它们可以大致分为两个流派。第一个是R-CNN风格[9]两个阶段的方法。在这些方法中,在第一阶段提出了合理的区域,然后是第二阶段的决策细化。另一种方法旨在消除区域建议阶段,并直接训练单级端对端检测器。单级探测器通常更容易训练,并且在应用中计算效率更高[12]。然而,这种优势在很大程度上被覆盖,当模型在基准中进行评估时,考虑到高IoU阈值的mAP(例如KITTI car [6]),因为两级方法通常在性能上是有利的。我们稍后会表明,单阶段方法的这个弱点并不属于在复杂场景中识别对象的无力,而是产生高质量边界框的失败。图1的左栏示出了两个例子。
可以通过实验证明,大多数低质量的边界框来自于小对象或重叠对象的故障定位。
在任一情况下,
常规的边界框回归变得非常不可靠
因为正确边界框的确切位置必须用上下文来确定(例如围绕闭塞区域的多尺度信息或特征)。


这就是为什么使用某种形式的上下文感知改进程序来消除这些错误是有效的。
 更快的R-CNN的RoI池和分类阶段可以被认为是通过重新采样特征图来利用这种上下文的一种简单的方法。


在本文中,我们展示了可以在单级网络中无缝集成上下文感知细化过程。
洞察力是这样的程序可以通过使用一种新颖的循环卷积卷积(RRC)架构“深入上下文”。
 换句话说,上下文信息可以在需要时逐渐有选择地引入到边界框回归器中。
整个过程完全是数据驱动的,可以端到端进行培训。
我们在考虑的具有挑战性的KITTI数据集中评估了我们的方法
mOA用于高IoU阈值。
 在我们的实验中,我们使用了缩小的VGG-16网络而不是完整的VGG
网络或更新的ResNet作为我们预先训练的基础网络,以便我们能够充分说明新增的RRC的有效性。
这样保证了这样的改进不仅仅是由更强大的功能引入
骨干网。
结果表明,我们的方法显着优于单一模型的所有以前发布的结果。
 我们的模型的集合在提交给基准的所有方法中排名第一。
我们工作的贡献可以总结如下。
•首先,我们展示了可以以端到端方式训练单级检测器,以便为需要高定位质量的任务产生非常准确的检测结果。
•其次,我们发现,改进单级检测器的关键是为边界回归引入上下文。
可以使用所提出的循环卷积卷积架构来有效地实现该过程。

2. Related Work

卷积神经网络方法与区域提案阶段近来在物体检测领域取得了非常成功的成果。
 在R-CNN论文[9]中,选择性搜索[20]被用于生成对象提案,CNN用于提取和馈送分类器的特征。
后来提出了R-CNN的两种加速方法。
 在[8]中,RoI池被用于有效地生成对象提议的特征。
在[16]中,作者使用CNN而不是选择性搜索来执行区域提案。许多作者在[16]中采用了这个框架,并提出了许多在基准测试中表现良好的变体,考虑到高IoU阈值的mAP。
例如,在[23]中,作者提出使用规模依赖池和
分层级联拒绝分类器,以提高准确性并获得良好的效果。
[21]使用子类别信息来加强区域建议阶段
在KITTI取得了有希望的成果。
R-CNN风格方法的一个问题是,为了处理大量提案,第二阶段的计算通常很重。
提出了不依赖区域建议的各种单级方法来加速检测流程。
SSD [12]是一种单级模型,其中在前馈过程中具有不同分辨率的特征图直接用于检测大小为指定范围的对象。
这个巧妙的设计节省了大量的计算量,并且比[16]快得多。
它在IoU阈值为0.5的数据集中取得了良好的效果。
 然而,我们将在实验中显示性能明显下降
当我们增加了边框质量的标准。
YOLO [14]是另一种快速单阶段方法,产生了有希望的结果,然而,它不如SSD那么准确,尽管定制版本更快。
我们注意到已经提出了完全卷积的两阶段方法[5]
以降低第二阶段的计算复杂度。
然而,它很大程度上依赖于更大更深的骨干网络。
[7]的动机类似于我们的动机,但它不会通过使用循环结构来考虑上下文信息。
虽然反复神经网络(RNN)在图像字幕[11,22],机器翻译[19,1]和多媒体[15]等许多领域得到广泛应用,
只有少数作者探讨了使用序列建模来提高对象检测精度的想法。
一个启发性的工作是[18],其中作者将检测问题定义为边界框生成过程,并使用长期记忆(LSTM)[10]通过使用匈牙利损失来了解深层CNN特征的此过程。
 已经表明,该方法能够更鲁棒地检测重叠对象。然而,在这种配方中,序列中的第一个边界盒基本上是这样的
由网络“在上下文中”确定,因为第一输出仅仅是由基本网络的最后层提取的特征。
如果管道中的第一个对象已经具有挑战性,这可能是有问题的
(例如,小物体,遮挡,失焦,运动模糊等)
以检测在许多现实应用中哪些并不罕见。
此外,该方法仅使用0.5的IoU阈值进行评估。
与[18]不同,我们提出的RRC架构通过“深度上下文”的网络有效地检测每个对象,并在较高的IoU阈值下实现了最先进的性能。







你可能感兴趣的:(目标检测)