Faster R-CNN 论文学习总结

Faster R-CNN 论文学习总结_第1张图片

Abstract:

最先进的目标检测网络【是什么,有哪些?】依赖于区域提议算法去假设目标的位置。SPPnet[1]和Fast R-CNN[2]等先进技术减少了这些检测网络的运行时间,暴露了区域提议计算的瓶颈。在这项工作中,我们引入了区域提议网络(RPN),它与检测网络共享全图像卷积特征,从而实现几乎无成本的区域提议。PRN是一个完全卷积网络,它同时预测物体边界和物体在每个位置的得分。PRN经过端到端的训练,生成高质量的区域提议,并别Fast R-CNN用于检测。我们进一步将PRN和Fast R-CNN合并到一个单一的网络中——使用最近流行的术语,带有注意力机制的神经网络,PRN组件告诉统一网络在哪里查找。对于非常深的VGG-16模型。我们的检测系统在GPU上的帧率为5fps(包括所有步骤),同时在P ASCAL VOC 2007、2012和MS COCO数据集上实现了最先进的对象检测精度,每张图像只有300个提议。在ILSVRC和COCO 2015比赛中,Faster R-CNN和RPN是几个赛道的第一名获奖作品的基础。代码已公开提供

Index Terms—Object Detection, Region Proposal, Convolutional Neural Network.

INTRODUCTION

【添加自己的思考】

区域提议方法(例如[4])和基于区域的卷积神经网络(RCNNs)[5]的成功推动了目标检测的最新进展。虽然基于区域的卷积神经网络在最初的开发时计算成本很高,但由于在提议SPPnet和Fast R-CNN上共享卷积,他们的计算成本已经大幅降低。最新版本的Fast R-CNN ,在忽略花费在区域提议上的时间,使用非常深的网络实现了几乎实时的速率。现在,proposals是最先进的检测系统的测试时间瓶颈。

区域提议方法【是什么?】通常依赖于廉价的特征和经济推理方案。选择性搜索[4]是最流行的方法之一,它贪婪地合并基于工程底层特征的超像素。但与高效检测网络Fast R-CNN 相比,选择性搜索要慢一个数量级,在CPU实现中每张图片需要两秒。EdgeBoxes[6]目前提供了在提议质量和速度上的最佳折中,在CPU实现中每张图像0.2秒。然而区域提议的步骤任然小号与检测网络相同的运行时间。

基于区域的快速卷积神经网络(Fast R-CNN)利用GPU,而区域提议算法在CPU上实现,这样运行时间的比较就不公平。最明显的解决方法就是在GPU上重新实现region proposal methods,但这会忽略下游检测网络(down-stream detection network),因此错过共享计算的重要机会。

在这篇文章中,证明一种算法的变化——用深度卷积神经网络来计算proposals来解决计算时间瓶颈的问题,是的proposal在检测网络中几乎不花费时间。这就引出了RPN,他与最先进的目标检测网路SPPnet和Fast R-CNN共享卷积,通过在测试时共享卷积,显示计算proposals的边际成本很小(例如每张图像10ms)。

RPN是一种完全卷积网络(FCN)[7],可以针对生成检测建议的任务进行端到端的训练。基于区域的检测器(如Fast RCNN)使用的卷积特征映射也可以用于生成区域建议。在这些卷积特征的基础上,我们通过添加一些额外的卷积层来构建RPN,这些卷积层同时回归规则网格上每个位置的区域边界和在每个位置上物体的得分。

RPN的设计目的是:有效预测具有广泛规模和纵横比的region proposals。对比流行的SPPnet和Fast R-CNN,他们使用金字塔图像(图1,a)或金字塔过滤器(图1,b),我们引入了新的“锚”框,作为在多个尺度和纵横比的参考。我们的方案可以被认为是一个回归参考的金字塔(图1,c),它避免了枚举多个尺度或纵横比的图像或过滤器。该模型在单尺度图像的训练和测试中表现良好,因此有利于运行速度。

Faster R-CNN 论文学习总结_第2张图片

 

图1:处理多个规模和尺寸的不同方案。(a)建立图像和特征图的金字塔,分类器在所有比例下运行。(b)在特征图上运行具有多个比例尺/尺寸的过滤器金字塔。(c)我们在回归函数中使用参考框的金字塔。

为了统一RPNs和Fast R-CNN[2]目标检测网络,我们提出了一种训练方案,在保持建议固定的情况下,在区域建议任务的微调和目标检测的微调之间交替进行。该方案收敛速度快,生成一个具有卷积特征的统一网络,这些特征在两个任务之间共享

我们在PASCAL VOC检测基准[11]上综合评估了我们的方法,其中带有快速R-CNNs的RPNs产生的检测精度优于带有快速R-CNNs的选择性搜索的强基准。同时,我们的方法在测试时几乎免除了选择搜索的所有计算负担——提案的有效运行时间仅为10毫秒。使用昂贵的[3]深度模型,我们的检测方法在GPU上仍然有5fps的帧速率(包括所有步骤),因此在速度和准确性方面都是一个实用的目标检测系统。我们还报告了MS COCO数据集[12]的结果,并研究了使用COCO数据对PASCAL VOC的改进。代码已公开提供

RELATED WORK

FAST R-CNN

EXPERIMENTS

CONCLUSION

拓展

你可能感兴趣的:(论文笔记,cnn,学习,深度学习)