目标检测网络选择 (Faster R-CNN,SSD,R-FC) Speed/accuracy trade-offs for modern convolutional object detectors

Speed/accuracy trade-offs for modern convolutional object detectors

现代卷积目标检测器的速度/精度折衷

主要内容:如何选择目标检测网络:Faster R-CNN,SSD,R-FCN

论文原网址:https://arxiv.org/abs/1611.10012

翻译部分内容参考:http://tongtianta.site/paper/252

简单来说,就是Faster R-CNN的精度是最高的,但是耗时较长;SSD通常来说是最快的,但是精度稍差;R-FCN基本是折中的一种存在。基础网络选择的不同,会影响检测的精度,ssd不是太受影响,其余部分细节论文中讲解的也是很详细的。

摘要

本文的目标是作为选择一种检测体系结构的指南,该体系结构能够为给定的应用程序和平台实现正确的速度/内存/精度平衡。近年来已经提出了许多成功的系统,但是由于不同的基本特征提取器(例如VGG,剩余网络),不同的默认图像分辨率以及不同的硬件和软件平台,所以苹果与苹果之间的比较困难。我们提出了faster R-CNN [31]R-FCN [6]SSD [26]系统的统一实现,我们将其视为元架构,并追踪由使用替代特征提取器以及改变其他关键参数,例如这些元架构中的每一个中的图像大小。在速度和内存至关重要的这个频谱的一个极端,我们提出了一种实现实时速度并可以部署在移动设备上的探测器。在准确性至关重要的另一端,我们提出了一种检测器,可以实现在COCO检测任务上测量的最先进的性能。

介绍

由于使用卷积神经网络(CNN),近年来在物体检测方面取得了很多进展。基于这些网络的现代物体探测器 - 比如Faster R-CNN [31]R-FCN [6]Multibox [40]SSD [26]YOLO [29] - 现在已经足够用于消费类产品(例如,Google照片,Pinterest视觉搜索),有些已经足够快以至于可以在移动设备上运行。

但是,从业者很难决定哪种架构最适合其应用场景。标准精度指标(如平均平均精度(mAP))并不能说明整个情况,因为对于计算机视觉系统的实际部署,运行时间和内存使用率也非常重要。例如,移动设备通常需要较小的内存占用量,而自动驾驶汽车需要实时性能。服务器端生产系统(如谷歌,FacebookSnapchat中使用的系统)在精确度方面有更多的优化余地,但仍受到吞吐量限制。虽然赢得竞争的方法(如COCO挑战[25])对准确性进行了优化,但它们通常依赖于模型集成和多种方法融合,这些方法在实际使用中速度太慢。

不幸的是,只有一小部分论文(例如RFCN [6]SSD [26] YOLO [29])详细讨论了运行时间。此外,这些论文通常只声明它们实现了一定的帧速率,但没有给出速度/精度折衷的完整画面,这取决于许多其他因素,例如使用哪个特征提取器,输入图像大小等等。

在本文中,我们试图以一种详尽而公平的方式探索现代检测系统的速度/精度折衷。虽然已经对全图像分类进行了研究(例如,[3]),但检测模型往往要复杂得多。我们主要研究单模/单通检测器,其中我们指的是不使用集成,多种融合方法或其他技巧(如水平翻转)的模型。换句话说,我们只通过一个网络传递一张图片。为了简单(因为这对于这项技术的用户来说更重要),我们只关注测试时间性能,而不是关注这些模型需要训练多长时间。

虽然比较每个最近提出的检测系统是不切实际的,但幸运的是,许多领先的先进方法已经聚合在一个共同的方法论上(至少在高层次上)。这使我们能够以统一的方式实施和比较大量的检测系统。特别是,我们创建了Faster R-CNNR-FCNSSD元架构的实现,这些架构在高层由单个卷积网络组成,由混合回归和分类目标进行训练,并使用滑动窗口预测类型。

总而言之,我们的主要贡献如下:

我们简要介绍了现代卷积检测系统,并描述了领先的卷积检测系统是如何遵循非常相似的设计的。

我们描述了我们在tensorflow中灵活而统一地实施三种元架构(更快的R-CNNR-FCNSSD),我们用它来进行大量实验,追踪不同检测系统的精度/速度折衷曲线,不同的体系结构,特征提取器,图像分辨率等。

我们的研究结果表明,使用更少的Faster RCN提案可以显着加速其速度,而不会造成严重的准确性损失,使其与更快的同类产品、SSDRFCN竞争。我们发现,与速度更快的R-CNNR-FCN相比,SSDS的性能对特性提取器的质量不太敏感。我们还确定了精度/速度权衡曲线上的最佳点,即只有通过牺牲速度才能提高精度(在这里介绍的检测器系列中)。

•我们报告的几种元体系结构和特征提取器组合在文献中从未出现过。我们将讨论如何使用这些新颖的组合来训练2016COCO目标检测挑战的获奖者。

元-架构

近年来,神经网络已成为高质量目标检测的主要方法。在这一部分中,我们将调查这些文献的一些亮点。Girshick等人的R-CNN论文。[11]是卷积网络检测的第一个现代体现。受最近图像分类成功的启发[20],R-CNN方法采用了直接的方法,从输入图像中裁剪外部计算框建议,并在这些crops上运行神经网络分类。然而,这种方法可能很昂贵,因为许多crops是必需的,这导致crops的计算有很大的重复性。Fast R-CNN[10]通过将整个图像通过特征抽取器一次,然后从中间层进行裁剪,从而减轻了这个问题,使crops共享特征抽取的计算负载。

虽然R-CNNFast R-CNN都依靠外部提案生成器,但最近的研究表明,使用神经网络也可以生成盒提案[41,40,8,31]。在这些作品中,通常会在图像上以不同的空间位置,比例和长宽比作为锚点(有时称为先行默认框)叠加图像。然后对模型进行训练,以对每个锚点进行两次预测:(1)每个锚点的离散类别预测,(2)一个连续的预测偏移量,通过该偏移量,锚点需要移动以确定真实边界框。

遵循这种锚定方法的论文将最小化我们现在描述的组合分类和回归损失。对于每个锚a,我们首先找到最匹配的groundtruthb(如果存在的话)。如果可以找到这样的匹配,我们称之为正锚,并将其分配给(1)类标签和(2)关于锚a的框b的向量编码(称为框编码)。如果找不到匹配,我们称之为负锚,并将类标签设置为。如果对于锚a,我们预测框编码和相应的类,其中

你可能感兴趣的:(深度学习,目标检测)