Feature Pyramid Networks for Object Detection(一)

基本概述:

       特征金字塔网络是识别系统中对于检测不同尺寸的目标是一种基本组件。但是因为特征金字塔的计算和存储密集,最近深度学习目标已经避免使用特征金字塔的表示。文中提出一种利用卷积神经网络固有的多尺寸金字塔层次等级来构造特征金字塔。开发一种具有横向连接的自上而下架构,用于所有尺寸上构建高级语义特征图。作为一种通用的特征提取器,Feature Pyramid Network(PFN)在几项应用中展示了明显的提升。在基本的Faster R-CNN系统中使用FPN,实现了最先进的单模结果,超过了所有存在的单模型实体。另外,我们是实现结果运行在GPU上达到了6 FPS,因此是一种实用且精准的解决多尺寸目标探测的方法。

 1.  背景介绍

          在计算机视觉中识别不同尺寸的对象是一个基本的挑战。特征金字塔建在图像金字塔上形成一个基本的解决方案。在一个场景中,这些金字塔尺寸是不变的。一个对象尺寸的改变通过移动它在金字塔中的等级来抵消。 直观上看,该性能能够使一个模型通过扫描金字塔的位置和等级去检测大尺寸的对象。

          特征图像金字塔被广泛用于手写工程的领域。有时是对于一些对象探测器是特别苛刻的,利用DPM 需要密集的比例采样才能实现好的结果。对于识别任务,工程特征已经被深度卷积神经网络的特征计算所代替。除了能够表示高级的语义,ConvNets对于变化尺寸方面也有很强的鲁棒性,因此有助于从单一输入尺寸上计算识别特征,在 ImageNet 和COCO的检测挑战中,所有顶级的实体在特征图像金字塔上都多尺度测试。图像金字塔的每一个等级上特征的优势在于 能产生多级别的特征表示,其中所有级别在语义上都很强,包括高分辨率的级别。尽管这样但是在一图像金字塔的每个级别都具有明显的局限性。推理时间明显增加,使这种方法在实际应用中不切实际。另外,图像金字塔中端到端地训练深度网络在内存上是不容易的,并且如果利用,图像金字塔仅能用于在测试时间段,但会造成训训练/测试推断时间不一致,对于这种原因,Fast and Faster R-CNN 选择不使用默认设置下的特征图像金字塔。

                                                      Feature Pyramid Networks for Object Detection(一)_第1张图片

然后,图像金字塔不是计算多尺寸特征表示的唯一方法。深层的卷积神经网络逐层计算特征等级,并且对于子采样层,特征等级有一个固定的多尺寸金字塔形状。这个网内特征等级产生不同空间分辨率的特征图,但引入不同深度的较大的语义特征。高分辨率图具有损坏对象识别表现能力的低级特征。

Single Shot Detector (SSD)是第一个尝试使用ConvNet的金字塔特征等级层次结构的,它像是特征化的图像金字塔。在理想的情况下,SSD风格的金字塔是重复使用正向传递中计算的不同层次的多尺度特征图。但是为例避免使用低级特征的SSD重复计算已经计算过的层,并且代替建立从高端的网络中构建金字塔,之后再添加新的层,因此SSD错过了重复使用高分辨率特征层次图的机会。证明检测小目标也是很重要的。

本文的目标是自然的利用ConvNet特征等级结构的金字塔形状,同时建立一个用在所有尺寸上有强大语义的特征金字塔。为了实现这个目标,我们依靠一种结合了低分辨率 、强语义特征的高分辨率和弱语义自顶向下路径和横向连接的特征。它 的结果是一个在所有级别上有丰富语义的特征金字塔,并且可以从单个输入图像缩放构建的功能金字塔。换句话说,怎样创建一个内网金字塔,可以用来代替特征化的图像金字塔,而不牺牲 表示能力  速度或内存。

 在近期研究中,我们采用自顶向下和跳过连接的类似架构,其目标是说呢过程一个高分辨率的高分辨率特征图,并根据这个分辨率进行预测。相反,我们的方法利用体系结构作为特征金字塔,其中预测在每个级别上独立进行。(如图所示)

Feature Pyramid Networks for Object Detection(一)_第2张图片

我们评估我们的方法是被称为特征金字塔网络,用于检测和分割。我们描述了一种具有挑战性的COCO检测基准基于简单FPN和基本的更快的R-CNN检测器的最先进的单模结果,超过了所有现有的大程度工程单模型作品。在消融实验中,我们找到对于边界框建议,FPN明显增加了平均召回率大约8.0.对于目标检测,它将COCO型精度 提升了2.3 PASCA型AP提高了3.8,超过了ResNets上Faster R-CNN的单一基准线。我们的方法扩展了模糊建议和并通过更大程度上依赖图像金字塔的最先进的方法提升了实例语义 AR 和速度。

另外,我们的金字塔结构可以对所有尺寸进行端对端的训练,且训练和测试的时间也是一致的,这个导致使用图像金字塔在内存中不可行。因此,FPN能够实现更高的精度相比于目前最先进的方法。另外,这一改进的实现没有增加单一基准测试的时间,这将有助于未来的研究和实际应用。

待续

你可能感兴趣的:(目标检测,计算机视觉,AI,机器学习,深度学习)