Parallel Feature Pyramid Network for Object Detection-------论文理解

参考博客:https://blog.csdn.net/u014380165/article/details/82468725

1. 概述

目前目标检测的研究,基本上是逐渐增加金字塔形状的特征层数量而不是使用特征化的图像金字塔。然而,CNN特征层的不同抽象级别通常会限制检测性能,尤其是在小型对象上。因此本文提出了一种基于CNN的物体检测架构,称为并行特征金字塔(FP)网络(PFPNet),其中FP通过加宽网络宽度而不是增加网络深度来构建。我们使用的基网络是多个并行的空间金字塔池化网络(SPPNet),生成不同尺寸的特征池,然后将特征池中的元素缩放到统一尺寸,并聚合其上下文信息以生成最终FP的每个级别。

文中有个总结说得特别好,那就是对于目标检测任务而言,真正有用的特征一定具备这3个特点:1、特征要包含目标的细节信息。2、特征要通过足够深的网络提取得到。3、特征要包含目标的语义信息。这个总结其实可以在最近的许多目标检测算法优化中看到,最显而易见的就是高层特征和浅层特征的融合,这个过程其实就包含了这3点内容。

如图是网络结构方面的优化过程。(a)是SSD的检测思想,在bottom-up过程中对每一个步骤进行检测;(b)是类似于yolov3的思想,加入了top-down过程,进行预测;(c)是SPP的思想,池化为不同尺寸后再进行融合;(d)是本文提出的PFP思想,先金字塔池化,在通过MSCA模块,融合不同层特征最后对多层进行预测。

Parallel Feature Pyramid Network for Object Detection-------论文理解_第1张图片

文中有三个贡献:

第一,用SPP网络产生金字塔形状特征图,加宽网络而不是加深网络;

第二,通过MSCA模块结合不同尺寸的上下文信息。由于多个SPP提取的是相同抽象级别的特征生成的特征池,这些特征池的表现差异基本上可以忽略。

第三,该网络在Pascal VOC 2007上map值可以达到82.3%,在 PASCAL VOC 2012上可以达到80.3%,在 MS-COCO上可以达到35.2%,相对于现有的目标检测技术有相当好的表现。

2. 网络模型

Parallel Feature Pyramid Network for Object Detection-------论文理解_第2张图片

2.1 Base Network

骨干网络是VGGNet-16。

2.2 Bottleneck Layer

为了提高计算效率,Bottleneck 中使用了1x1卷积进行降维,和3x3卷积。

2.3 FP Pool

池化层的作用,不仅可以将特征图的空间大小减小到特定的大小,还可以在子区域中聚合上下文先验。

网络经过骨干网络输出HxWxD,经过SPP得到N(文中N=3)个不同尺寸的输出,通道数仍为D,输出高维特征CH,为了提高计算效率,网络经过Bottleneck Layer降维得到通道数D/(N-1),输出低维特征CL。

2.4 MSCA

在不同的尺度上结合上下文信息可以促进几种视觉分类任务。结合的方式基本上都是求和,但Huang等人认为这样会削弱网络中的信息流。文中提出了一种新的方法。其中包括直接连接要素图以保留要素图层之间的最大信息流。

假定对于每一个pn,第n层的FP特征包含主要信息,其他级别补充对象的信息作为不同尺度的上下文先验。因此,我们将高维的fH作为主要信息,低维的fL作为补充信息。fH层(通道数为D)经过跳跃连接与经过降维后的低维特征fL(通道数为D/2)进行拼接,这样输出后的特征中fH层占一半的通道数,故作为主要信息,拼接后可以最大程度地保存提取到的特征信息。

由于MSCA模块重用FL中的特征映射,我们可以有效地利用多尺度上下文信息,同时改进计算资源的使用。

MSCA模块中,FH特征图通过跳跃连接与FL特征图进行连接。
由于具有许多参数的MSCA模块的宽且复杂的结构,这可以简化不同的优化过程。
在删除了跳跃连接的实验中,不仅增加了HL(·)参数数量,还降低了性能。

3. 实验

Parallel Feature Pyramid Network for Object Detection-------论文理解_第3张图片

你可能感兴趣的:(深度学习,计算机视觉,目标检测)