特征金字塔网络 FPN

一. 提出背景

       论文:Feature Pyramid Networks for Object Detection  【点击下载】

       在传统的图像处理方法中,金字塔是比较常用的一种手段,像 SIFT 基于金字塔做了多层的特征采集,对于深度网络来讲,其原生的卷积网络特征决定了天然的金字塔结构。深度网络在目标检测领域的应用 比如早期的 Fast RCNN,Faster RCNN 都是在最后一层卷积层 进行检测,后续针对的改进包括 ION、HyperNet、MSCNN 等都结合多尺度的特征,本文讨论了多尺度的方案对比:

        特征金字塔网络 FPN_第1张图片特征金字塔网络 FPN_第2张图片

a)传统方法,通过对图像进行降采样处理,提取每层图像的特征,然后在每层预测;

b)借助卷积网络,通过单特征图进行预测,典型的应用包括 Faster RCNN、YOLO;

      原 Paper 少了一张图,这里补上(b2),将多个层的特征同时连接到预测层,ION、HyperNet 都是这个思路

c)通过不同尺度的特征图进行分别预测,更好的处理目标的多尺度问题;

      典型的代表是 SSD、MS CNN。

d)本文提出的 FPN 方法,在多尺度特征图的基础上,结合右侧的上采样进行不同 Scale 的整合,每层独立预测;

      通过  本层信息(上采样)+原始特征层信息(侧向连接)进行结合;


二. 算法框架

       提出了一种新的多尺度网络结构,这个网络结构可以理解为三个组成部分:

1)Bottom-Up Pathway

     原生态的金字塔,所有的 ConvNet 都具备的特征,不需要多讲,这里作者选择的是每个Stage 的最后一层作为特征层,这里的 Stage 是指尺寸发生变化的情况。

2)Top-Down Pathway

     对应特征图的上采样,思路是通过上采样提取更 Strong 的语义信息,同时上采样带来的是某些信息的丢失。

3)Lateral Connection

     侧向连接是将原始的特征信息整合到右侧上采样特征层,原始特征代表了准确的 Location 信息。

     通过 Top-Down(更强的语义信息) 和 侧向连接(准确的Loc)的结合,兼顾底层特征和抽象语义,连接方式可以这样描述:

        特征金字塔网络 FPN_第3张图片

       Top-Down 通过2倍的上采样连接,侧向连接通过 1x1 的卷积进行连接,通过 Add 操作进行 Merge。


三. 实验分析

       作者分别对比了 RPN 和 Fast R-CNN 的测试精度,分析 侧向连接 和 Top-Down 对于精度的贡献,来看对比表格:

        特征金字塔网络 FPN_第4张图片

        特征金字塔网络 FPN_第5张图片

       可以看到,本方法(FPN)精度是最高,Lateral 和 Top-Down 对于精度的贡献都比较明显。

你可能感兴趣的:(深度学习,深度学习基础)