FPG(Feature Pyramid Grids):特征金字塔网格来了 !性能优于FPN、NAS-FPN等金字塔网络。
作者团队:商汤&港中文(陈恺&林达华)&南洋理工大学&FAIR
该文章首发在arxiv上,新投稿于CVPR。
特征金字塔网络已在目标检测中被广泛采用,以改进特征表示以更好地处理尺度变化。
设计思路
在本文中,作者设计了特征金字塔网格(FPG),这是一个深层的多路径特征金字塔,它将特征尺度空间表示为平行的自下而上路径的规则网格,并由多方向的横向连接融合。FPG可以通过以相似的计算成本显著提高其性能来改善单路径特征金字塔网络,从而突出了深度金字塔表示的重要性。
除了其一般和统一的结构外,它也无需依赖搜索即可与此类方法进行比较。FPG有望作为目标识别未来工作的重要组成部分。
主要考虑:
(1)FPG是否能够在复杂性成本低于FPN的情况下得到改善;
(2)即使是在系统设计的情况下,FPG是否能够与NAS优化的金字塔结构竞争
与FPN不同的是,FPG所有的独立通路都是自下而上构建的,类似于从输入图像到预测输出的主干通路。为了形成一个深网格的特征金字塔,无论是跨尺度的,还是尺度内的,金字塔通道与各种横向连接交织在一起,以实现所有层次的信息交换。如图1所示,这些横向连接分为四种类型, AcrossSame→(蓝实线), AcrossUp↗(棕实线), AcrossDown↘(绿实线), and AcrossSkipy(橙色虚线)。
主干通道可以是用于图像分类的任何卷积神经网络的层次特征表示。该通路与FPN中自下而上的通路相同。它从输入图像到输出的逐步缩小尺度特征映射。在FPN中,相同尺度的特征张量属于一个网络阶段,特征张量的空间步长从前到后逐渐增大。
骨干网越深,越接近网络的分类层,语义层次越高,但分辨率越低,而早期阶段的特征与语义的相关性较弱,但由于分辨率高,定位精度高。金字塔路径的目标是建立具有强语义信息的精细分辨率特征。
Multiple pyramid pathways(多金字塔通道)
FPG通过多个p>1平行的金字塔通道进行扩展。目的是通过使用多个平行金字塔路径,来丰富网络的能力,从而构建一个具有跨空间维度的精细分辨率和高分辨能力的强大网络。
作者以自底向上的方式构建金字塔通路,与主干通道平行(第一个最高分辨率的金字塔特征取自相应的主干阶段)。金字塔通路中的连接表示为向上。多个通路的存在是FPG概念的关键(图1),因为它允许网络建立更强的金字塔特征。为了形成一个深层的金字塔网格,p个金字塔通道与各种横向连接交织在一起。
Low channel capacity (低通道容量)
根据FPN的设计,目的是通过降低通道容量使金字塔通道变得更轻。金字塔的通道数量明显低于主干通路最后阶段的通道数量。权重层的计算成本(浮点数操作或FLOPs)与它的通道维数(即宽度)的平方成比例。因此,减少金字塔通道的通道容量可以使多个通道在计算上非常有效。
横向连接的目的是利用尺度空间中的多向(语义)信息流来丰富特征,允许复杂的层次特征跨尺度学习。根据横向连接的起始和结束特征阶段,可以将横向连接分为4类,分别为:
(AcrossSame,→)
(AcrossUp,↗)
(AcrossDown,↘)
Backbone pathway.
主通道是主对流网络的前馈计算,它计算一个由若干尺度的特征映射组成的特征层次结构。以ResNet[10]为例,采用与FPN相同的方案,使用每个阶段最后剩余块的输出特征映射来表示金字塔级别,表示为{C2,C3,C4,C5}。
Pyramid pathways
与主干通路相似,金字塔通路代表跨尺度的信息。从最高分辨率阶段到最低分辨率阶段,以自底向上的方式构建它们。
首先,该通路的第一特征图由对应的高分辨率主干或金字塔级通过1×1横向连接形成。
然后,使用子采样,使用3×3的卷积宽度步长2,在金字塔路径中创建每个较低层次的特征图,因此,在每个金字塔路径中,特征层次由多个尺度的特征图组成,每个阶段的空间分辨率与主干路径相同。
Lateral connections.
(AcrossSame,→)
这些横向连接将同一水平的特征通过通路连接起来。作者在每个特征图上使用1×1的横向卷积来投影这些特征,并将它们与相邻通路中相应的特征融合。
(AcrossUp,↗)
为了缩短从浅路径低水平特征到深路径的高水平特征的路径,作者引入了直接连接来构建跨水平的自底向上路径。通过3×3横带-2卷积将低阶特征图降采样至一半大小,再与高阶特征图融合。
(AcrossDown,↘)
通过整合向下的连接来实现自上而下的信息流。首先用2倍的比例因子和最接近的插值对高阶特征图进行采样,然后利用3×3的卷积使其具有可学习性。上采样特征与下采样特征融合。
为了简化如此广泛的特征金字塔网格的训练,添加跳跃连接,例如1×1个卷积,在第一个通路的同一水平和每个后一个通路之间。
不同分辨率下目标检测的主要结果:
速度与精度的对比:
实例分割结果对比:
定性效果对比展示: