Path Aggregation Network for Instance Segmentation

摘要

论文提出了一种称为PANet(Path Aggregation Network)的能够提升基于proposal的实例分割框架中的信息流的模型。具体通过自下而上的路径增强,在下层用精确的位置信息增强整个特征层次,从而缩短下层和最上层特征之间的信息路径。同时提出了adaptive feature pooling,将feature grid和所有特征层联系起来,使每个特征层的有用信息直接传播到下面的proposal subnetworks。为进一步提高mask prediction能力,创建了一个捕捉每个proposal不同视图的补充分支。

解决的问题

在现在常用的FPN网络中,但从低层结构到最上层特征有很长的路径,增加了获取准确定位信息的难度。此外,每个proposal都是基于从一个feature grids pooled的特征网格进行预测。这个过程可以更新,因为在其他层特征中丢弃的信息可能对最终的预测有帮助。最后,mask prediction是在single view上进行的,失去了收集更多样化信息的机会。
主要贡献:

  1. 改进的FPN: Bottom-up Path Augmentation
  2. 改进之前的pool策略: Adaptive Feature Pooling
  3. 改进mask分支: Fully-connected Fusion

方法

Path Aggregation Network for Instance Segmentation_第1张图片

图1 网络结构。(a)FPN骨干。(b) 自下而上的路径增强。© 自适应特征池。(d)Box branch。(e)全连接融合。为了简洁起见,省略了(a)和(b)中特征图的通道维度。

Bottomup Path Augmentation

FPN中证明了加入自顶向下的路径,能够增加高层的语义,有利于分类。但底层的特征有利于定位,但在FPN网络中的路径较长(如图1中红色虚线)。因此文章在FPN的P2-P5又加了low-level的特征,最底层的特征流动到N2-N5只需要经过很少的层如图1绿色虚线所示(仅仅有几个降维的卷积)。

Augmented Bottom-up Structure

自下而上的路径增强结构如图1中的c。具体结构如图2所示。每个特征图 N i N_i Ni首先经过一个3×3的卷积层,步长2,以减小空间大小。然后将特征图 P i + 1 P_{i+1} Pi+1和下采样图的每个元素通过横向连接相加。融合后的特征图再经过另一个3×3卷积层处理,生成 N i + 1 N_{i+1} Ni+1,用于以下子网络。重复,在得到 P 5 P_5 P5后终止。
从p2到p5,空间大小逐渐进行下采样,采样因子为2。 N 2 N_2 N2是由 P 2 P_2 P2直接复制得到的。
Path Aggregation Network for Instance Segmentation_第2张图片

图2 自底向上模块

Adaptive Feature Pooling

在FPN中,根据proposals的大小,将分配到不同的特征级别。小的proposals被分配到低的特征级别,大的proposals被分配到高的特征级别。虽然简单有效,但仍可能产生不是最佳的结果。
高层次的特征是用大的感受野产生的,能捕获更丰富的上下文信息。允许小proposals访问这些特征,可以更好地利用有用的上下文信息进行预测。同样,低级特征也具有许多精细的细节和较高的定位精度。让大proposals访问它们显然是有利的。
因此文章提出将各个层次的特征汇集到每个proposals中。
具体方法如图1中c所示。对于每个proposal,将它们映射到不同的特征级别,如图1 的b中深灰色区域所表示。按照Mask R-CNN中的ROIAlign将每个级别的特征网格进行池化。然后利用融合操作(element-wise max or sum)来融合不同层次的特征网格。

Path Aggregation Network for Instance Segmentation_第3张图片

图3 自适应特征池网络结构。pooled feature grids独立地经过一个参数层,之后进行融合操作,使网络能够适应特征。

Mask Prediction Structure

对mask分支的改进结构如图4。mask分支对每个proposal的pooled feature grid进行操作,主要通过一个FCN结构。
由4个连续的卷积层和1个deconvolutional层组成。每个卷积层由256个3×3滤波器组成,deconvolutional层以因子2对特征进行上采样。它为每个类独立预测一个binary pixel-wise mask,以解耦分割和分类。
fc层用于预测与类无关的前景/背景mask,效率高,且能用用更多的样本训练fc层中的参数。
使用的mask大小是28×28,这样fc层就会产生一个784×1×1的向量。该向量被reshaped为与FCN预测的mask相同的空间大小。为了得到最终的mask prediction,需要将FCN中每个类的mask和fc中的前景/背景预测相加。只使用一个fc层而不是多个fc层进行最终预测,可以避免将隐藏的空间特征图折叠成一个短的特征向量,从而丢失空间信息的问题。

Path Aggregation Network for Instance Segmentation_第4张图片

图4 带有FCN结构的mask预测分支

实验

在coco数据集上的表现优于mask rcnn。即使使用尺寸较大的ResNeXt-101作为初始模型,和所有其他single-model相比也有很大的优势。
Path Aggregation Network for Instance Segmentation_第5张图片
在消融实验中,本文实现的Mask R-CNN的性能与原论文中描述的相当,并且本文目标检测器性能更好。
Multi-scale Training 和 Multi-GPU Sync. BN. 这两种技术有助于网络更好地收敛,提高泛化能力。
无论是否自适应特征池,自下而上的路径增强都能持续改善mask AP和box ap A P b b AP^{bb} APbb,分别提高0.6和0.9以上。在具有大尺度的实例上改善最为显著。这验证了较低特征层次的信息的有用性。
无论是否有自下而上的路径增强,自适应特征池都能持续改善性能。其他层的特征在最终预测中也是有用的,所有尺度的性能普遍提高。
全连接融合的目的是预测质量更好的mask具。它在mask AP方面产生了0.7的改进。它对所有规模的实例都是通用的。
Heavier head对于用多任务训练的bounding box ap A P b b M AP^{bbM} APbbM相当有效。而对于mask AP和独立训练的目标检测器,改善不大。
Path Aggregation Network for Instance Segmentation_第6张图片

你可能感兴趣的:(深度学习,计算机视觉)