Panoptic Feature Pyramid Networks 论文笔记

Panoptic Feature Pyramid Networks

CVPR 2019

论文链接: https://arxiv.org/abs/1901.02446

一、 Problem Statement

提出一个Panoptic Segmentation的baseline。目前的全景分割都是使用不同的网络进行实例分割和语义分割,并不够高效。

二、 Direction

使用一个统一的网络结构去实现两个任务,实例分割和语义分割,进一步实现全景分割。因此作者在基于FPN和Mask R-CNN,添加了一个分支,用于语义分割。另外一个分支是region-based的实例分割。

三、 Method

网络结构分为三个部分:

  • Feature pyramid network
  • Instance segmentation branch
  • Semantic segmentation branch

基于实例分割和语义分割,能够得到全景分割的结果。

1. Feature pyramid network

回顾以下FPN的结构:

2. Segmentation branch

和Mask R-CNN一样,使用region-based分支进行实例分割。然后多添加一个分支进行语义分割。实例分割分支会通过FCN,对每一个RoI预测一个binary mask。而对于语义分割分支,作者对FPN每个层级的特征人能够进行上采样,使其分辨率变为原图的 1 / 4 1/4 1/4,最后进行element-wise summation。

相加之后,使用1x1卷积和 4 × 4 \times 4×的双线性插值上采样恢复到与原图大小一致的特征图,使用softmax 生成每个像素的label。

当有了这两个结果,instance mask 和 semantic segmentation mask,通过后处理,可以得到panoptic segmentation结果。简单来说,这个后处理函数和NMS类似,步骤为:

  • 根据不同实例的置信度,解决不同实例之间的重叠。
  • 解决实例分割和语义分割输出之间的重叠。
  • 删除标记为“其他”或低于给定区域阈值的任何stuff区域。

3. Joint training

实例分割有三个loss functions: L c , L b , L m L_c, L_b, L_m Lc,Lb,Lm,分别对应classification, bounding box,和mask。而语义分割只有一个 L s L_s Ls,代表每个像素的cross-entropy loss。

L = λ i ( L c + L b , L m ) + λ s L s L = \lambda_i (L_c + L_b, L_m) + \lambda_s L_s L=λi(Lc+Lb,Lm)+λsLs

四、 Conclusion

基于FPN和Mask R-CNN,提出了一个全景分割的baseline,结构比较简单。类似于Multi-task learning。

Reference

你可能感兴趣的:(实例分割论文笔记,计算机视觉,深度学习,神经网络)