论文阅读3(CVPR 2019)Panoptic Feature Pyramid Networks

原论文链接: Panoptic Feature Pyramid Networks

Abstract

全景分割就是将实例分割和语义分割结合起来,但是目前比较好的方法都是分开的。文章中提出将Mask-RCNN与FPN进行组合,结果证明该方法不仅在实例分割中取得了较好的效果,并且在语义分割上也表现优异,将这个网络命名为Panoptic FPN。

Introduction

论文阅读3(CVPR 2019)Panoptic Feature Pyramid Networks_第1张图片
对于语义分割来说,FCN加上空洞卷积(通过在卷积核上插入空白数据)是目前比较有用的方法,而实例分割是以Mask-RCNN和FPN作为底层网络。文中提出了一个简单、灵活和有效的可以同时产生基于区域和密度像素输出的网络。
论文阅读3(CVPR 2019)Panoptic Feature Pyramid Networks_第2张图片
文中的方法主要是以FPN作为底层网络用于实例层次的识别,增加一个用于语义分割的分支,同时存在一个基于区域的实例分割。

Related Work

实例分割:近期的Cascade R-CNN、deformable convolution 和sync batch norm。一个解决区域实例分割的方法可以是先进行语义分割然后再把它们组合成实例。然而这种方法使用分开的网络去预测实例信息,用单独的网络去预测实例的边缘和bb,文章中用一个单独的网络去实现。
语义分割:FCN是主要的方法,目前最好的方法是dilated convolution,虽然有效,但是却增加了计算量和内存,限制了底层网络的类型。dilation的一个替代方法是encoder-decoder的U-Net。
多任务学习:Mask-RCNN中的mask分支,文中的主要是stuff和thing分割。

Panoptic Feature Pyramid Network

Feature Pyramid Network:
FPN是多空间特征,scale从1/32到1/4,有相同的channel(256)。
Instance segmentation branch:
增加FCN的Mask-RCNN。
Panoptic FPN:
为了实现较高的准确率,特征需要满足以下:(1)高的分辨率去捕捉微小的特征。(2)编码足够丰富的语义信息去预测类标签。(3)捕获多尺度信息以预测多个分辨率的stuff区域。
语义分割分支:为了从FPN的特征中生成语义分割作者提出将FPN所有的层的信息进行整合,如图从最深的1/32开始,通过三个上采样得到1/4,每个卷积层的卷积核都是33,group norm,Relu和2×双线性上采样,所有的特征图会上采样到1/4,最后再进行element-wise summed。最后卷积核为11,4×双线性上采样被用于生成per-pixel的类标签,除此之外也会产生一个other类。
论文阅读3(CVPR 2019)Panoptic Feature Pyramid Networks_第3张图片
Panoptic inference:
全景输出需要将每个像素归于一个类,由于实例分割和语义分割可能会重叠:(1)不同实例之间通过置信度(2)解决实例和语义分割之间的重叠来支持实例(3)移除标记为其他的stuff区域或者是给定阈值的区域。
Joint training:
在这里插入图片描述
论文阅读3(CVPR 2019)Panoptic Feature Pyramid Networks_第4张图片

你可能感兴趣的:(论文阅读3(CVPR 2019)Panoptic Feature Pyramid Networks)