《Panoptic Feature Pyramid Networks(FAIR)》---- 论文翻译 何楷明大佬最新论文

Abstract

最近引入的Panoptic(全景)分割任务重新唤起了我们社区对统一实例分割(对象类)和语义分割(对象类)任务的兴趣。然而,目前用于这种联合任务的最先进的方法使用单独的和不同的网络,例如和语义分割,而不执行任何共享计算。在这项工作中,我们的目标是在架构级别上统一这些方法,为这两个任务设计一个单一的网络。我们的方法是使用共享特征金字塔网络(FPN)骨干网赋予掩模R-CNN一种流行的实例分割方法一个语义分割分支。令人惊讶的是,这个简单的基线不仅在实例分割方面仍然有效,而且还产生了一个轻量级的、性能最好的语义分割方法。在这项工作中,我们进行了一个详细的研究,这个最小扩展版本的Mask R-CNN与FPN,我们称之为Panoptic FPN,并表明它是一个稳健和准确的基线为这两个任务。鉴于其有效性和概念的简单性,我们希望我们的方法可以作为一个强大的基线,并帮助未来的研究全光分割。

Introduction

我们的社区已经见证了语义分割的快速发展,其中的任务是为每个像素分配一个类标签(例如,为stuff类),以及最近的实例分割,其中的任务是检测和分割每个对象实例(例如,为thing类)。这些进展得到了简单而强大的基线方法的帮助,包括全卷积网络(FCN)[41]和掩码R-CNN[24]用于语义和实例分割,特别是。这些方法在概念上简单、快速、灵活,为这些领域的后续进展奠定了基础。在这项工作中,我们的目标是提出一个类似的简单,单网络基线的联合要求的全景分割[30],这是一个任务,其中包括语义和实例分割。
《Panoptic Feature Pyramid Networks(FAIR)》---- 论文翻译 何楷明大佬最新论文_第1张图片
虽然概念上很简单,但设计一个能同时实现两项任务的高精度的单一网络是一个挑战,因为这两项任务的顶级生成方法有许多不同之处。对于语义分割,扩展卷积增强的专门化骨架FCNs[57,10]占据了流行的排行榜[18,14]。例如,在最近的识别挑战中,基于区域的带特征金字塔网络(FPN)[36]主干的掩码R-CNN[24]被用作所有顶级条目的基础[37,60,43]。尽管已经有人尝试将语义和实例分割统一起来[46,1,9],但考虑到它们的并行开发和独立的基准,目前要在每一个方面实现最佳性能所必需的专门化可能是不可避免的。考虑到这些顶级方法在架构上的差异,在为这两个任务设计单个网络时,可能需要考虑实例或语义分段的准确性。相反,我们展示了一个简单、灵活、有效的体系结构,它可以使用一个单独的网络同时生成基于区域的输出(例如分割)和稠密像素输出(用于语义分割)来匹配两个任务的准确性。
考虑到这些顶级方法在架构上的差异,在为这两个任务设计单个网络时,可能需要考虑实例或语义分段的准确性。相反,我们展示了一个简单、灵活和有效的体系结构,它可以使用一个单独的网络同时生成基于区域的输出(例如分割)和稠密像素输出(用于语义分割)来匹配两个任务的准确性

我们的方法从实例级识别[24]常用的FPN[36]主干开始,并添加一个分支来与现有的基于区域的分支并行执行语义分割,例如实例分割,参见图1。在添加密度预测分支时,我们不改变FPN主干,使其与现有的实例分割方法兼容。我们的方法,我们称之为全景FPN,因为它能够通过FPN生成实例和语义分段,很容易实现,给出了掩码R-CNN框架[23]。

全景FPN是基于FPN的掩模RCNN的一种直观扩展,正确地训练这两个分支同时进行基于区域和密度像素的预测对于获得良好的结果非常重要。我们在联合设置中仔细研究如何平衡两个分支的损失,有效地构建小批量,调整学习率调度,并进行数据扩充。我们还探讨了语义分割分支的各种设计(所有其他网络组件都遵循Mask R-CNN)。总的来说,虽然我们的方法对于精确的设计选择是健壮的,但是适当地处理这些问题对于获得良好的结果是关键的。在对每个任务进行独立训练时,我们的方法在COCO[37]和Cityscapes[14]上的实例分割和语义分割都取得了很好的效果。例如分割,这是预期的,因为我们的方法在这种情况下是等效的面具R-CNN。对于语义分割,我们附加在FPN上的简单的密度预测分支产生的精度与最新的基于扩展的方法(如最近的DeepLabV3+[12])相当。
对于全光分割[30],我们证明了在适当的训练下,使用一个FPN来同时解决两个任务产生的精度相当于训练两个单独的FPNs,而计算量大约只有一半。在相同的计算条件下,两个任务的联合网络可以很好地完成两个独立的网络。算例全光分割结果如图2所示。
全景FPN是内存和计算率,只招致一个轻微的开销MaskR-CNN。通过避免使用高开销的扩展,我们的方法可以使用任何标准的性能最好的主干(例如一个大型的ResNeXt[55])。我们相信这种灵活性,加上我们的方法的快速训练和推理速度,将有利于未来的研究全景分割。我们使用了我们模型的一个初步版本(仅限语义分割分支)作为2017年COCO Stuff segmentation [6] track的第一个获奖作品的基础。这种单分支模式在2018 COCO和map腋窝挑战赛1中被采用和推广,显示了它的灵活性和有效性。我们希望我们提出的联合全景分割基线同样有效。

5.Conclusion

我们介绍了一个概念简单但有效的全光分割基线。该方法以带FPN的掩码R-CNN为基础,增加了一个轻量级的语义分割分支用于稠密像素预测。希望为今后的研究打下坚实的基础。

你可能感兴趣的:(文献翻译,计算机视觉,个人记录)