论文笔记-BANet: Bidirectional Aggregation Network with Occlusion Handling for Panoptic Segmentation

Hello,论文阅读计划的第22篇啦~
22/30

这篇论文来介绍一下全景分割,也是我第一次了解这个课题方向啦。
论文代码:https://github.com/Mooonside/BANet

一、背景介绍

全景分割是计算机视觉中一个新兴的、具有挑战性的问题,它是一个将语义分割(针对背景材料)和实例分割(针对前景实例)统一起来的复合任务。任务的典型解决方案是自上而下的深度学习方式——首先识别实例,然后分配给语义标签。通过这种方式,鲁棒的解决方案产生了两个关键问题:1)如何有效地建模语义分割和实例分割之间的内在交互,以及2)如何鲁棒地处理全景分割的遮挡

原则上,语义分割和实例分割的任务之间确实存在互补性。语义分割集中于捕捉丰富的像素级信息,用于场景理解。这些信息可以作为有用的上下文线索来丰富实例分割的特征。相反,实例分割产生了对象实例的结构信息(例如,形状),这增强了语义分割的特征表示的辨别能力。因此,这两个任务之间的相互作用是双向加强和互惠的。然而,先前的工作通常采用单向学习管道来使用来自实例分割的得分图来指导语义分割,导致缺少从语义分割到实例分割的路径。此外,这些实例得分图包含的信息通常是粗粒度的,信道大小非常有限,导致难以编码更细粒度的结构信息用于语义分割。

二、研究内容 & 贡献

鉴于上述问题,我们提出了一个双向聚合网络(双向聚合网络),称为BANet,用于全景分割,以在特征级别上模拟语义分割和实例分割之间的内在交互。具体来说,BANet在这两个任务之间拥有双向的特征聚合路径,分别对应于两个模块:实例到语义(I2S)和语义到实例(S2I)。S2I将上下文丰富的特征从语义分割传递到实例分割,用于定位和识别。同时,与实例相关的特征,加上更多的结构信息,反馈到语义分割中,以增强语义特征的区分能力。为了实现精确的实例到语义的特征转换,我们设计了基于双线性插值的滚动镶嵌算子。该操作符能够恢复裁剪实例特征的结构,以便它们可以与语义特征聚合,用于语义分割。

在语义和实例分割过程之后,我们需要将它们的结果融合到全景格式中。在融合过程中,一个关键问题是推理对象实例之间被遮挡部分的遮挡关系。传统的方法很大程度上依赖于检测/掩蔽分数,这通常与对象环境的实际空间排序关系不一致。比如一个领带通常和一个人重叠,但往往得分较低(由于类别不平衡)。基于这一动机,我们提出了一种基于重叠部分与低层外观特征空间中每个对象实例之间的相似性的免学习遮挡处理算法。它比较被遮挡部分和对象实例之间的相似性,并将每个部分分配给外观最接近的对象。

贡献:
  • 我们提出了一种基于双向学习管道的深度全景分割方案,即实例到语义(I2S)和语义到实例(S2I),以实现实例分割和语义分割之间的特征级交互。
  • 我们提出了滚动镶嵌操作符,以实现从裁剪边界框到整体场景图像的精确实例到语义的特征映射。
  • 我们提出了一种简单而有效的无学习方法来处理遮挡,它可以嵌入任何基于自顶向下的网络。

三、方法

整体模型框架图:

论文笔记-BANet: Bidirectional Aggregation Network with Occlusion Handling for Panoptic Segmentation_第1张图片

S2I模块的结构:

论文笔记-BANet: Bidirectional Aggregation Network with Occlusion Handling for Panoptic Segmentation_第2张图片

I2S模块的结构:

论文笔记-BANet: Bidirectional Aggregation Network with Occlusion Handling for Panoptic Segmentation_第3张图片

RoIUpsample和本文的RoIUpsample之间的区别。滚动采样和滚动镶嵌都可以恢复滚动对齐裁剪的特征。然而,RoIUpsample只对每个像素使用一个参考,而RoiPlease使用四个参考,不会受到具有无符号值的像素的影响。
论文笔记-BANet: Bidirectional Aggregation Network with Occlusion Handling for Panoptic Segmentation_第4张图片

损失计算:

论文笔记-BANet: Bidirectional Aggregation Network with Occlusion Handling for Panoptic Segmentation_第5张图片

效果展示:

四、结论

在本文中,我们展示了我们提出的用于全景分割的双向学习架构能够以互补的方式有效地利用实例和语义特征。此外,我们使用我们的遮挡处理模块来演示低层外观特征对于解决像素到实例分配问题的重要性。所提出的方法取得了最先进的结果,我们的每个模块的有效性在实验中得到验证。

你可能感兴趣的:(#,论文阅读笔记)