CVPR2019点云分割论文解读ASIS:Associatively Segmenting Instances and Semantics in Point Clouds

总述

3D点云准确而直观地描述了真实场景。到目前为止,如何在这样一个信息丰富的3D场景中分割各种元素,还很少得到讨论。

在本文中,首先介绍了一个简单而灵活的框架,用于同时分割点云中的实例和语义。然后,作者提出了两种方法,使两项任务互相利用,实现双赢。具体来说,通过学习语义感知的point-level实例嵌入,使实例分割受益于语义分割。同时,将属于同一实例的点的语义特征融合在一起,从而对每个点更准确地进行语义预测。本文的方法在3D实例分割方面大大优于目前最先进的方法,在3D语义分割方面也有很大的改进。

论文题目:Associatively Segmenting Instances and Semantics in Point Clouds

作者:Xinlong Wang, Shu Liu, Xiaoyong Shen, Chunhua Shen, Jiaya Jia

论文链接:https://arxiv.org/abs/1902.09852

代码链接:https://github.com/WXinlong/ASIS

相关介绍

实例分割和语义分割都旨在检测由场景中的最小单元组表示的特定信息区域。 例如,点云可以被解析为点组,其中每个组对应于一类东西或个体实例。 这两项任务是相关的,并且在实际场景中都有广泛的应用,例如自动驾驶和增强现实。 许多研究对每项任务都取得了很大进展,但现有方法并没有相关联地处理这两项任务。

实际上,实例分割和语义分割在某些方面相互冲突。 前者清楚地区分同一类的不同实例,而后者希望它们具有相同的标签。 但是,这两项任务可以通过寻求共同点来相互合作。 语义分割区分不同类的点,这也是实例分割的目的之一,因为不同类的点必须属于不同的实例。 此外,实例分段将相同的标签分配给属于同一实例的点,这也与语义分段一致,因为同一实例的点必须属于同一类别。 这一观察结果让人怀疑这两项任务如何相互联系,从而容忍双赢的解决方案?

 在实例分割和语义分割中,本文将这两项任务完全整合到一个端到端的并行培训框架中,该框架以柔和且可学习的方式共享相同的好处。

CVPR2019点云分割论文解读ASIS:Associatively Segmenting Instances and Semantics in Point Clouds_第1张图片

首先引入一个简单的基线来同时分割实例和语义。 它类似于将实例分割和语义分割用于2D图像的方法,本文将其应用于3D点云中。 基线网络有两个并行分支:一个用于每点语义预测; 另一个输出点级实例嵌入,其中属于同一实例的点的嵌入保持接近而不同实例的点的嵌入是分开的。 本文基线方法已经可以获得比最近最先进的方法SGPN 更好的性能,以及更快的训练和推理。 基于这种灵活的基线,进一步提出了一种新技术,将实例分割和语义分割紧密地联系在一起,称为ASIS(关联分段实例和语义)。

CVPR2019点云分割论文解读ASIS:Associatively Segmenting Instances and Semantics in Point Clouds_第2张图片

利用所提出的ASIS方法,方法能够学习语义感知实例嵌入,其中属于不同语义类的点的嵌入通过特征融合进一步自动分离。如图2所示,不同类别点之间的界限更清晰(椅子和桌子,窗户和墙壁)。此外,属于同一实例的点的语义特征被利用并融合在一起,以进行更准确的每点语义预测。其背后的直觉是,在语义分割期间,分配给其中一个类别的点是因为包含该点的实例属于该类别。因此,这两项任务可以相互利用,进一步提高其绩效。本文主要贡献如下。

  • 提出了一种快速有效的简单基线,用于在3D点云上同时进行实例分割和语义分割。
  • 提出了一个新的框架,称为ASIS,将实例分割和语义分割紧密地联系在一起。 具体而言,提出了两种类型的伙伴关系 - 语义意识,例如用于语义分割的分段和实例融合 - 以使这两个任务彼此协作。
  • 通过所提出的ASIS,包含语义感知实例分割和实例融合语义分割的模型被端到端地训练,其优于S3DIS数据集上的最先进的3D实例分割方法及三维语义分割任务的重大改进。 此外,在ShapeNet数据集上实验表明,ASIS也有利于零件分割的任务。

相关工作

本小结主要阐述前人对于实例分割/语义分割以及点云在DL中的应用发展。从简介绍,可自行补充学习。

实例分割

2D实例分割最近引起了很多研究的关注,导致了各种表现最佳的方法。受到基于区域的CNN(R-CNN)在目标检测问题中的有效性的启发,许多研究工作就此展开,学会通过提出候选框区域来分割实例。比如后来的Mask R-CNN,可以同时预测掩模和类别标签。再者Braban-dere等人提出了一种判别性损失函数,它能够有效地学习像素级实例嵌入。刘等人将实例分割问题分解为一系列子分组问题。但是,很少研究3D实例分割。本文工作中引入了一种简单灵活的方法,借助3D点云中的语义特征,学习有效的点级实例嵌入。

语义分割

随着最近卷积神经网络(CNNs)的发展,语义分割已经取得了巨大的进步。 基于完全卷积网络(FCN)[21]的方法主导了2D图像的语义分割。 至于3D分割,有研究者提出了预测粗体素级语义标签的3D-FCNN。 PointNet 及其后续工作使用多层感知器(MLP)来产生细粒度的点级分割。 最近,Landrieu等人引入超点图(SPG)来分割大规模点云。 实际上,很少有先前的工作段语义在2D图像或3D点云中占用实例嵌入的优点。

DL中的点云

点云通过DL使用在目标检测中主要有两种方法。

  1. 投影法:为了利用经典CNN的强大表现能力,3D点云首先被投射到多视图渲染图像中,在其上可以应用精心设计的2D图像CNN。但是在投影过程中,点云中的部分上下文信息被遗忘。
  2. 体素法:点云数据的另一种流行表示是体素化体积。许多研究工作将点云数据转换为常规的体积占用网格,然后训练3D CNN或品种以执行体素级预测。由于点云的稀疏性和3D卷积的大量计算,体积表示的缺点在于计算和存储器密集。因此,这些方法仅限于处理大规模3D场景。

为了直接处理原始点云,PointNet 被提议用于产生点级预测,在3D分类和分割任务上实现强大的性能。PointNet ++ ,RSNet [,DGCNN 和PointCNN 进一步关注探索本地环境和层次学习架构。在这项工作中,构建了一个新的框架,用于在点云中关联地分割实例和语义,并证明它在不同的骨干网络上是有效的和通用的。

实现方法

一个简单基线网络

这里文中介绍一个简单而有效的框架。它由共享编码器和两个并行解码器组成。其中一个解码器用于点级语义预测,而另一个解码器旨在处理实例分段问题。具体地流程:首先提取大小为_{Np}的点云,并通过特征编码器(例如,堆叠的PointNet层)将其编码成特征矩阵。此共享特征矩阵指的是PointNet体系结构中的局部特征和全局特征的串联,或PointNet ++体系结构的最后一组抽象模块的输出。然后,两个并行分支获取特征矩阵,并分别继续进行以下预测。语义分割分支将共享特征矩阵解码为_{Np}×_{Nf}形语义特征矩阵,然后输出具有_{Np}×_{Nf}形状的语义预测,其中_{Nc}是语义类别的数量。除最后一个输出层外,实例分段分支具有相同的体系结构。

在训练时,语义分段分支由经典的交叉熵损失监督。 对于实例分割,采用前人的成果中的2D图像判别损失函数来监督实例嵌入学习。 作者修改它并使其适用于点云。 以前使用的损失是特定于类的:不同语义类的实例嵌入是分开学习的,这意味着应该首先给出语义类。 这种逐步范式高度依赖于语义预测的质量,因为不正确的语义预测将不可避免地导致不正确的实例识别。 因此,本文采用类不可知实例嵌入学习策略,其中嵌入负责区分不同的实例并且对其类别视而不见。 损失函数的表述如下:

CVPR2019点云分割论文解读ASIS:Associatively Segmenting Instances and Semantics in Point Clouds_第3张图片

 具体来说,每个公式可以写成如下:

CVPR2019点云分割论文解读ASIS:Associatively Segmenting Instances and Semantics in Point Clouds_第4张图片

CVPR2019点云分割论文解读ASIS:Associatively Segmenting Instances and Semantics in Point Clouds_第5张图片

在测试期间,使用平均移位聚类在实例嵌入上获得最终实例标签。 我们将同一实例中的点的语义标签的模式分配为其最终类别。 点云实例分割和语义分割基本框架如图3所示。

CVPR2019点云分割论文解读ASIS:Associatively Segmenting Instances and Semantics in Point Clouds_第6张图片

ASIS核心实现

如图3(b)所示,受益于上述简单灵活的框架,本文从以上基础框架基础上构建新的ASIS模块,实现语义感知实例分割和实例融合语义分割。

  • 语义感知-实例分割

点云的语义特征构建了一个新的高级特征空间,其中点根据其类别自然定位。 在该空间中,相同语义类的点位于一起,而不同的类被分开。 本文从语义特征中抽象出语义感知(SA)并将其集成到实例特征中,从而产生语义感知实例特征。 首先,语义特征矩阵F_{SEM}^{'}适用于通过具有批量归一化和ReLU激活函数的点独立完全连接层(FC)作为F SEM的实例特征空间。 F_{SEM}^{'}具有与F_{SEM}相同的形状。 然后,我们将自适应语义特征矩阵F_{SEM}^{'}添加到实例特征矩阵F_{INS}元素,生成语义感知实例特征矩阵F_{SINS}。 该过程可以表述为:

在这种简易且可学习的方式中,属于不同类别实例的点在实例特征空间中被进一步排斥,而相同类别实例很少受到影响。 特征矩阵F_{SINS}用于生成最终实例嵌入。

  • 实例融合-语义分割

给定实例嵌入,本文使用K最近邻(kNN)搜索来为实例嵌入空间中的每个点(包括其自身)找到固定数量的相邻点。为了确保属于同一实例的K个采样点,作者根据公式2中使用的边界过滤异常值。如前一节所述,铰接损失项L_{var}通过绘制每个点嵌入来监控实例嵌入学习接近δv距离内的平均嵌入。 kNN搜索的输出是形状为N_{P}*K的索引矩阵。根据索引矩阵,这些点的语义特征(F_{SEM})被分组为N_{P}*K*N_{F}形特征张量,其是语义特征矩阵,其中每个组对应于与其质心点相邻的实例嵌入空间中的局部区域。受基于通道的最大聚合的有效性的启发,每个组的语义特征通过通道方式的最大聚合操作融合在一起,作为质心点的精确语义特征。实例融合(IF)可以如下公式化。对于N_{P}*N_{F}形语义特征矩阵F_{SEM}=[x_{1},,,x-{NP}]\subseteq R^{NF},实例融合语义特征计算如下:

其中[x_{i1},,,,x_{ik}]表示实例嵌入空间中K个相邻点居中点i的语义特征,而Max是以K个向量作为输入并输出新向量的逐元素最大值算子。 在实例融合之后,输出是N_{P}*N_{F}特征矩阵F_{ISEM},最终语义特征将被馈送到最后的语义分类器中。

实验部分

实验部分代码等复现之后在做详细介绍,请后续关注。

 

你可能感兴趣的:(目标检测)