3D语义分割的任务在过去四年中取得了重大进展。继开创性的作品PointNet [46]和SparseConv [16]之后,文献中提出了一系列复杂的神经架构[47,34,11,24,66,38,102,10],大大提高了原始点云语义估计的准确性和效率。
这些方法的成功主要依赖于密集注释的每点语义标签来训练深度神经网络。然而,由于无序的、非结构化的和非统一的数据格式(例如,注释一个典型的数据集需要超过1700小时[3],单个室内场景(5m×5m×2m)需要大约22.3分钟[14])。实际上,对于非常大规模的场景,例如,在整个城市中,在实践中手动标记每个点变得不可行。
我们提出了一种新的弱监督方法来隐式地增强高度稀疏的监督信号。大量的实验表明,所提出的语义查询网络(SQN)在弱监督方案下的七个大规模开放数据集上取得了良好的性能,同时只需要0.1%的随机标注点进行训练,大大降低了标注成本和工作量。
完全标记点云非常耗时且成本高昂。随着具有数十亿个点的大型点云数据集变得越来越普遍,我们询问是否需要完整的注释,这表明即使面对1%的随机点注释,在完全注释的假设下设计的现有基线也只会略有下降。然而,超过这一点,例如,在0.1%的注释处,分割精度低得不可接受。我们观察到,作为点云的3D世界的样本,在一个局部邻域中的点的分布是相对均匀的,表现出很强的语义相似性。基于此,我们提出了一种新的弱监督方法来隐式地增强高度稀疏的监督信号。大量的实验表明,所提出的语义查询网络(SQN)在弱监督方案下的七个大规模开放数据集上取得了良好的性能,同时只需要0.1%的随机标注点进行训练,大大降低了标注成本和工作量。
学习大规模点云的精确语义对于智能机器真正理解真实的世界中复杂的3D场景至关重要。这是自动驾驶车辆、增强现实设备等的关键推动因素。以快速解释周围环境,从而更好地导航和规划。
随着大量标记的3D数据可用于全监督学习,3D语义分割的任务在过去四年中取得了重大进展。继开创性的作品PointNet [46]和SparseConv [16]之后,文献中提出了一系列复杂的神经架构[47,34,11,24,66,38,102,10],大大提高了原始点云语义估计的准确性和效率。
这些完全监督方法的性能可以在自我监督预训练表示学习的帮助下进一步提升,如最近的研究所见[84,36,72,7,95,64]。这些方法的成功主要依赖于密集注释的每点语义标签来训练深度神经网络。然而,由于无序的、非结构化的和非统一的数据格式(例如,注释一个典型的数据集需要超过1700小时[3],单个室内场景(5m×5m×2m)需要大约22.3分钟[14])。实际上,对于非常大规模的场景,例如,在整个城市中,在实践中手动标记每个点变得不可行。
受到弱监督学习技术在2D图像中的成功的启发,最近的一些工作已经开始使用更少的点标签来训练神经网络来解决3D语义分割。这些方法一般可分为五类:
1)使用2D图像标签进行训练,如[71,101]中所述;
2)使用更少的3D标签,具有梯度近似/监督传播/扰动一致性[86,93,74,78];
3)从有限的间接注释生成伪3D标签[60,77]; 4)使用过分割的超点注释[60,9,37],以及5)对比预训练,然后用更少的3D标签进行微调[22,84,96]。虽然它们在多个数据集上取得了令人鼓舞的结果,但仍有许多限制有待解决。
首先,现有方法通常使用定制方法来注释不同量的数据(例如,原始点或超级点的10%/5%/1%)用于训练。因此,不清楚应标注原始点的多少比例以及如何标注,从而不可能进行公平的比较。
其次,为了充分利用稀疏注释,现有的弱标记管道通常涉及多个阶段,包括仔细的数据增强,自我预训练,微调和/或后处理,例如使用密集CRF [28]。因此,与标准的端到端训练方案相比,在实际应用中调整参数并部署它们往往更加困难。
第三,这些技术没有充分考虑大规模点云中的点邻居的强局部语义同质性,或者这样做是无效的,导致有限的,但有价值的注释未被充分利用。
基于这些问题,我们提出了一个新的模式弱监督语义分割的大规模点云,解决上述缺点。特别是,我们首先探索弱监督计划纯粹基于现有的全监督方法,然后引入一种有效的方法来学习精确的语义,给出极其有限的点注释。
为了探索弱监管方案,我们考虑两个关键问题:
1)现有的全监督方法是否以及如何在不同数量的注释数据用于训练的情况下恶化?
2)鉴于越来越少的标签,弱监督制度实际上是从哪里开始的?
从根本上说,通过这样做,我们的目标是探索当前完全监督方法的局限性。这使我们能够在解决这一具有挑战性的任务时了解成熟架构的使用,而不是天真地借用在2D图像中开发的现成技术[61]。令人惊讶的是,我们发现,当面对1%的随机标记点时,现有完全监督基线的准确性仅略有下降。然而,超过这一点,例如,0.1%的完整注释,性能迅速下降。
有了这个洞察力,我们提出了一个新的但简单的语义查询网络,命名为SQN,语义分割少到0.1%的标记点进行训练。我们的SQN首先通过现有的特征提取器将整个原始点云编码为一组分层潜在表示,然后将任意3D点位置作为输入来查询局部邻域内的潜在表示子集。这些查询的表示总结成一个紧凑的向量,然后送入一系列的多层感知器(MLP)预测最终的语义标签。从根本上说,我们的SQN明确而有效地考虑了相邻3D点之间的语义相似性,允许将极其稀疏的训练信号反向传播到更广泛的空间区域,从而在弱监督下实现上级的性能。
总的来说,本文采取了一个步骤,以弥合高度成功的全监督方法之间的差距,新兴的弱监督计划,试图减少点云注释的时间和劳动力成本。然而,与现有的弱监督方法不同,我们的SQN不需要任何自我监督的预训练,手工制作的约束或复杂的后处理步骤,同时在多个大规模开放数据集上使用0.1%的训练标签获得接近完全监督的准确性。值得注意的是,对于类似的准确性,我们发现标签成本(时间)可以减少高达98%,根据我们的经验评估附录。图1显示了我们的方法的定性结果。我们的主要贡献是:
- 我们提出了一种新的弱监督方法,利用点邻域查询,充分利用稀疏的训练信号。
- 我们观察到,现有的全监督方法退化缓慢,直到1%的稀疏点注释,表明完整,密集的标签是多余的,没有必要的。
- 我们展示了一个显着的改善,在我们的基准基线,并大幅度超越现有的弱监管手段。
注释工具:为了验证随机稀疏注释在实践中的可行性,我们基于现成的CloudCompare8软件开发了一个用户友好的标签管道。具体来说,我们首先将原始3D点云导入到软件中,并将其随机下采样到总点的10%/1%/0.1%,以进行稀疏注释。考虑到剩余点的稀疏性,我们显式地放大了选定点的大小,并以原始的全点云作为参考。如图2的左侧部分所示,然后我们使用标准的标签模式,如多边形编辑进行逐点注释。(我们的注释管道的详细信息和视频记录在附录中提供)。
使用所开发的注释工具,在S3DIS数据集中注释标准房间的0.1%的点需要不到2分钟。为了进行比较,需要20多分钟来完全注释同一房间的所有点。注意,稀疏注释方案特别适合于具有数十亿个点的大规模3D点云。