夕小瑶

2024 年1月15日Arxiv最热CV论文：Scalable 3D Panoptic Segmentation With Superpoint Graph Clustering

引言：探索大规模3D点云全景分割的新方法

在3D计算机视觉领域，理解大规模3D环境对于多种高影响力应用至关重要，例如创建大型工业设施的“数字孪生”，或者是整个城市的数字化。这些应用场景需要能够处理含有数百万3D点的大型点云，并准确预测每个点的语义，同时恢复特定对象的所有实例，这一任务被称为3D全景分割。然而，大规模3D全景分割尤其具有挑战性，因为场景的规模往往包含数百万3D点，以及对象的多样性——从几个到数千个，大小变化极大。

为了解决这些挑战，我们介绍了一种高效的方法，通过将全景分割任务重新定义为一个可扩展的图聚类问题，从而实现了大规模3D点云的全景分割。这种方法可以仅使用局部辅助任务进行训练，从而消除了训练期间资源密集型的实例匹配步骤。此外，我们的方法可以轻松适应超点范式，进一步提高效率。这使得我们的模型能够在单次推理中处理数百万点和数千个对象的场景。我们的方法，称为SuperCluster，为两个室内扫描数据集实现了新的全景分割性能标准：S3DIS Area 5的50.1 PQ（+7.8），ScanNetV2的58.7 PQ（+25.2）。我们还为两个大规模移动测绘基准（KITTI-360和DALES）设定了首个全景分割性能标准。我们的模型仅有209k参数，比最佳竞争方法小30倍以上，并且训练速度快达15倍。

声明：本期论文解读非人类撰写，全文由 赛博马良「AI论文解读达人」 智能体自主完成，经人工审核后发布。

智能体传送门：[赛博马良-AI论文解读达人]
神奇口令： 小瑶读者 （前100位有效）

论文标题：Scalable 3D Panoptic Segmentation With Superpoint Graph Clustering

机构：ENGIE Lab CRIGEN, LASTIG, IGN, ENSG, Univ Gustave Eiffel, INSA Centre Val-de-Loire Univ de Tours, LIFAT, LIGM, Ecole des Ponts, Univ Gustave Eiffel, CNRS, France

论文解读链接：赛博马良——懂流量密码的新媒体AI员工定制平台

项目地址：GitHub - SuperCluster

SuperCluster方法概述

SuperCluster是一种高效的大规模三维点云全景分割方法，它将这一任务重新定义为一个可扩展的图聚类问题。这种方法仅使用局部辅助任务进行训练，从而消除了训练过程中资源密集型的实例匹配步骤。SuperCluster的公式化可以轻松适应超点(superpoint)范式，进一步提高其效率。这使得该模型能够在单次推理中处理数百万个点和数千个对象的场景。SuperCluster在两个室内扫描数据集上实现了新的全景分割性能标准：S3DIS Area 5的50.1 PQ（+7.8），ScanNetV2的58.7 PQ（+25.2）。它还为两个大规模移动测绘基准（KITTI-360和DALES）设定了首个全景分割性能标准。SuperCluster的模型参数仅有209k，比最佳竞争方法小30多倍，并且训练速度快达15倍。

SuperCluster的方法包括以下几个关键步骤：

1. 可扩展的图聚类： 将全景分割任务视为一个可扩展的图聚类问题，能够在大规模上高效解决，而不需要预先设定预测对象的数量。

2. 局部监督： 使用神经网络预测图聚类问题的参数，并通过辅助损失进行监督，这些损失不需要实际的分割，避免了资源密集型的非最大抑制或实例匹配步骤。

3. 仅超点的分割： 该方法可以轻松适应基于超点的方法。特征计算、监督和预测完全在超点级别进行，而不是单个点，显著降低了复杂性。

SuperCluster的核心优势

SuperCluster的核心优势体现在以下几个方面：

1. 资源效率： SuperCluster特别注重资源效率，快速且可扩展，同时确保高精度。模型能够以极少的参数处理大规模场景，且训练速度远快于现有方法。

2. 大规模全景分割： 在两个室内扫描数据集上显著提高了全景分割的性能，并为S3DIS 6-fold和两个大规模基准（KITTI-360和DALES）设定了全景分割的新标准。

3. 快速和可扩展的分割： SuperCluster仅包含209k可训练参数，但性能超过了参数量大30倍以上的网络。在推理速度上与最快的实例分割方法相当，并且训练速度快达15倍。

4. 无需实例匹配： SuperCluster避免了在训练过程中进行实例匹配，这是传统方法中一个计算成本高昂的步骤。通过预测图聚类问题的参数，SuperCluster能够在不进行实例匹配的情况下实现全景分割。

5. 可处理大规模数据集： SuperCluster是首个能够处理DALES和KITTI-360这样的大规模数据集的方法，为这些数据集建立了全景分割的性能基准。

总的来说，SuperCluster通过其创新的方法和核心优势，在大规模三维点云全景分割领域取得了显著的进展，为未来的研究和应用奠定了基础。

方法详解：SuperCluster的工作流程

在本章节中，我们将详细解释SuperCluster的工作流程，这是一种高效的大规模3D点云全景分割方法。SuperCluster通过将全景分割任务重新定义为一个可扩展的图聚类问题，能够在单次推断中处理包含数百万点和数千个对象的场景。以下是SuperCluster工作流程的关键步骤：

1. 图聚类问题的构建： SuperCluster将全景分割视为一个图聚类问题。首先，将点云P中的点与其K近邻连接起来，形成一个图G = (P,E)，其中E表示这些连接。

2. 空间-语义正则化： 通过神经网络为每个点p预测一个概率类别分布xclass_p ∈ [0, 1]^C。为了保持对象预测的空间一致性，SuperCluster引入了一个信号x，它对于每个点p来说是其位置xpos和语义预测xclass_p的通道级联。目标是计算信号x的分段常数近似y⋆，并通过图割正则化问题来实现。

3. 对象引导的边权重： 边权重wp,q决定了在点p和q之间预测对象转换的成本。为了区分同一类别的空间相邻对象，例如椅子排或交通中的汽车，设计合适的边权重至关重要。SuperCluster训练一个神经网络来预测每个边缘(p, q)的对象一致性ap,q ∈ [0, 1]，这代表两点属于同一对象的概率。

4. 图聚类： 解决方程(1)中的优化问题得到的常数分量y⋆定义了P的一个聚类K。这些聚类包含空间相邻且语义兼容的点，并且它们的轮廓应该遵循预测的对象转换。

5. 转换为全景分割： 从聚类K中导出全景分割。对于每个聚类，计算其构成点的平均点分布，并选择概率最高的类别。然后为预测为“物体(thing)”类别的每个聚类分配一个唯一的对象索引。同样，为预测为“材质(stuff)”类别的每个聚类分配一个由所有预测为同一类别的聚类共享的索引。最后，每个单独的点都被标记为其各自聚类的类别和对象索引。

6. 优化： 优化问题表达式在图优化文献中被广泛探讨，被称为广义最小分割问题。SuperCluster采用并行ℓ0-cut追求算法适应信号的双重空间-语义性质，该算法特别具有可扩展性，能够在标准工作站上处理数亿条边。

实验验证：数据集和评价指标

在本章节中，我们将介绍用于评估SuperCluster性能的数据集和评价指标。

1. 数据集： 我们使用以下四个数据集进行评估：

S3DIS： 这个室内扫描数据集包含274百万点，分布在6个建筑楼层的271个房间中。我们将同一区域的所有房间合并，将每个楼层视为一个大型采集场景，并遵循标准评估协议。
ScanNetV2： 这个数据集包含237百万3D点，组织在1501个中等规模的室内场景中。我们在ScanNet的开放测试集上评估SuperCluster。
KITTI-360： 这个数据集包含超过100k个来自城市环境的移动映射激光扫描，我们使用累积点云格式，将多个传感器旋转聚合成300个平均超过300万点的大型场景。
DALES： 这个大规模航空扫描数据集覆盖了10平方公里，包含500百万3D点，组织在40个城市和乡村场景中，我们使用其中12个进行评估。

2. 评价指标：

识别质量（Recognition Quality, RQ）： 评估对象识别和分类的质量。
分割质量（Segmentation Quality, SQ）： 评估目标和预测对象分割之间的对齐程度。
全景质量（Panoptic Quality, PQ）： 结合RQ和SQ的度量。
语义分割性能（Mean Intersection over Union, mIoU）： 通过将点与其超点的类别相关联并计算mIoU来计算。

3. 模型参数化： 我们的模型在S3DIS和DALES数据集上使用的是小型SPT-64模型，而在KITTI-360和ScanNet上使用的是稍大的模型。SuperCluster在训练时的批处理是由随机采样的圆柱体组成，其半径和分区参数根据数据集的不同而调整。

通过在训练集上优化图聚类参数（λ、η和ϵ），我们可以调整SuperCluster以优化PQ。由于聚类步骤特别高效，我们可以在几分钟内评估数十个值。

实验结果与分析

1. 总体性能

SuperCluster模型在多个室内扫描数据集上取得了新的最高水平的全景分割性能：在S3DIS Area 5上达到了50.1 PQ（+7.8），在ScanNetV2上达到了58.7 PQ（+25.2）。此外，该模型还在两个大规模移动映射基准数据集KITTI-360和DALES上设立了首个全景分割的最高水平。值得注意的是，SuperCluster模型仅有209k参数，比最佳竞争方法小30倍以上，并且训练速度快达15倍。

2. 速度与可扩展性

SuperCluster的推理速度与最快的实例分割方法相当，并且可以在单次推理中处理数百万个点和数千个对象的场景。例如，在S3DIS数据集的一个分区上训练仅需4小时，而在ScanNet上训练仅需6小时。

3. 详细分析

在S3DIS数据集的Area 5上，与其他全景分割基准相比，SuperCluster模型的性能显著提高，PQ提升了7.8点，mIoU提升了3.2点。
在ScanNet数据集上，SuperCluster显著提升了全景分割的最新水平，PQ提升了25.2点。
对于DALES和KITTI-360数据集，SuperCluster是首个能够处理这些大型瓦片的模型，因此建立了这些数据集的全景分割最新水平。

4. 局限性

SuperCluster的训练过程中避免了复杂的实例匹配步骤，但这也意味着在图优化问题中，函数是非连续且不可微的，这限制了分区的学习能力。
尽管模型在多种采集设置中运行良好，但在点密度较低的情况下，超点分区可能会失败，例如在某些KITTI-360采集的边缘区域。
使用的轻量级SPT网络虽然具有最大的可扩展性，但并非最强大的现有架构，使用更多资源密集型的网络可能会进一步提高性能。

局限性与未来工作

1. 局限性

SuperCluster模型虽然高效，但存在一些限制。优化问题（方程1）是非连续和不可微的，这阻碍了梯度的计算和分区的学习能力。然而，这种特性使得训练过程简单快速。
超点分区对低点密度敏感，可能无法处理稀疏扫描，如KITTI-360采集的边缘区域所见。
虽然使用了轻量级SPT网络以确保最大的可扩展性，但这个网络并非最强大的架构，使用更多资源密集型的网络可能会提高结果。

2. 未来工作

针对模型的局限性，未来的工作可以探索如何改进图优化问题的连续性和可微性，以便更好地学习分区。
可以研究如何改进超点分区算法，使其对点密度的变化更加鲁棒，以便更好地处理稀疏扫描数据。
探索使用更强大的网络架构来提高模型的性能，同时保持其可扩展性和训练速度。

总结：SuperCluster在大规模3D点云全景分割中的创新与影响

1. 创新点

SuperCluster是一种用于大规模3D点云全景分割的高效方法，它将这一任务重新定义为一个可扩展的图聚类问题。这种方法的创新之处在于：

可扩展的图聚类： SuperCluster将全景分割任务视为一个可扩展的图聚类问题，能够在不预设预测对象数量的情况下高效处理大规模场景。
局部监督： 该方法使用神经网络预测图聚类问题的参数，并通过辅助损失进行监督，从而避免了训练过程中资源密集的非最大抑制和实例匹配步骤。
仅超点分割： SuperCluster可以轻松适应基于超点的方法。特征计算、监督和预测完全在超点级别进行，而不是单个点，大大降低了复杂性。

这些特点使得SuperCluster在资源效率、速度和可扩展性方面表现出色，同时确保了高精度。

2. 影响

SuperCluster对大规模3D点云全景分割领域产生了显著影响：

大规模全景分割： 在两个室内扫描数据集上，SuperCluster显著提高了全景分割的性能，S3DIS Area 5的全景质量（PQ）达到50.1（+7.8），ScanNetV2达到58.7（+25.2）。同时，它还为KITTI-360和DALES这两个大规模移动测绘基准数据集设立了首个全景分割的最新水平。
快速且可扩展的分割： SuperCluster仅有209k可训练参数，比最佳竞争方法小30多倍，并且训练速度快达15倍。在单次推断中，它能够处理拥有数百万点和数千个对象的场景。
资源效率： SuperCluster的模型体积小，训练速度快，能够在标准工作站上处理拥有数亿条边的图，无需平铺和实例拼接后处理。

3. 案例和细节

SuperCluster在处理S3DIS Area 5的9.2M点（78M预采样）和1863个“物体”对象时，能够在单个V100-32GB GPU上以3.3秒的速度完成一次推断，并达到50.1的全景质量。此外，SuperCluster在训练时的批处理中，每个批次项的场景大小与训练时相同，其中“材质”类以较低的不透明度表示。

总的来说，SuperCluster通过其创新的方法和显著的性能提升，在大规模3D点云全景分割领域产生了深远的影响。它的出现推动了该领域的发展，并为未来的大规模3D扫描全景方法提供了新的方向。