^_^ 晅菲

【点云系列】综述： Deep Learning for 3D Point Clouds: A Survey

文章目录

起因
题目
摘要
1 简介
2 背景
- 2.1 数据集
- 2.2 衡量指标
3 3D形状分类
- 3.1基于多视角的方法
- 3.2基于体素的方法
- 3.3 基于点的方法
- - 3.3.1逐点MLP网络
  - 3.3.2基于卷积的网络
  - 3.3.3基于图的网络
  - 3.3.4基于数据索引的方法
  - 3.3.5其他方法
- 3.4小结
4 3D物体检测与跟踪
- 4.1 3D物体检测
- - 4.1.1 基于候选区域的方法
  - 4.1.2 single-shot方法
- 4.2 3D对象跟踪
- 4.3 3D场景流估计
- 4.4 小结：
5 3D点云分割
- 5.1 3D 语义分割
- - 5.1.1 基于投影的方法
  - 5.1.2 基于离散的方法
  - 5.1.3 混合方法
  - 5.1.4 基于点的方法
- 5. 2 实例分割
- - 5.2.1 基于提取框的方法
  - 5.2.2 无提取框的方法
- 5.3 部件分割
- 5.4 小结
6 总结
文献列表

起因

由于科技论写作课需要翻译一篇自己方向的文章，所以就选择这篇文章，课程结束，将此放于这里供大家一起参考。翻译不是很好的地方也请大家见谅。

题目

Deep Learning for 3D Point Clouds: A Survey
论文：https://arxiv.org/abs/1912.12033
仓库：https://github.com/QingyongHu/SoTA-Point-Cloud

摘要

由于点云学习在计算机视觉，自动驾驶和机器人等许多领域的广泛应用，近来引起了越来越多的关注。作为AI中的主要技术，深度学习已成功解决了各类2D视觉问题。但是，由于使用深度神经网络处理点云所面临的独特挑战，因此点云上的深度学习仍处于起步阶段。近年来，在点云上的深度学习逐渐蓬勃发展起来，针对该领域所面临的不同问题提出了许多解决方法。为了激发未来的研究，本文对点云深度学习方法的最新进展进行了全面的回顾。它涵盖了三个主要任务：3D形状分类，3D对象检测和跟踪以及3D点云分割。它还提供了一些可公开获得的数据集的比较结果，以及有见地的观察和启发性的未来研究方向。

索引词-深度学习，点云，3D数据，形状分类，对象检测，对象跟踪，场景流，实例分割，语义分割，场景理解

1 简介

随着3D采集技术的飞速发展，3D传感器变得越来越便宜可用，包括各种类型的3D扫描仪，LiDAR和RGB-D相机（例如Kinect，RealSense和Apple深度相机）[1]。这些传感器获取的3D数据可以提供丰富的几何，形状和比例信息[2]，[3]。与2D图像互补，3D数据为更好地了解机器周围环境提供了机会。 3D数据在不同领域具有众多应用，包括自动驾驶，机器人技术，遥感，医疗和设计行业[4]。

3D数据通常可以用不同的格式表示，包括深度图像，点云，网格和体素网格。点云作为一种常用3D表达方式，将原始几何信息保留在3D空间中，且无任何离散化。因此，它是许多场景理解相关应用（例如自动驾驶和机器人技术）的首选表示形式。近年来，深度学习技术已主导了许多研究领域，例如计算机视觉，语音识别，自然语言处理（NLP）和生物信息学。然而，在3D点云上进行深度学习仍然面临数个重大挑战[5]，例如数据集规模小，维度高和3D点云的非结构化性质。在此基础上，本文着重分析用于处理3D点云的深度学习方法。

点云应用深度学习已吸引了越来越多的关注，尤其是在过去的五年中。一些公开数据集也逐步发布，例如ModelNet [6]，ShapeNet [7]，ScanNet [8]，Semantic3D [9]和KITTI Vision Benchmark Suite [10]。这些数据集进一步推动了对3D点云的深度学习的研究，提出了越来越多的方法来解决与点云处理有关的各种问题，包括3D形状分类，3D对象检测和跟踪以及3D点云分割。相关文献当中很少有关于3D数据的深度学习综述，例如[11]，[12]，[13]，[14]。我们的论文是第一个专门针对点云的深度学习方法的论文。此外，我们的论文全面涵盖了分类，检测，跟踪和分割等不同应用。图1显示了3D点云的现有深度学习方法的分类。

图1：用于3D点云的深度学习方法分类。

与现有文献相比，这项工作的主要贡献可以归纳如下：
1）据我们所知，这是第一篇针对3D形状分类，3D对象检测和跟踪以及3D点云分割等重要点云相关任务全面涵盖深度学习方法的综述论文。
2）与现有的[11]，[12]相反，我们专门关注于3D点云的深度学习方法，而不是所有类型的3D数据。
3）本文涵盖了点云上深度学习的最新和最先进的进展。因此，为读者提供了最新的方法。
4）提供了现有方法在几个可公开获得的数据集上的全面比较（例如，表1、2、3、4），并给出了简短的摘要和有见地的讨论。

接下来的文章组织如下：第二章节主要介绍相关任务的数据集以及衡量方式；第三章节主要介绍3D形状分类；第四章节主要介绍3D目标检测和跟踪；第五章节主要介绍点云分割，其中包括语义分割、实例分割和部件分割。最后，第六章节总结整篇论文。我们还在以下网址上提供了定期更新的项目页面：
https://github.com/QingyongHu/SoTA-Point-Cloud

2 背景

2.1 数据集

针对不同的3D点云应用，有大规模的数据集对应来评测深度学习算法性能。表1列举了一些典型用于3D分类，3D目标检测与追踪，以及3D点云分割的数据集。特别的，这些数据集的属性也有总结。

对于3D形状分类，有两类数据集，合成数据及[6]，[8]和真实数据集[7]，[11]。在合成数据及里的物体是完整的，没有遮挡和背景。而在现实场景的数据集是有不同程度的遮挡的，且一些物体是受背景噪声干扰的。

对于3D目标检测与追踪，有两类数据集：室内场景[11]、[25]和室外城镇场景[14]、[18]、[30]、[31]。室内场景不是从密集深度图获取，就是从3D mesh中采样获取的。室外城镇场景是专门为自动驾驶所设计的，其中的物体是空间分离的，且点云是稀疏的。

对于3D点云分割，这些数据集是通过不同类型的感知器获得的，包括Mobile Laser Scanners(MLS)[15]、[34]、[36]，Aerial Laser Scanners(ALS)[33]、[38]，静态 Terrestrial Laser Scanners （TLS）[12]， RGB-D相机[11]和其他3D扫描仪[10]。这些数据集都能用来生成对于不同挑战的算法，例如相似干扰，形状缺失，和类别不均衡。

2.2 衡量指标

针对不同类型点云理解任务，对应提出了适合的衡量方法来验证。对于3D形状分类，总体准确率（OA）和平均类别准确率（mAcc）是最常用的衡量性能指标的方法。’OA‘表示所有测试样例的平均准确率，’mAcc‘表示所有形状类别的平均准确率。对于3D目标检测，平均精确度（AP）是最常用的指标。其反应了精确度-召回率曲线下面的面积。精确度和召回率通常被用来衡量3D单个物体追踪的性能。平均多目标追踪准确率（AMOTA）和平均多目标追踪精确度（AMOTP）是衡量3D多目标追踪的最常用指标。对于3D点云分割， OA，平均交并比（mIoU）和平均类别准确率（mAcc）[10],[12],[15],[36],[37]是最常用的衡量指标。尤其是，平均召回率（mAP）[39]是用作3D点云汇总的实例分割的。

3 3D形状分类

这些方法通常先学习每个点的嵌入，然后使用聚合方法从整个点云中提取全局形状嵌入。最终，输入全局嵌入到几个完全连接的层实现了分类。基于在每个点上执行特征学习的方式，现有的3D形状分类方法可以分为基于多视角，基于体素和基于点的网络。图2说明了几种里程碑方法。

图2：3D形状分类网络的时间顺序概述。

基于多视角的方法，首先将非结构化的点云投影到2D图像中，而基于体素的方法是将一个点云转变为3D体素来表达。然后利用完善的2D或3D卷积实现形状分类。相反，基于点的方法可直接在原始点云上运行，而无需任何体素化或投影。基于点的方法不会造成明显的信息丢失，并且越来越受欢迎。本文中，作者主要关注基于点的网络，但为了完整起见，也很少包含基于投影的网络。

3.1基于多视角的方法

这些方法将3D点云投影到多个视图当中，并提取不同视图方向的特征，然后混合这些特征来以进行准确的形状分类。如何将多个基于视图的特征聚合到一个可区分的全局表示中是一个关键挑战。

MVCNN [40]是一项开创性的工作，它只是将多视图特征最大池化为一个全局描述符。但是，最大池化只能保留特定视图中的最大元素，会导致信息丢失。 MHBN [41]通过协调双线性池化整合了局部卷积特征，以生成紧凑的全局描述符。杨等[42]首先利用关系网络来利用一组视图之间的相互关系（例如，区域-区域关系和视图-视图关系），然后将这些视图进行聚合以获得具有区别性的3D对象表示。另外，还提出了其他几种方法[43]，[44]，[45]，[46]以提高识别精度。不像先前的一些方法，Wei等人[47]在View-GCN中使用定向图，将多视图看做是图的结点。核心层包括局部图卷积，非局部信息传输和可选择性的视图采样，然后使用这些来构成图。所有层级的的结点特征经过最大池化串联起来形成全局形状描述子。

3.2基于体素的方法

早期方法通常在3D点云的体素表示基础上应用3D卷积神经网络（CNN）来实现形状分类。

Maturana等人[48]介绍了一种称为VoxNet的体积占用网络，以实现可靠的3D目标识别。 Wu等[6]提出了一种基于卷积深度信念的3D ShapeNet，以学习各种3D形状中点的分布。 3D形状通常由体素网格上二进制变量的概率分布表示。尽管已经实现了令人鼓舞的性能，但是这些方法无法很好地应用到密集的3D数据，因为计算和内存占用量会随着分辨率的增加而三次增长。

为此，引入了分层而紧凑的图结构（例如八叉树）以减少这些方法的计算和存储成本。 OctNet [49]首先使用混合网格八叉树结构对点云进行分层划分，该结构代表沿规则网格具有几个浅八叉树的场景。使用位串表示对octree的结构进行有效编码，并通过简单的算法对每个体素的特征向量进行索引。 Wang等[50]提出了一种基于Octree的CNN用于3D形状分类。在最细的叶子八分位数中采样的3D模型的平均法线向量被馈送到网络中，并将3D-CNN应用于3D形状表面所占据的八分位数。与基于密集输入网格的基准网络相比，OctNet对于高分辨率点云所需的内存和运行时间要少得多。 Le等[51]提出了一种称为PointGrid的混合网络，该网络集成了点和网格表示，以进行有效的点云处理。在每个嵌入的体素网格单元中采样恒定数量的点，这使网络可以使用3D卷积提取几何细节。Ben-Shabat等人[52]将输入的点云转换到3D网格中用3D modified Fisher Vector(3DmFV)来表示，接着通过传统CNN框架来学习全局表达。

3.3 基于点的方法

根据用于每个点的特征学习的网络体系结构，可以将这一类的方法分为逐点MLP，基于卷积，基于图，基于数据索引的网络和其他典型网络。

3.3.1逐点MLP网络

这些方法使用多个多层感知器（MLP）独立地对每个点建模，然后使用对称函数聚合全局特征，如图3所示。这些网络可以实现无序3D点云的置换不变性。但是，没有完全考虑3D点之间的几何关系。

图3：PointNet的体系结构。 n表示输入点的数量，M表示每个点的学习特征尺寸。在最大池化之后，整个点云的全局特征的维度也是M。

传统的应用于2D图像的深度学习方法不能够直接用到3D点云当中，因为点云数据潜在的不规则性。作为一项开创性的工作，PointNet [5]通过几个MLP层学习逐点特征，并通过最大池化层提取全局形状特征。使用几个MLP层获得分类分数。 Deep sets[53]通过加和所有表达并使用非线性转换来实现置换不变性。由于在PointNet[5]中每个点的学习是独立的，因而点间的局部结构信息是不能被捕获的。因此，Qi等人[54]提出了层级架构网络PointNet++通过每个点的邻居来捕获好的几何结构。作为PointNet ++层次结构的核心，其集合抽象级别由三层组成：采样层，分组层和PointNet层。通过堆叠几个集合抽象级别，PointNet ++可以从局部几何结构中学习特征，并逐层抽象局部特征。

由于其简单性和强大的表示能力，很多网络都是基于PointNet [5]来开发。
Mo-Net [55]的体系结构与PointNet [5]相似，但是它需要一组有限的矩作为其网络的输入。在点注意力变换（PAT）[56]中，每个点都由其自身的绝对位置和相对于其邻居的相对位置表示。然后，使用组混洗注意力（GSA）来捕获点之间的关系，并开发了排列不变，可区分且可训练的端到端Gumbel子集采样（GSS）层来学习分层特征。 PointWeb [57]也是基于PointNet ++[54]构建的，它使用局部邻域的上下文来使用自适应特征调整（AFA）来改进点特征。Duan等 [58]提出了一种结构关系网络（SRN）来学习使用MLP的不同局部结构之间的结构关系特征。 Lin等[59]通过为PointNet所学习的输入和函数空间构造查找表来加速推理过程。在中等机器上，与PointNet相比，ModelNet和ShapeNet数据集上的推理时间缩短了1.5毫秒，达到32倍。 SRINet [60]首先投影一个点云以获得旋转不变表示，然后利用基于PointNet的主干来提取全局特征，并利用基于图的聚合来提取局部特征。在PointASNL当中，Yan等人[61]使用了自适应采样（AS）模块来自适应坐标和使用最远点采样（FPS）获取特征点，并提出了一个局部-非局部（L-NL）模块来获取这些采样点的局部和长区间的独立性。

3.3.2基于卷积的网络

与在2D网格结构（例如图像）上定义的内核相比，由于点云的不规则性，难以为3D点云设计卷积内核。根据卷积内核的类型，当前的3D卷积网络可以分为连续卷积网络和离散卷积网络，如图4所示。

图4：一个点的局部邻居的连续和离散卷积的图示。（a）代表局部近邻区；（b）和（c）分别代表3D连续和离散卷积。

3D连续卷积网络。这些方法在连续空间上定义卷积核，其中相邻点的权重与相对于中心点的空间分布有关。

3D卷积可以解释为给定子集的加权和。RS-Conv作为RS-CNN[62]的核心层，以某一点周围的局部子集作为输入，通过学习局部子集中的低层关系（如欧几里德距离和相对位置）到高层关系的映射，利用MLP实现卷积。在[63]中，内核元素是在单位球体内随机选择的。然后使用基于MLP的连续函数在内核元素的位置和点云之间建立关系。在DensePoint [64]中，卷积定义为具有非线性激活器的单层感知器（SLP）。通过串联所有先前层的特征以充分利用上下文信息来学习特征。Thomas等人[65]使用一组可学习的核点，为3D点云提出了刚性和可变形核点卷积（KPConv）运算符。ConvPoint[66]将卷积核分为空间和特征部分。从单位球体中随机选择空间部分的位置，并通过简单的MLP学习加权函数。

一些方法还使用现有算法来执行卷积。在PointConv [67]中，卷积定义为相对于重要性采样的连续3D卷积的蒙特卡洛估计。卷积核由加权函数（通过MLP层学习）和密度函数（通过核化密度估计和MLP层学习）组成。为了提高内存和计算效率，将3D卷积进一步简化为两个运算：矩阵乘法和2D卷积。使用相同的参数设置，其内存消耗可减少约64倍。在MCCNN [68]中，卷积被视为依赖样本密度函数（由MLP实现）的蒙特卡洛估计过程。然后使用泊松磁盘采样来构建点云层次结构。该卷积算子可用于在两种或多种采样方法之间执行卷积，并可处理变化的采样密度。在SpiderCNN [69]中，提出了SpiderConv来定义卷积，将卷积定义为在k个最近邻居上定义的阶跃函数和泰勒展开式的乘积。阶梯函数通过对局部测地距离进行编码来捕获粗略的几何形状，泰勒展开通过在立方体的顶点处插值任意值来捕获固有的局部几何变化。此外，还基于径向基函数为3D点云提出了卷积网络PCNN [70]。

已经提出了几种方法来解决3D卷积网络面临的旋转等变问题。 Esteves等人[71]提出了一种以多值球面函数为输入的三维球面卷积神经网络（spheral CNN）来学习三维形状的旋转等变表示。通过在球形谐波域中使用锚点对频谱进行参数化来获得局部卷积滤波器。张量场网络[72]将点卷积运算定义为可学习的径向函数和球谐函数的乘积，球谐函数局部等价于点的三维旋转、平移和置换。[73]中的卷积是基于球面互相关定义的，并使用广义快速傅里叶变换（FFT）算法实现。基于PCNN，SPHNet [74]通过在体积函数的卷积过程中合并球谐函数内核来实现旋转不变性。

为了加快计算速度，Flex-Convolution [75]将卷积核的权重定义为k个最近邻居上的标准标量积，可以使用CUDA对其进行加速。实验结果证明了它在具有较少参数和较低内存消耗的小型数据集上的竞争性能。

3D离散卷积网络。这些方法在常规网格上定义卷积核，其中相邻点的权重与相对于中心点的偏移量有关。

Hua等人[49]将非均匀的3D点云转换为均匀的网格，并在每个网格上定义了卷积核。与2D卷积不同（向每个像素分配权重），提出的3D内核将相同的权重分配给落入同一网格的所有点。对于给定点，从上一层计算位于同一网格上的所有相邻点的平均特征。然后，对所有网格的平均特征进行加权和求和，以生成当前图层的输出。 Lei等[77]通过将3D球形邻近区域划分为多个体积区域并将每个区域与可学习的加权矩阵相关联来定义球形卷积核。一个点的球形卷积核的输出由其相邻点的加权激活值平均值的非线性激活确定。在GeoConv [78]中，一个点及其相邻点之间的几何关系是基于六个基础显式建模的。沿基础每个方向的边缘特征根据相邻点的基础由可学习的矩阵独立加权。然后根据给定点及其相邻点形成的角度聚合这些与方向相关的特征。对于给定点，其当前层的特征定义为给定点的特征及其在上一层的相邻边缘特征的总和。

PointCNN [79]通过χ-conv转换（通过MLP实现）实现了置换不变性。通过将点特征插值到相邻的离散卷积核量坐标，Mao等人[80]提出了一个插值卷积算子InterpConv来测量输入点云和核重量坐标之间的几何关系。张等[81]提出了一个RIConv算子来实现旋转不变性，它以低层旋转不变几何特征作为输入，然后通过一种简单的分区方法将卷积变成一维。A-CNN [82]通过围绕查询点每个环上的核大小围绕邻居数组循环定义环形卷积。A-CNN学习局部子集中的相邻点之间的关系。

为了减少3D CNN的计算和存储成本，Kumawat等人[83]提出了一种基于3D短期傅里叶变换（STFT）的3D局部邻域中的相位提取整流局部相体积（ReLPV）块，STFT显着减少了参数数量。在SFCNN [84]中，将点云投影到具有对齐球坐标的规则二十面体网格上。然后，通过卷积-最大池-卷积结构对从球形晶格的顶点及其相邻像素连接的特征进行卷积。 SFCNN抵抗旋转和扰动。

3.3.3基于图的网络

基于图的网络将点云中的每个点视为图的顶点，并基于每个点的邻居为图生成有向边。然后在空间或频谱域中进行特征学习[85]。一个典型的基于图的网络如图5所示。

图5：基于图的网络的图示。

空间域中基于图的方法。这些方法在空间域中定义操作（例如，卷积和池化）。具体来说，卷积通常是通过空间邻域上的MLP来实现的，而池化则是通过聚合每个点邻域的信息来产生一个新的粗化图。通常为每个顶点的特征分配坐标，激光强度或颜色，而通常为每个边缘的特征分配两个连接点之间的几何属性。

作为开创性的工作，Simonovsky等人[85]将每个点视为图的顶点，并通过有向边将每个顶点连接到其所有邻居。然后，使用滤波器生成网络（例如，MLP）提出了边缘条件卷积（ECC）。采用最大池化来聚集邻域信息，并基于VoxelGrid [86]算法实现图粗化。对于形状分类，卷积核池化时交错的。然后，根据全局平均池化和全连接层产生分类分数。在DGCNN[87]中，在特征空间中构造一个图，并在网络的每一层之后动态更新。作为EdgeConv的核心层，采用MLP作为每个边缘的特征学习函数，并对与每个点邻域相关的边缘特征进行信道对称聚集。此外，LDGCNN[88]移除了变换网络，并将DGCNN[87]中不同层的分层特征连接起来，以提高其性能并减小模式大小。本文还提出了一种端到端无监督的深度自编码网络（FoldingNet[89]），它使用矢量化的局部协方差矩阵和点坐标的级联作为输入。Hassani等人受Inception [90]和DGCNN [87]的启发，Hassani 和 Haley[91]提出了一种无监督的多任务自动编码器来学习点和形状特征。编码器是基于多尺度图构造的。解码器是使用三个非监督任务构造的，包括聚类，自我监督分类和重构，这些任务与多任务损失一起训练。刘等[92]提出了一种基于图卷积的动态点集聚模块（DPAM），以将点集聚（采样，分组和池化）的过程简化为一个简单的步骤，该步骤通过将集聚矩阵与点特征矩阵相乘来实现。基于PointNet架构，通过堆叠多个DPAM来构建分层学习架构。与PointNet ++[54]的层次结构策略相比，DPAM在语义空间中动态挖掘点与聚集点之间的关系。

为了利用局部几何结构，KCNet [93]学习基于核相关的特征。具体而言，将表征局部结构的几何类型的一组可学习点定义为内核。然后，计算内核与给定点邻域之间的亲和力。在G3D [94]中，卷积定义为邻接矩阵多项式的变体，池化定义为将Laplacian矩阵和顶点矩阵乘以一个粗化矩阵。 ClusterNet [95]利用严格旋转不变（RRI）模块提取每个点的旋转不变特征，并基于具有监督联系标准的无监督聚集层次聚类方法构建点云的层次结构[96]。首先通过EdgeConv块学习每个子集群中的特征，然后通过最大池化聚合。

为了解决当前数据结构耗时问题（例如FPS和临近点排序），Xu等人[97]提出混合体素的优点和基于点的方式来提升计算有效性。在ModelNet分类任务上的结果也验证了所提出的Grid-GCN网络较为其他方法平均来看要快5倍的有效性。

频谱域中基于图的方法。 这些方法将卷积定义为频谱滤波，这是通过将图上的信号与图拉普拉斯矩阵的特征向量相乘来实现的[98]、[99]。

RGCNN [100]通过将每个点与点云中的所有其他点连接来构造图，并更新每一层中的图拉普拉斯矩阵。为了使相邻顶点的特征更相似，在损失函数中添加了先验图信号平滑度。为了解决由多样的数据图拓扑引起的挑战，AGCN [101]中的SGC-LL层利用可学习的距离度量来参数化图上两个顶点之间的相似度。从图获得的邻接矩阵使用高斯核和学习距离进行归一化。HGNN[74]提出了一个超图神经网络（HGNN），并通过在超图上应用谱卷积来建立一个超边缘卷积层。

前述方法在全图上运行。为了利用局部的结构信息，王等[103]提出了一个端到端的频谱卷积网络LocalSpecGCN来处理局部图（它是由k个最近的邻居构造而成的）。此方法不需要对图拉普拉斯矩阵和图粗化层次进行任何离线计算。在PointGCN [104]中，基于来自点云的k个最近邻居构建图，并使用高斯核对每个边进行加权。卷积滤波器在图谱域中定义为Chebyshev多项式。全局池化和多分辨率池化用于捕获点云的全局和局部特征。 Pan等[105]通过在谱域中的k个最近邻图上应用卷积来提出3DTINet。通过从相对的欧几里得距离和方向距离中学习，可以实现几何变换的不变性。

3.3.4基于数据索引的方法

这些网络是根据不同的数据索引结构（例如octree和kd-tree）构建的。在这些方法中，点特征是沿着树从叶节点到根节点分层学习的。

Lei等[77]提出了一种使用球面卷积核的八叉树引导的CNN。网络的每一层都对应于八叉树的一层，并且在每一层都应用了球形卷积核。当前层中神经元的值确定为上一层中所有相关子节点的平均值。与基于octree的OctNet [49]不同，Kd-Net [106]是使用多个K-d树构建的，每个树在每次迭代时具有不同的分割方向。按照自下而上的方法，使用MLP根据非子节点的子代表示来计算非子节点的表示。根节点的特征（描述整个点云）最终被馈送到全连接层以预测分类得分。注意，Kd-Net根据节点的拆分类型在每个级别共享参数。3DContextNet [107]使用标准的平衡K-d树来实现特征学习和聚合。在每个级别上，首先通过MLP基于局部提示（该局部提示对局部区域中的点之间的相互依赖性进行建模）和全局上下文提示（其针对一个位置相对于所有其他位置的关系进行建模）来学习点特征。然后，使用MLP从非子节点的子节点计算其特征，并通过最大池化对其进行聚合。对于分类，重复上述过程直到获得根节点。

SO-Net网络的层次结构是通过执行点到节点k最近邻居搜索来构建的[108]。具体而言，修改后的置换不变自组织图（SOM）用于对点云的空间分布进行建模。通过一系列全连接层，从归一化的点到节点坐标中学习单个点的特征。 SOM中每个节点的特征是使用通道的最大池化从与此节点关联的点特征中提取的。然后使用类似于PointNet [5]的方法从节点特征中学习最终特征。与PointNet ++ [5]相比，SOM的层次结构效率更高，并且可以充分利用点云的空间分布。

3.3.5其他方法

除上述方法外，还提出了许多其他方案。RBFNet [113]通过聚集来自稀疏分布的径向基函数（RBF）内核的特征来显式地建模点的空间分布。

3DPointCapsNet[112]通过将逐点MLP应用于点云以提取点独立特征，然后通过串联多个最大池学习特征图来提取全局潜在表示。基于无监督的动态路径，可以学习强大的代表性潜在胶囊。Qin等人[116]提出了一种基于端到端的非监督域自适应网络PointDAN来表示3D点云。为了捕获点云的语义属性，提出了自监督的方法来重构点云，该方法对点云的部分进行了随机重排[117]。

Li等人[118]提出了自动增强框架，PointAugment，为网络训练进行自动优化和增强点云样本。特别地，对于每个输入样本的基于形状的转换和点的替代是自动学习的，网络通过有选择性的优化和更新增强器和分类器的可学习的参数来学习。受到形状上下文[119]中得到启发，Xie等人[109]提出了ShapeContextNet框架，该方法通过将亲和点选择（affinity point selection）和紧凑的特征聚合结合在一起，并使用点积自关注[120]进行软对齐操作。

为了解决3D点云中的噪声和遮挡问题，Bobkov等人[121]将基于手工制作的点对函数的4D旋转不变描述符输入4D卷积神经网络。 Prokudin等[122]首先从单位球中随机采样具有均匀分布的基点集，然后将点云编码为到基点集的最小距离，这将点云转换为固定长度相对较小的向量。然后可以使用现有的机器学习方法来处理编码的表示。

RCNet [115]利用标准的RNN和2D CNN构造用于3D点云处理的置换不变网络。首先将点云划分为平行波束，并沿特定维度分类，然后将每个波束馈入共享的RNN。所学习的特征被进一步馈送到有效的2D CNN中以进行分层特征聚合。为了增强其描述能力，RCNet-E沿不同分区和排序方向集成多个RCNet Point2Sequences [114]是另一个基于RNN的模型，可捕获点云局部区域中不同区域之间的相关性。它将从多个区域的局部区域中学习的特征视为序列，并将来自所有局部区域的这些序列馈送到基于RNN的编码器-解码器结构中，以聚合局部区域特征。

还提出了几种方法来从3D点云和2D图像中学习。在PVNet [110]中，从多视图图像中提取的高级全局特征通过嵌入网络投影到点云的子空间中，并通过软关注掩模与点云特征融合。最后，对融合特征和多视图特征采用残差连接以执行形状识别。后来，进一步提出了PVRNet [111]，以利用3D点云及其多个视图之间的关系，这些关系是通过关系评分模块学习的。基于关系得分，原始的2D全局视图特征得到了增强，可用于点单视图融合和点多视图融合。

3.4小结

ModelNet10 / 40数据集[]6是最常用的形状分类数据集。表2显示了通过不同的基于点的网络获得的结果。可以得出以下几点结论：

逐点MLP网络通常用作其他类型的网络的基本构建块，以学习逐点特征。
作为标准的深度学习架构，基于卷积的网络可以在不规则的3D点云上实现出色的性能。对于不规则数据，应该更加注意离散卷积网络和连续卷积网络。
由于其固有的强大能力来处理不规则数据，基于图形的网络近年来引起了越来越多的关注。但是，将频谱域中的基于图的网络扩展到各种图结构仍然具有挑战性。

表2：在ModelNet10/40基准上比较三维形状分类结果。这里，我们只关注基于点的网络，“#params”表示相应模型的参数数量。“OA”表示总体精度，“mAcc”表示表中的平均精度。符号“-”表示结果不可用。

4 3D物体检测与跟踪

在这个章节，我们会回顾现有3D目标检测、3D目标追踪和3D场景流估计。

4.1 3D物体检测

一个典型的3D目标检测是将一个场景的点云作为输入，然后在需要识别的目标周围生成有向的3D边框，如图6所示。与普通2D中的目标检测方法类似[123]，3D中的目标检测方法也可分为两类：基于候选区域的方法和直接映射的方法。一些里程碑式工作如图7所示。

4.1.1 基于候选区域的方法

这些方法首先产生一些可能包含物体的区域（Proposals），接着对各个区域提取特征，来决定各个候选区域的物体类别。根据不同的产生候选区域的方法，这些方法可进一步分为三类：基于多视角的方法；基于分割的方法以及基于锥体的方法。

多视图方法。这些方法融合了来自不同视图的建议性特征（例如，LiDAR前视图，鸟瞰图（BEV）和图像）以获得3D旋转框，如图8（a）所示。这些方法的计算成本通常很高。

图8：三类3D对象检测方法的典型网络。从上到下：（a）基于多视图的（b）基于分割的方法和（c）基于视锥的方法。

Chen等人[4]从BEV地图中生成了一组高度精确的3D候选框，并将其投影到多个视图的特征图（例如LiDAR前视图图像，RGB图像）。然后，他们将这些从不同视图获得的区域特征进行组合，以预测定向的3D边界框，如图8（a）所示。尽管此方法在只有300个提议的情况下以0.25的交叉路口（IoU）召回率达到99.1％，但对于实际应用而言，它的速度仍然太慢。随后，从两个方面开发了几种方法来改进多视图3D对象检测方法。

首先，已经提出了几种方法来有效地融合不同模态的信息。为了生成对小物体具有较高召回率的3D建议，Ku等人[126]提出了一种基于多模式融合的区域提议网络。他们首先使用裁剪和调整大小操作从BEV和图像视图中提取大小相等的特征，然后使用逐元素均值合并融合这些特征。Liang等[127]利用连续卷积来实现图像和3D LiDAR特征图在不同分辨率下的有效融合。具体来说，他们为BEV空间中的每个点提取了最接近的对应图像特征，然后使用双线性插值法将图像特征投影到BEV平面中以获得密集的BEV特征图。实验结果表明，密集的BEV特征图比离散图像特征图和稀疏LiDAR特征图更适合3D对象检测。Liang等[128]提出了一种用于端到端训练的多任务多传感器3D对象检测网络。具体而言，可以利用多种任务（例如2D目标检测，地面估计和深度补全）来帮助网络学习更好的特征表示。进一步利用学习到的跨模态表示来产生高度准确的对象检测结果。实验结果表明，该方法在2D，3D和BEV检测任务上取得了显着改进，并且优于TOR4D基准[129]，[130]上的最新技术。

其次，已经研究了不同的方法来提取输入数据的鲁棒表示。 Lu等[39]通过引入空间通道注意力（SCA）模块探索了多尺度上下文信息，该模块捕获了场景的全局和多尺度上下文并突出了有用的特征。他们还提出了扩展空间非采样（ESU）模块，通过组合多尺度低层特征来获得具有丰富空间信息的高层特征，从而生成可靠的3D对象建议。尽管可以实现更好的检测性能，但是上述多视图方法需要较长的运行时间，因为它们为每个建议执行特征池化。随后，Zeng等人[131]使用pre-RoI池化卷积来提高[4]的效率。具体来说，他们将大多数卷积运算移到了RoI池化模块的前面。因此，RoI卷积对于所有对象建议都执行一次。实验结果表明，该方法可以11.1 fps的速度运行，是MV3D的5倍[4]。

基于分割的方法。这些方法首先利用现有的语义分割技术来去除大多数背景点，然后在前景点上生成大量高质量的建议以节省计算量，如图8（b）所示。与多视图方法[4]，[126]，[131]相比，这些方法实现了更高的对象召回率，并且更适合于对象被高度遮挡和拥挤的复杂场景。

杨等人[132]使用2D分割网络来预测前景像素，并将其投影到点云中以去除大多数背景点。然后，他们在预测的前景点上生成提案，并设计了一个名为PointsIoU的新标准，以减少提案的冗余性和歧义性。继[132]之后，Shi等人[133]提出了一个PointRCNN框架。具体来说，他们直接分割3D点云以获得前景点，然后融合语义特征和局部空间特征以生成高质量3D框。继[133]的RPN阶段之后，Jesus等人[134]提出了一项开拓性的工作，以利用图卷积网络（GCN）进行3D对象检测。具体来说，引入了两个模块以使用图卷积来完善对象建议。第一个模块R-GCN利用提案中包含的所有点来实现按提案的特征聚合。第二个模块C-GCN将所有提案中的每帧信息融合在一起，以通过利用上下文来回归准确的对象框。 Sourabh等[135]将点云投影到基于图像的分割网络的输出中，并将语义预测分数附加到这些点上。将绘制的点馈送到现有的检测器[133]，[136]，[137]中，以实现显着的性能改进。杨等[138]将每个点与球形锚点关联。然后，使用每个点的语义评分来删除多余的锚点。因此，与先前的方法[132]，[133]相比，该方法以较低的计算成本实现了更高的召回率。另外，提出了一个PointsPool层来学习提议中内部点的紧凑特征，并引入了一个并行的IoU分支来提高定位精度和检测性能。

基于视锥的方法（Frustum）。这些方法首先利用现有的2D对象检测器生成对象的2D候选区域，然后为每个2D候选区域提取3D视锥提案，如图8（c）所示。尽管这些方法可以有效地建议3D对象的可能位置，但分步流水操作使其性能受到2D图像检测器的限制。

F-PointNets[139]是这个方向的开拓性工作。它为每个2D区域生成一个视锥提案，并应用PointNet [5]（或PointNet ++ [54]）来学习每个3D视锥的点云特征，以进行模态3D框估计。在后续工作中，Zhao等人[140]提出了一种Point-SENet模块来预测一组比例因子，这些比例因子还用于自适应地突出显示有用的特征并抑制信息量少的特征。他们还将PointSIFT [141]模块集成到网络中以捕获点云的方向信息，从而获得了强大的形状缩放鲁棒性。与F-PointNets [139]相比，该方法在室内和室外数据集[14] [25]上均取得了显着改善。

Xu等[142]利用2D图像区域及其对应的平截头体点来精确地回归3D框。为了融合点云的图像特征和全局特征，他们提出了用于框角位置直接回归的全局融合网络。他们还提出了一个密集的融合网络，用于预测每个角的逐点偏移。 Shin等[143]首先从2D图像中估计对象的2D边界框和3D姿势，然后提取多个在几何上可行的对象候选对象。这些3D候选对象被输入到框回归网络中，以预测准确的3D对象框。 Wang等[144]沿着截头圆锥体轴为每个2D区域生成了一系列截头圆锥体，并应用PointNet [5]为每个截头圆锥体提取特征。对视锥级别的特征进行了重新生成以生成2D特征图，然后将其输入到完全卷积的网络中以进行3D框估计。该方法在基于2D图像的方法中达到了最先进的性能，并在官方KITTI排行榜中排名第一。 Johannes等[145]首先在BEV图上获得了初步的检测结果，然后根据BEV预测提取了小点子集（也称为图块）。应用局部优化网络来学习图块的局部特征，以预测高度精确的3D边界框。

其他方法。得益于轴对齐IoU在图像目标检测中的成功，Zhou等人[146]将两个3D旋转边界框的IoU集成到几个最先进的检测器[133]，[137]，[158]中，以实现一致的性能改进。 Chen等[147]提出了一个两阶段的网络架构，以同时使用点云和体素表示。首先，将点云体素化并馈入3D骨干网络以产生初始检测结果。第二，进一步利用初始预测的内点特征来进行box优化。尽管此设计从概念上讲很简单，但在保持16.7 fps速度的同时，可达到与PointRCNN [133]相当的性能。Shi等人提出了PointVoxel-RCNN(PV-RCNN)来减小3D卷积网络和PointNet的抽象集来学习点云特征。特别地，输入点云首先经过体素化，然后输入到3D离散卷积网络当中来生成高质量提取框。学习到的基于体素的特征通过体素集抽象表达模块编码成几个关键点的集合。另外，他们也提出来一个关键点到网格的ROI出现模块来捕获丰富的上下文信息用来提取框增强。实验结果表明，该方法在3D KITTI数据集的困难集检测（汽车类）上明显优于其他方法。

受基于Hough投票的2D对象检测器的启发，Qi等[124]提出了VoteNet直接对点云中对象的虚拟中心点进行投票的方法，并通过汇总投票特征来生成一组高质量的3D对象建议。 VoteNet仅使用几何信息就大大优于以前的方法，并在两个大型室内基准（即ScanNet [11]和SUN RGB-D [25]）上实现了最先进的性能。但是，对于部分遮挡的对象，虚拟中心点的预测是不稳定的。此外，Feng等[149]添加了方向矢量的辅助分支，以提高虚拟中心点和3D候选框的预测精度。此外，构建提案之间的3D对象-对象关系图以强调用于精确对象检测的有用特征。
Qi等人[150]通过融合2D目标检测信息（例如集合和语义/纹理等）到3D投票流程中，提出来一个ImVoteNet描述子。观察到3D目标真实边框提供了准确的类内部分，Shi等人[151]的发现启发了3D对象的地面真相框提供对象内部零件的准确位置。 [165]提出了Part A2网络，它由部分感知阶段和部分聚集阶段组成。零件感知阶段使用具有稀疏卷积和稀疏反卷积的类UNet网络来学习点状特征，以预测和粗略生成对象内零件位置。零件汇总阶段采用RoI感知池来汇总预测零件的位置，以进行box评分和位置优化。

4.1.2 single-shot方法

这些方法使用单阶段网络直接预测类概率并回归对象的3D边界框。这些方法不需要区域提议的生成和后处理。结果，它们可以高速运行，非常适合实时应用。根据输入数据的类型，单次拍摄方法可分为两类：基于BEV的方法和基于点云的方法。

基于BEV的方法。这些方法主要以BEV表示为输入。Ynag等[129]离散化了具有等距像元的场景的点云，并以类似的方式对反射率进行编码，从而得到规则的表示。然后，使用完全卷积网络（FCN）来估计对象的位置和航向角。这种方法在以28.6 fps的速度运行时，胜过大多数single-shot方法（包括VeloFCN [154]，3D-FCN [155]和Vote3Deep [156]）。后来，杨等人[128]利用高清（HD）映射提供的几何和语义先验信息来提高[129]的鲁棒性和检测性能。具体来说，他们从HD地图中获取了地面点的坐标，然后用相对于地面的距离替换了BEV表示中的绝对距离，以弥补由道路坡度引起的平移差异。此外，他们沿通道维度将二进制路面掩模与BEV表示连接起来，以专注于移动物体。由于高清地图并非随处可用，因此他们还提出了在线地图预测模块，以从单个LiDAR点云中估计地图先验。该地图感知方法在TOR4D [129]，[130]和KITTI [14]数据集上明显优于其基线。但是，其针对不同密度的点云的泛化性能很差。为了解决这个问题，Beltran等人[153]提出了一个归一化图来考虑不同LiDAR传感器之间的差异。归一化图是具有与BEV图相同的分辨率的2D网格，它对每个单元中包含的最大点数进行编码。结果表明，该归一化图显着提高了基于BEV的检测器的归纳能力。

基于离散化的方法。这些方法将点云转换到规格离散表达，然后使用CNN来预测类别和物体的3D边框。

Li等[154]提出了使用FCN进行3D对象检测的第一种方法。他们将点云转换为2D点图，并使用2D FCN预测对象的边界框和置信度。后来，他们[155]将点云离散为具有长度，宽度，高度和通道尺寸的4D张量，并将基于2D FCN的检测技术扩展到3D域以进行3D对象检测。与[154]相比，基于3D FCN的方法[155]获得的准确度超过20％以上，但是由于3D卷积和数据稀疏性，不可避免地要花费更多的计算资源。为了解决体素的稀疏性问题，Engelcke等人[156]利用以特征为中心的投票方案为每个非空体素生成一组投票，并通过累积投票获得卷积结果。它的计算复杂度方法与所占用体素的数量成正比。 Li等[157]通过堆叠多个稀疏3D CNN构造了3D骨干网络。此方法旨在通过充分利用体素的稀疏性来节省内存并加速计算。这个3D骨干网络提取了丰富的3D特征用于对象检测，而不会带来繁重的计算负担。

Zhou等[136]提出了一种基于体素的端到端可训练框架VoxelNet。他们将点云划分为等距的体素，并将每个体素中的要素编码为4D张量。然后连接区域提议网络以产生检测结果。尽管其性能强，但由于体素稀疏和3D卷积，该方法非常慢。后来，Yan等[158]使用稀疏卷积网络[166]来提高[136]的推理效率。他们还提出了正弦误差角损失，以解决0和π方向之间的歧义。 Sindagi等[159]通过在早期融合图像和点云特征来扩展VoxelNet。具体来说，他们将[136]生成的非空体素投影到图像中，并使用预训练网络为每个投影体素提取图像特征。然后将这些图像特征与体素特征连接在一起，以生成准确的3D框。与[136]，[158]相比，该方法可以有效地利用多模式信息来减少误报。 Lang等[137]提出了一种名为PointPillars的3D对象检测器。这种方法利用PointNet [5]来学习垂直列（柱）中组织的点云的特征，并将学习到的特征编码为伪图像。然后将2D对象检测管线应用于预测3D边界框。就平均精度（AP）而言，PointPillars优于大多数融合方法（包括MV3D [4]，RoarNet [143]和AVOD [126]）。而且，PointPillars在3D和BEV KITTI [14]基准上均可以62 fps的速度运行，使其非常适合实际应用。

基于点云的方法。这些方法将原始点云作为输入。3DSSD[161]是这个方向的先驱工作。提出了一种融合采样策略，包括距离-FPS(D-FPS)与特征-FPS(F-FPS)来替代耗时的特征扩展（FP）层和[133]中的增强模块。接着，一个候选生成（CG）层用来利用代表性的点，同3D无中心标签一起送入无锚点的回归当中用来预测3D目标框。实验结果显示3DSSD比2阶段基于点的方法PointRCNN[133]要好，且保证了25fps的速度。

其他方法。 Meyer等[162]提出了一种称为LaserNet的高效3D对象检测器。该方法预测每个点在边界框上的概率分布，然后组合这些每点分布以生成最终的3D对象框。此外，将点云的密集范围视图（RV）表示用作输入，并提出了一种快速均值漂移算法来减少按点预测所产生的噪声。 LaserNet在0至50米的范围内实现了最先进的性能，其运行时间大大低于现有方法。 Meyer等[163]然后扩展LaserNet[162]以利用RGB图像（例如50至70米）提供的密集纹理。具体来说，他们通过将3D点云投影到2D图像上来将LiDAR点与图像像素相关联，并利用这种关联将RGB信息融合到3D点中。他们还认为3D语义分割是学习更好的表示形式的辅助任务。该方法在远程（例如50至70米）目标检测和语义分割方面均实现了显着改进，同时保持了LaserNet的高效率[162]。

4.2 3D对象跟踪

给定对象在第一帧中的位置，对象跟踪的任务是估计其在后续帧中的状态[167]，[168]。由于3D对象跟踪可以使用点云中的丰富几何信息，因此有望克服基于2D图像的跟踪所面临的一些缺点，包括遮挡，照明和比例变化。

受到基于图像的对象跟踪的孪生网络[169]的启发，Giancola等人[170]提出了一种具有形状补全规则化的3D孪生网络。具体来说，他们首先使用卡尔曼滤波器生成候选，然后使用形状正则化将模型和候选编码为紧凑的表示形式。余弦相似度然后用于在下一帧中搜索被跟踪对象的位置。这种方法可以用作对象跟踪的替代方法，并且明显优于大多数2D对象跟踪方法，包括Staple CA [171]和SiamFC [169]。为了有效地搜索目标物体，Zarzar等人[172]利用2D孪生网络在BEV表示上生成大量的粗略候选对象。然后，他们通过利用3D孪生网络中的余弦相似度来优化候选。这种方法在精度（即18％）和成功率（即12％）方面均明显优于[170]。Simon等人[173]提出了一种语义点云的3D对象检测和跟踪架构。他们首先通过融合2D视觉语义信息生成体素化的语义点云，然后利用时间信息来提高多目标跟踪的准确性和鲁棒性。此外，他们引入了功能强大且简化的评估指标（即“标度-旋转-翻译分数（SRF）”），以加快训练和推理速度。他们提出的Complexer-YOLO提出了有希望的跟踪性能，并且仍然可以实时运行。另外，Qi等人[174]提出了Point-to-Vox(P2B)网络。输入模板和所搜区域到基准线来获得他们的种子。搜索区域种子是被特定目标所增强的数据，潜在目标中心通过霍夫投票来回归得到。实验表明，P2B要比[170]好超过10%，速率为40fps。

4.3 3D场景流估计

给定两个点云X和Y，3D场景流 $D=\{di\}^N$ 描述X中每个点 $x_i$ 的动能，相比于其对应在Y中的位置 $x_i'$ ，也即 $x_i' = x_i +d_i$ 。图9显示了两个KITTI点云的3D场景流。与2D视觉中的光流估计类似，几种方法已经开始从一系列点云中学习有用的信息（例如3D场景流，时空信息）。

Liu等[175]提出了FlowNet3D，以直接从一对连续的点云中学习场景流。 FlowNet3D通过流嵌入层学习点级特征和运动特征。但是，FlowNet3D存在两个问题。首先，一些预测的运动矢量在方向上与真实情况大不相同。其次，很难将FlowNet应用于非静态场景，尤其是对于以可变形对象为主的场景。为了解决这个问题，Wang等人[176]引入了余弦距离损失，以最小化预测值与真实值之间的夹角。此外，他们还提出了点到平面的距离损失，以提高刚性和动态场景的精度。实验结果表明，这两个损失项将FlowNet3D的准确性从57.85％提高到63.43％，并加快并稳定了训练过程。 Gu等[177]提出了一种分层多面体格流网（HPLFlowNet）来直接估计来自大规模点云的场景流。提出了几个双边卷积层以从原始点云恢复结构信息，同时降低了计算成本。

为了有效地处理顺序点云，Fan和Yang [178]提出了PointRNN，PointGRU和PointLSTM网络以及一个序列到序列模型来跟踪运动点。 PointRNN，PointGRU和PointLSTM能够捕获时空信息并为动态点云建模。同样，Liu等[179]提出MeteorNet直接从动态点云中学习表示。该方法学习从时空相邻点聚合信息。进一步引入直接分组和链流分组来确定时间邻居。但是，上述方法的性能受到数据集规模的限制。Mittal等[180]提出了两个自监督的损失来训练他们的网络上的大型未标记数据集。他们的主要思想是，鲁棒的场景流估计方法在前向和后向预测中均应有效。由于场景流注释不可用，因此预测的变换点的最近邻居被视为伪真实值。但是，真实的真实值可能与最近的点不同。为避免此问题，他们计算了反向的场景流，并提出了循环一致性损失，以将点转换为原始位置。实验结果表明，这种自我监督方法超越了基于监督学习的方法的最新性能。

4.4 小结：

KITTI[14] 基准是自动驾驶中最具影响力的数据集之一，已在学术界和工业界普遍使用。表2和表3分别显示了在KITTI 3D和BEV基准测试中，不同检测器所获得的结果。可以观察到以下几点：

基于区域提议的方法是这两种方法中研究最频繁的方法，并且在KITTI 3D测试和BEV基准测试中都大大优于单发方法。
现有的3D对象检测器有两个限制。首先，现有方法的远程检测能力相对较差。其次，如何充分利用图像中的纹理信息仍然是一个未解决的问题。
多任务学习是3D对象检测的未来方向。例如，MMF [128]学习了一种跨模态表示，通过合并多个任务来实现最新的检测性能。
3D对象跟踪和场景流估计是新兴的研究主题，自2019年以来逐渐吸引了越来越多的关注。

5 3D点云分割

3D点云分割要求了解全局的几何结构以及各个点的细粒度的细节。根据分割的细粒度，3D 点云分割方法可分为以下三类：语义分割（场景级）、实例分割（物体级）和部件分割（part level）。

5.1 3D 语义分割

给定一个点云，语义分割的目标是，根据语义信息，将各个点分成一定的子集。与3D形状分类的分类类似（第三章节），语义分割可分为两种方法：基于投影的方法、基于离散化方法、基于点的方法和混合方法。

基于投影和基于离散化的方法第一步是将点云转变为中间规则表达，可被分成以下几种：多视角表示[181], [182]、球状表示[183], [184], [185]、体素表示[166], [186], [187]、超多面体晶格表示[188], [189]以及混合表示[190], [191]。具体可见图11。中间投影结果接着被映射回原始点云。作为对比，基于点的方法直接在非规则点云上运作。一些代表性的方法见图10。

5.1.1 基于投影的方法

这些方法通常投影一个3D点云到2D图像当中，包括多视图和谱图。

多视角表示。Lawin等人[181]首先将3D点云从多个虚拟的相机视角投影至2D平面上，接着，使用多流的FCN在人造的图像上预测各个像素的得分。最终各个点的语义标签为不同视角上得分的融合。相似地，Boulch等人[182]首先利用多组相机的位置，得到点云的一些RGB和深度图。接着使用2D的分割网络，在这些图片上得到各个像素的标注，这些从RGB和深度图上得到的得分用来融合（使用redisual correction[192]）。基于点云是从局部欧式曲面上采样得到的假设， [193]引入了切线卷积进行稠密的点云分割。该方法首先将各个点周围的局部曲面投影至虚拟的切平面。切线卷积在曲面上直接进行。总的来说，多视角分割方法的性能对视角的选择和遮挡非常敏感。同时，这类方法并未能完全利用潜在的几何和结构信息，因为投影操作不可避免地引入了信息损失。

球状表示。为了得到更快更准确的3D点云分割，Wu等人[183]提出了基于SqueezeNet和条件随机场的端到端的网络。为了进一步提升分割准确率，引入了SqueezeSegV2[184]利用无监督的domain adaptation解决domain shift。Milioto等人[185]提出了RangeNet++，针对LiDAR点云进行实时的语义分割。2D深度图的语义标签首先转移至3D点云上，接着使用基于KNN的后处理步骤来减轻离散化误差的问题。与单一的视角映射相比，球映射保持了更多的信息，并且更适合LiDAR点云。然而，这样的中间表示不可避免地引入了一些问题，比如离散化误差和遮挡问题。

5.1.2 基于离散的方法

这些方法通常将点云转为密集/稀疏的离散表达，例如体素化或稀疏的栅格。

密集离散化表达。先前的一些方法将点云体素化为稀疏的网格然后利用标准3D卷积。Huang等人[195]首先将点云分为一组占用体素，将这些中间结果放入全3D CNN中用于体素级分割。最终，在一个体素内的所有点标注为相同的语义标签。该方法的性能严重受限于因为点云的分割所产生体素的颗粒度和边界伪像。另外，Tchapmi等人[196]提出SEGCloud实现细颗粒且全局一致的语义分割。该方法介绍了一个三线性插值来将由3D-FCNN[197]生成的粗略体素预测映射回点云，接着使用全连接CRF(C-CRF)来增强这些推论点标签的空间一致性。Meng等人[186]引入了基于核的插值变异自编码器架构来编码每个体素的局部几何结构。替代一个二进制占用表达，每个体素使用RBFs来获取连续性表达，同时获取每个体素中点的分布。VAE用来将每个体素内的点分布映射到紧实隐空间。接着，对称群和等价CNN用来实现鲁棒的特征学习。

感谢3D CNN的可扩展性，基于体素的网络可轻松训练，然后在不同尺度下来测试。在全神经点网络（FCPN）[187]中，从点云中提取不同几何关联中的不同层，3D卷积和平均权值池化被用来提取特征和结合长区间独立性。该方法能够保留大尺度点云，同时又好的尺度适应性。Dai等人[198]提出了ScanComplete来实现3D扫描完整性和每像素的语义标注。该方法利用全卷积神经网络的尺度，在训练和测试中使用不同输入尺寸。一个由粗到细的策略用来提升预测结果的像素。

整体来看，基于体素的表达保留了3D点云领域结构。该规则化数据模式允许标准3D卷积的直接使用。这些因素促使了在该领域稳定性能的提升。然而，体素化步骤中会引入一些离散化伪像和信息损失。通常，高的像素导致高的内存和计算损失，低像素则引入了细节损失。现实中，选择合适分辨率的网格并不容易。

稀疏离散化表达。体素表达是稀疏的，非零数仅占很小一个百分比。因此，在空间稀疏的数据上应用密集卷积神经网络是无效率的。为了这个目的，Graham等人[166]提出了基于索引结构的子流形稀疏卷积网络。该方法通过严格限制卷积输出仅与占用体素相关来显著的降低了内存和计算量。同时，其稀疏卷积能够控制提取特征的稀疏性。该子流形稀疏卷积对于高维和稀疏空间数据处理是非常有效的。另外，Choy等人[199]为3D视频感知提出了名为MinkowskiNet的4D空间-时域卷积神经网络，其包括，一个通用化的稀疏卷积用来有效处理高维数据。一个三边固定的条件随机场被用来强化一致性。

另一方面，Su等人[188]提出了基于双边卷积层（BCLs）的稀疏的晶格网络（SPLATNet）。该方法首先将原始点云插入到有序离散晶格，在使用BCL对稀疏晶格里的占用部分使用卷积。得到的滤波后的结果随后插值回原始点云。另外，该方法允许灵活的多视角图像和点云的级联。另外，Rosu等人[189]提出了LatticeNet实现大规模点云的有效处理，其中数据独立的差值模块DeformSlice用来将晶格特征映射回点云。

5.1.3 混合方法

为了进一步利用所有可用信息，许多方法试图学习多模态特征。Dai等人[190]提出了级联3D多视角网络，来组合RGB和几何特征。一个3D CNN流和一些2D CNN流用来提取特征，另一个可微分的回馈映射层用来合并3D和2D特征。更进一步，Chiang等人[200]提出了统一的基于点的网络来学习2D纹理信息，3D结构和全局特征。该方法直接应用基于点的网络来提取局部几何特征和环境信息。Jartz等人[191]提出了多视角PointNet（MVPNet）来集成2D多视角特征和空间几何特征。

5.1.4 基于点的方法

基于点的网络直接在点云上进行操作。然而，点云通常是无序且无结构的，使得直接应用标准的CNN不现实。为此，先驱的工作PointNet[5]用来对每个点进行特征学习，使用的是标准的MLP和全局特征。基于PointNet，一系列基于点的网络被提出。总体而言，这类方法可简单的分为以下几类：基于各个点的MLP方法，基于点卷积的方法，基于RNN的方法和基于图的方法。

Pointwise MLP Methods
这类方法通常利用共享的MLP作为网络中的基本单元。然而，由共享MLP提取出的各个点上的特征，并不能获取到点云中的局部几何关系，以及点与点之间的关系[5]。为了获取各个点周围更广泛的信息，以及学习到更丰富的局部结构，有很多方法被提出，包括基于邻近点特征池化的方法，基于注意力机制的集成(attention-based aggregation)以及局部-全局的特征级联。

Neighboring feature pooling：
为了获取局部的几何形式，这类方法通过将局部邻域点集成的方式，对各个点学习特征。具体而言，PointNet++[54]将点分层次，逐步地分成一些组，如图12(1)所示。

多尺度的分组和多分辨率的分组来克服点云多样性造成的问题。之后，Jiang等人[141]提出了PointSIFT模块来实现方向的编码和scale awareness。该模块通过使用3阶段的有向的卷积操作，将8个空间方向的信息堆叠并且编码，将多尺度的特征提取并级联来实现对不同尺度的适应性。与PointNet++中使用的分组方法不同，Engelmann等人[204]利用K-Means聚类和KNN的方法在世界空间和特征空间定义两种邻域。基于这样的假设：来自于同一类的点在特征空间中应当接近，该论文提出了点对距离损失和中心点损失来对特征学习进行正则。为了建模点与点之间的相互关系，Zhao等人[57]提出了PointWeb来寻找局部区域内所有点对之间的关系。其中的自适应特征调节(AFA)模块被用来实现信息交互和特征增强。该增强操作帮助网络学习到了一些具有区分性的特征表达。Zhang等人[205]提出了置换不变性的卷积称之为Shellconv。Hu等人[206]提出了有效、轻量的网络称为RandLA-Net实现大规模的点云处理。该方法利用随机样本采样，在内存和计算方面提升很多。提出的局部特征集成用来获取和保持几何特征。

基于注意力机制的聚合：
为了进一步提升分割的准确率，[120]针对点云分割，提出了基于注意力的机制。Yang等人[56]提出了组随机注意力机制(group shuffle attention)来建模点之间的关系，并且提出了具有置换不变性、task-agnostic以及可微分的Gumbel Subset Sampling(GSS)来替代被广泛应用的最远距离点云采样(FPS)方法。该方法对离群点不敏感，并且可以选择具有代表性的点的子集。为了更好地获取点云的空间分布，Chen等人[207]提出了局部空间感知(LSA)层来学习空间感知权重。与CRF类似，Zhao等人[208]提出了基于注意力机制的打分增强（ASR）模块对分割的结果进行后处理。初始分割结果通过池化的方式进行修正。该模块很容易被集成至其他的深度网络中来提升分割效果。

局部-全局拼接：
Zhao等人[112]提出了置换不变性的 $PS^2-Net$ ，将点云的局部结构和全局信息合并。Edgeconv[87]与NetVLAD[209]重复的级联起来，来获取局部信息和场景级别的全局特征。

点卷积方法
这类方法通常试图提出在点云上进行更有效的卷积操作。Hua等人[76]提出了在各个点上的卷积操作，其中邻域点被分入至核的单元里，卷积时卷积核有权重。如图12(b)所示。Wang等人[201]提出了称之为PCCN的网络，该网络基于参数化的连续卷积层。该层的核参数通过MLP和张成的连续向量空间所参数化。Thomas等人[65]在基于核的点卷积网络(KPConv)之上提出了核的点全卷积网络(KP-FCNN)。具体而言，KPConv的卷积权重由欧式空间的距离决定，卷积核的点数也并不固定。卷积核点的位置由一个最优化问题确定。在[211]中，作者提供了丰富的消融实验（ablation experiments）和可视化结果展示了集成方法中，感受野的重要性。同时他们提出了扩张点卷积(DPC)操作，来集成邻近点的特征，进而取代KNN的方法。该方法在提升感受野上非常有效，并且可以容易地集成至基于聚合的网络里。

基于RNN的方法
为了获取点云中的内在环境特征，RNN也比用来进行点云的语义分割。基于PointNet[5]，Engelmmann等人 [213]首先将一大块点云转换成多尺度的块和网格块来获取输入级别的环境。接着，使用PointNet对各个块提取特征并送入合并单元（CU）或重复合并单元（RCU）来获取输出级别的环境信息。实验结果显示，这样处理空间环境信息的方法在提高分割性能时是很重要的。[212]提出了一种轻量的模块，利用了片池化层将无序的点云特征转换成有序的特征向量。如图12（c）所示。Ye等人[202]第一次提出了点级别的金字塔池化(3P)模块来获取从粗到细的局部特征，并利用双向的RNN来实现端到端学习。然而这类方法损失了丰富的几何特征和密度分布[220]。为了减轻由于刚性和静态池化操作所引起的问题，Zhao等人[220]提出了动态级联网络(DAR-Net)来同时考虑全局场景复杂度和局部几何特征。Liu等人[221]提出了3DCNN-DQN-RNN。该网络首先使用3DCNN学习空间分布和颜色特征，使用DQN进一步定位类别物体。最后级联的特征向量送入RNN中获取最后的分割结果。

基于图的方法
为了获取3D点云中潜在的形状和几何结构，一些方法使用了图神经网络。如图12（d）所示，Landrieu等人[203]将点云看做是一些相连的简单形状和Superpoint的集合，并且使用有向图来获取结构和环境信息。接着将大规模的点云分割问题分成三个子问题，即，几何均匀划分, 叠加嵌入和上下文分割。为了进一步提升，Landrieu和Boussaha[214]提出了有监督的框架将一个点云分成纯的超点。该问题可以定义为深度策略学习问题通过邻接图来架构。除此之外，基于图结构的对比损失用来识别物体边界间距。

为了更好地获取高维空间中的局部几何关系，Kang等人[222]提出了基于图的嵌入模块(GEM)和金字塔注意力(PAN)的网络PyramNet。GEM模块将点云表述为有向无环图，并且在构建相似度矩阵时，利用协方差矩阵代替欧式距离。在PAN模块中，使用4个不同尺寸的卷积核来提取特征。在[215]中，提出的图卷积网络（GAC）用来选择性地提取特征。该操作通过动态分配注意力机制给不同的点和特征通道不同的权重。GAC能够学习捕获有区分性的特征来做分割，且与使用CRF有着类似的特点。Ma等人[223]提出了点全局上下文推理（PointGCR）模块在通道维度内，通过非定向图表达来捕获全局上下文信息。PointGCR是即插即用的且端到端可训练的模块。可以简单结合到现有分割网络里来实现性能的提升。

另外，一些近期工作试着实现弱监督下点云的语义分割。Wei等人[224]提出了一个两阶段方法结合子级别标签来训练分割网络。Xu等人[225]调研了一些非精确监督学习模式用作点云的语义分割。他们也提出了一个网络仅需要10%标签来进行训练。

5. 2 实例分割

与语义分割相比，实例分割更具有挑战性因为它需要更准确和更小的细粒度，具体而言，他不仅需要将有着不同语义的点分辨出来，还需要将有着相同语义的实例分出来。总体而言，目前的方法可分为两个方向：基于候选框的方法以及不需要候选框的方法。一些里程碑式的方法具体见图13。

5.2.1 基于提取框的方法

这类方法将实例分割问题分成两个子任务：3D物体检测和实例mask的预测。
Hou等人[226]提出了3D全卷积语义实例分割网络(3D-SIS) ，来实现在RGB-D数据上的语义实例分割。该网络从颜色和几何中学习特征。与3D目标检测类似，3D区域提取框网络(3D-RPN)和3D ROI 层用来预测候选框的位置，物体类别和实例的掩码。根据合成分析策略，Yi等人[227]提出了生成形状提取框网络(GSPN)来产生3D候选框。这些候选框再通过R-PointNet修正。最终的标签通过预测各个点的二进制掩码来得到。与直接从点云中回归3D 提取框不同，该方法移除了许多无用的候选框。

Narita等人[228]通过将2D 全景分割延伸至3D映射，提出了在线的体素化3D行社系统来实现大规模的3D重建，给语义标签以及实例分割。该方法首先利用2D语义和实例分割获得像素级别的panoptic 标签，接着将这些标签集成至体素map中。使用全连接的CRF来实现准确的分割。该语义映射系统可得到高质量的语义映射和具有判别性的目标检测。Yang等人[229]提出了单阶段的，不需要anchor的可训练网络称为3D-BoNet，来实现点云上的实例分割。该方法对所有可能的实例直接回归大致的3D提取框，接着利用点级别的二分类器来获取实例标签。特别地，该提取框的任务是被当做是最优分配问题。同时，使用了多尺度损失函数来正则化生成的提取框。该方法不需要任何的后处理操作，并且有很高的计算效率。Zhang等人[230]提出了针对大规模户外LiDAR点云进行实例分割的网络。该方法使用自注意力模块，在点云的鸟瞰图上学习特征表示，最后获取的实例分割标签基于预测的水平中心和高度限制。Shi等人[231]提出了层架结构的可变分去噪循环自编码器(VDRAE)来预测室内3D空间的分布。目标提取框是迭代生成的，且通过不断重复上下文来得到提升。

总的来说，基于候选框的方法较为直观[226],[227],[229],[232]，并且实例分割的结果通常较好。然而该方法需要多阶段的训练并且需要对多余候选框进行裁剪。因此通常都需要更多的时间和计算资源。

5.2.2 无提取框的方法

不需要候选框的方法[223-240]并没有目标检测的模块。作为替代的是，他们通常将实例分割认为是语义分割后的聚类步骤。具体而言，需要现有的方法都基于这样的假设：属于同一实例的点应当有着相似的特征。因此这类方法通常聚焦于判别式的特征学习和点云聚类。

Wang等人[233]作为先驱性的工作，首次提出了相似组提取框网络(SGPN)。该方法首先对每个点学习特征和语义地图，接着引入相似度矩阵来表示各对点之间的相似度。为了学习到更多的判别式特征，使用了双hinge loss来互相适应相似度矩阵和语义分割的结果。最后使用启发式的NMS方法将相似的点归并进一个实例中。由于相似度矩阵的构建需要大量的内存消耗，该方法应用的规模收到了限制。类似地，Liu等人[237]首先利用子流形稀疏卷积[166]来预测各个体素的语义得分，急着引入聚类算法将点聚集至实例中。Mo等人[241]在PartNet中引入了通过分割来检测的网络来实现实例分割。PointNet++用来当做基准线进行预测每个点的实例标签，以及不连接实例的掩码。更进一步，liang等人[241]提出了structure-aware loss来学习判别式的嵌入。该损失函数同时考虑了特征的相似度和点之间的几何关系。最后使用基于注意力机制的graph CNN来自适应地对特征进行修正。

由于一个点的语义分类和实例标签通常互相决定，许多方法将该两个任务合并成一个任务。Wang等人[234]通过引入端到端可学习的级联分割实例与语义（ASIS）模块，将两个任务集成到一起。实验结果显示语义特征和实例特征可相互支撑，达到了一定的性能提升。类似的，Zhao等人[242]提出了JSNet来实现语义和实例分割。更进一步，PHam等人[235]首先引入了多任务点级别网络(MT-PNet), 给各个点分配标签信息，并且通过引入一个可区分损失[243]对特征空间的嵌入进行正则。接着将预测的语义标签和嵌入融合至多值的条件随机场(MV-CRF)进行联合优化。最后，平均场变分接口用来得到语义标签和实例标签。Hu等人[244]首次提出了动态区域增长 (DRG) method，自动地将点云分成一系列的块，接着使用无监督的K-means++ 算法进行聚类。接着在环境信息的指导下进行大规模的块分割。最后，这类有标签的patches融合进物体级别，得到最后的语义和实例标签。

为了实现在整个3D场景上的实例分割，Elich等人[236]提出了混合的2D-3D网络，该网络学习全局一致性的实例特征和局部的几何特征。学习到的特征被组合起来实现语义和实例分割。在将点聚集成实例时，并非使用GroupMerging算法[233]，而是更灵活的Meanshift[245]。可选地，实例分割中也引入了多任务学习。Lahoud等人[246]同时学习了每个实例的独特的特征表示，以及对于物体中心的方向信息。使用特征嵌入损失和方向损失在隐空间中学习特征。Mean-shift 聚类和NMS用来将体素积聚成实例。该方法在ScanNet[11]基准上达到了SOTA性能。同时，预测出的方向信息可以确定实例的边界。Zhang等人[247]引入了概率嵌入进行点云的实例分割。该方法也继承了不确定估计并且提出了新的损失函数。Jiang等人[240]提出了PointGroup网络，包括语义分割分支和偏移预测分支。一个双几何聚类算法和ScoreNet用来实现更好的分组结果。

总体而言，不需要候选框的方法不需要耗费资源的区域生成步骤。然而，该方法的准确率较低因为该方法不检测物体的边界。

5.3 部件分割

部件分割的主要困难来自于两方面。第一，有相同语义标签的部件有着较大的几何变化和不确定性；第二，该方法需要对噪声和采样具有鲁棒性。

VoxSegNet [248]在3D体素数据上来实现细粒度的零件分割。Spatial Dense Extraction(SDE)模块用来在稀疏体素数据上提取大规模的具有判别性的e特征。学习到的特征被重新赋予权重，并且使用注意力特征增强 (AFA)模块进行融合。Kalogerakis等人[249]将FCN与基于表面的CRF组合，实现端到端的3D 零件分割。他们首先从不同的视角产生图像来实现最优表面拟合，并将这些图片送入至2D网络产生置信图。接着，使用基于表面的CRF将置信图集成起来，用来对整个场景打标签。Yi等人[250]引入了同步谱CNN(SyncSpecCNN)，在不规则非同构形状图上实现卷积。谱参数化了扩张卷积核，且谱转换网络可用来解决多尺度分析部件的问题和形状的信息共享。

Wang等人[251]首次通过引入形状全卷积网络(SFCN),在3D网格上实现了形状分割，并且将三种低层次的几何特征作为输入。接着利用基于投票的多标签graph cut来修正分割结果。Zhu等人[252]提出了弱监督的CoSegNet进行3D形状分割。该网络将一些未分割的3D点云形状作为输入，接着通过最小化组一致性损失，产生形状零件的标签。与CRF类似，预训练的part-refinement网络用来修正并且去噪。Chen等人[253]提出了分支自编码网络(BAE-NET)用来无监督，one-shot和弱监督3D形状分割。该方法将形状分割任务看做是特征学习问题并试图找到最简单的零件表示（通过最小化形状重建损失函数）。基于编码-解码的结构，该网络的每个分支都在学习特定零件形状的相容表示。学到的特征与点坐标一起送入解码器中，产生二进制的值（该值表示该点是否属于这一part）。该方法有着良好的繁华性，并且可以处理大规模的3D形状几何。然而该方法对处值较为敏感，并且并未利用到形状的语义信息，妨碍了该方法在每次迭代中得到鲁棒、稳定的估计。Yu等人[254]提出了自上而下循环部件分解网络（PartNet）来实现分层形状分割。与先前一些方法分割一个形状给其一个固定的标签集不同，该网络将部件分割定义为级联的二进制标签，将输入点云分解成基于结合结构的随机数的部件。Luo等人[255]介绍了基于学习组群框架用于zero-shot3D部件分割。为了提升交叉类别的泛化能力，该方法尝试学习组群策略来在限制在部件局部上下文中学习基于部件的特征。

5.4 小结

表5展示了已有方法在公开数据集上的结果，包括：S3DIS[10], Semantic3D[12], ScanNet[39]和SemanticKITTI[15]。一下问题需要更进一步的探索。

由于有了规则的数据表示，基于投影的方法和基于离散的方法都可以利用二维图像中成熟的网络架构。然而，基于投影的方法的主要局限性在于三维-二维投影造成的信息损失，而离散方法的主要瓶颈在于分辨率的提高导致计算和存储成本的立方增加。为此，基于索引结构的稀疏卷积是一种可行的解决方案，值得进一步探索。
基于点的网络是最常见的方法。然而，点的表示通常没有明确的邻域信息，大多数基于点的方法不得不试图使用好非自愿的邻域查找方法（KNN[79], ball query[54]）。这自然地限制了这类方法的有效性，因为邻域查找方法需要很高的计算资源和内存。近期所提出的点-体素联合表达[256]可能是未来可探索的方向。
在点云分割中，从不平衡的数据中学习仍然是具有挑战性的问题。尽管许多方法[65], [203], [205]达到了不错的结果，但性能在较小类别的数据上仍然较差。例如，RandLA-Net[206]在Semantic3D数据集里的reduced-8 subset上的总体IoU为76%，但在hardscape类里仅为41.1%
大多数的方法[5], [54], [79], [205], [207]在较少点的点云上进行（4096）。实际上，从深度感知上得到的点云是非常稠密的。因此需要寻求处理大规模点云的有效分割方法。
一些工作[178], [179], [199]开始在动态点云中学习空间-时间的信息，空间-时间信息可以帮助提高3D目标检测，分割和补全是值得期待的。

6 总结

本文介绍了当前最先进的3D理解方法，包括3D形状分类、3D物体检测和跟踪、3D场景和物体分割。对这些方法进行了分类和性能比较。同时也介绍了各种方法的优缺点，并列出了可能的研究方向。

文献列表

[1] Z. Liang, Y. Guo, Y. Feng, W. Chen, L. Qiao, L. Zhou, J. Zhang,
and H. Liu, “Stereo matching using multi-level cost volume and
multi-scale feature constancy,” IEEE TPAMI, 2019.
[2] Y. Guo, F. Sohel, M. Bennamoun, M. Lu, and J. Wan, “Rotational
projection statistics for 3D local surface description and object recognition,” IJCV, 2013.
[3] Y. Guo, M. Bennamoun, F. Sohel, M. Lu, and J. Wan, “3D object recognition in cluttered scenes with local surface features: a survey,” IEEE TPAMI, 2014.
[4] X. Chen, H. Ma, J. Wan, B. Li, and T. Xia, “Multi-view 3D object detection network for autonomous driving,” in CVPR, 2017.
[5] C. R. Qi, H. Su, K. Mo, and L. J. Guibas, “PointNet: Deep learning on point sets for 3D classification and segmentation,” in CVPR, 2017.
[6] Z. Wu, S. Song, A. Khosla, F. Yu, L. Zhang, X. Tang, and J. Xiao, “3D shapeNets: A deep representation for volumetric shapes,” in CVPR, 2015.
[7] M. A. Uy, Q.-H. Pham, B.-S. Hua, T. Nguyen, and S.-K. Yeung, “Revisiting point cloud classification: A new benchmark dataset and classification model on real-world data,” in ICCV, 2019.
[8] A. X. Chang, T. Funkhouser, L. Guibas, P. Hanrahan, Q. Huang, Z. Li, S. Savarese, M. Savva, S. Song, and H. Su, “ShapeNet: An information-rich 3D model repository,” arXiv preprint arXiv:1512.03012, 2015.
[9] K. Mo, S. Zhu, A. X. Chang, L. Yi, S. Tripathi, L. J. Guibas, and H. Su, “PartNet: A large-scale benchmark for fine-grained and hierarchical part-level 3D object understanding,” in CVPR, 2019.
[10] I. Armeni, O. Sener, A. R. Zamir, H. Jiang, I. Brilakis, M. Fischer, and S. Savarese, “3D semantic parsing of large-scale indoor spaces,” in CVPR, 2016.
[11] A. Dai, A. X. Chang, M. Savva, M. Halber, T. Funkhouser, and M. Nießner,
“ScanNet: Richly-annotated 3D reconstructions of indoor scenes,” in CVPR,2017.
[12] T. Hackel, N. Savinov, L. Ladicky, J. Wegner, K. Schindler, and M.Pollefeys, “Semantic3D.net: A new large-scale point cloud classification benchmark,” ISPRS, 2017.
[13] X. Song, P. Wang, D. Zhou, R. Zhu, C. Guan, Y. Dai, H. Su, H. Li, and R. Yang, “Apollocar3D: A large 3D car instance understanding benchmark for autonomous driving,” in CVPR, 2019.
[14] A. Geiger, P. Lenz, and R. Urtasun, “Are we ready for autonomous
driving,” in CVPR, 2012.
[15] J. Behley, M. Garbade, A. Milioto, J. Quenzel, S. Behnke, C. Stachniss, and J. Gall, “SemanticKITTI: A dataset for semantic scene understanding of lidar sequences,” in ICCV, 2019.
[16] G. Elbaz, T. Avraham, and A. Fischer, “3D point cloud registration for localization using a deep neural network auto-encoder,” in CVPR, 2017, pp. 4631–4640.
[17] A. Zeng, K.-T. Yu, S. Song, D. Suo, E. Walker, A. Rodriguez, and J. Xiao, “Multi-view self-supervised deep learning for 6D pose estimation in the amazon picking challenge,” in ICRA, 2017, pp. 1386–1383.
[18] X. Han, H. Laga, and M. Bennamoun, “Image-based 3D object reconstruction: State-of-the-art and trends in the deep learning era,” IEEE TPAMI, 2019.
[19] A. Ioannidou, E. Chatzilari, S. Nikolopoulos, and I. Kompatsiaris,
“Deep learning advances in computer vision with 3D data: A
survey,” ACM Computing Surveys, 2017.
[20] E. Ahmed, A. Saint, A. E. R. Shabayek, K. Cherenkova, R. Das, G. Gusev, D. Aouada, and B. Ottersten, “Deep learning advances on different 3D data representations: A survey,” arXiv preprint arXiv:1808.01462, 2018.
[21] Y. Xie, J. Tian, and X. Zhu, “A review of point cloud semantic segmentation,” IEEE GRSM, 2020.
[22] M. M. Rahman, Y. Tan, J. Xue, and K. Lu, “Recent advances in 3D object detection in the era of deep neural networks: A survey,” IEEE TIP, 2019.
[23] K. Siddiqi, J. Zhang, D. Macrini, A. Shokoufandeh, S. Bouix, and S. Dickinson, “Retrieving articulated 3-D models using medial surfaces,” Machine Vision and Applications, vol. 19, no. 4, pp. 261–275, 2008.
[24] M. De Deuge, B. Douillard, C. Hung, and A. Quadros, “Unsupervised feature learning for classification of outdoor 3D scans,” in ACRA, 2013.
[25] S. Song, S. P. Lichtenberg, and J. Xiao, “Sun RGB-D: A RGB-D scene understanding benchmark suite,” in CVPR, 2015.
[26] A. Patil, S. Malla, H. Gang, and Y.-T. Chen, “The H3D dataset for full-surround 3D multi-object detection and tracking in crowded urban scenes,” in ICRA, 2019.
[27] M.-F. Chang, J. Lambert, P. Sangkloy, J. Singh, S. Bak, A. Hartnett, D. Wang, P. Carr, S. Lucey, D. Ramanan et al., “Argoverse: 3D tracking and forecasting with rich maps,” in CVPR, 2019.
[28] R. Kesten, M. Usman, J. Houston, T. Pandya, K. Nadhamuni, A. Ferreira, M. Yuan, B. Low, A. Jain, P. Ondruska et al., “Lyft level 5 av dataset 2019,” 2019.
[29] Q.-H. Pham, P. Sevestre, R. S. Pahwa, H. Zhan, C. H. Pang, Y. Chen, A. Mustafa, V. Chandrasekhar, and J. Lin, “A*3D dataset: Towards autonomous driving in challenging environments,” ICRA, 2020.
[30] P. Sun, H. Kretzschmar, X. Dotiwalla, A. Chouard, V. Patnaik, P. Tsui, J. Guo, Y. Zhou, Y. Chai, B. Caine, V. Vasudevan, W. Han, J. Ngiam, H. Zhao, A. Timofeev, S. Ettinger, M. Krivokon, A. Gao, A. Joshi, Y. Zhang, J. Shlens, Z. Chen, and D. Anguelov, “Scalability in perception for autonomous driving: Waymo open dataset,” in CVPR, 2020.
[31] H. Caesar, V. Bankiti, A. H. Lang, S. Vora, V. E. Liong, Q. Xu, A. Krishnan, Y. Pan, G. Baldan, and O. Beijbom, “nuscenes: A multimodal dataset for autonomous driving,” in CVPR, 2020.
[32] D. Munoz, J. A. Bagnell, N. Vandapel, and M. Hebert, “Contextual classification with functional max-margin markov networks,” in CVPR, 2009, pp. 975–982.
[33] F. Rottensteiner, G. Sohn, J. Jung, M. Gerke, C. Baillard, S. Benitez, and U. Breitkopf, “The isprs benchmark on urban object classification and 3D building reconstruction,” ISPRS, 2012.
[34] A. Serna, B. Marcotegui, F. Goulette, and J.-E. Deschaud, “Parisrue- madame database: a 3D mobile laser scanner dataset for benchmarking urban detection, segmentation and classification methods,” in ICRA, 2014.
[35] B. Vallet, M. Br´edif, A. Serna, B. Marcotegui, and N. Paparoditis“Terramobilita/iqmulus urban point cloud analysis benchmark,”Computers & Graphics, vol. 49, pp. 126–133, 2015.
[36] X. Roynard, J.-E. Deschaud, and F. Goulette, “Paris-lille-3d: A large and high-quality ground-truth urban point cloud dataset for automatic segmentation and classification,” IJRR, 2018.
[37] W. Tan, N. Qin, L. Ma, Y. Li, J. Du, G. Cai, K. Yang, and J. Li, “Toronto-3D: A large-scale mobile lidar dataset for semantic segmentation of urban roadways,” arXiv preprint arXiv:2003.08284, 2020.
[38] N. Varney, V. K. Asari, and Q. Graehling, “Dales: A large-scale aerial lidar data set for semantic segmentation,” arXiv preprint arXiv:2004.11985, 2020.
[39] H. Lu, X. Chen, G. Zhang, Q. Zhou, Y. Ma, and Y. Zhao, “SCANet: Spatial-channel attention network for 3D object detection,” in ICASSP, 2019.
[40] H. Su, S. Maji, E. Kalogerakis, and E. Learned-Miller, “Multiview convolutional neural networks for 3D shape recognition,” in ICCV, 2015.
[41] T. Yu, J. Meng, and J. Yuan, “Multi-view harmonized bilinear network for 3D object recognition,” in CVPR, 2018.
[42] Z. Yang and L. Wang, “Learning relationships for multi-view 3D object recognition,” in ICCV, 2019.
[43] C. R. Qi, H. Su, M. Nießner, A. Dai, M. Yan, and L. J. Guibas, “Volumetric and multi-view CNNs for object classification on 3D data,” in CVPR, 2016.
[44] Y. Feng, Z. Zhang, X. Zhao, R. Ji, and Y. Gao, “GVCNN: Groupview convolutional neural networks for 3D shape recognition,” in CVPR, 2018.
[45] C.Wang, M. Pelillo, and K. Siddiqi, “Dominant set clustering and pooling for multi-view 3D object recognition,” BMVC, 2017.
[46] C. Ma, Y. Guo, J. Yang, and W. An, “Learning multi-view representation with LSTM for 3D shape recognition and retrieval,” IEEE TMM, 2018.
[47] X. Wei, R. Yu, and J. Sun, “View-gcn: View-based graph convolutional network for 3D shape analysis,” in CVPR, 2020.
[48] D. Maturana and S. Scherer, “VoxNet: A 3D convolutional neural
network for real-time object recognition,” in IROS, 2015.
[49] G. Riegler, A. Osman Ulusoy, and A. Geiger, “OctNet: Learning
deep 3D representations at high resolutions,” in CVPR, 2017.
[50] P.-S. Wang, Y. Liu, Y.-X. Guo, C.-Y. Sun, and X. Tong, “OCNN: Octree-based convolutional neural networks for 3D shape analysis,” ACM TOG, 2017.
[51] T. Le and Y. Duan, “PointGrid: A deep network for 3D shape understanding,” in CVPR, 2018.
[52] Y. Ben-Shabat, M. Lindenbaum, and A. Fischer, “3D point cloud classification and segmentation using 3D modified fisher vector representation for convolutional neural networks,” arXiv preprint arXiv:1711.08241, 2017.
[53] M. Zaheer, S. Kottur, S. Ravanbakhsh, B. Poczos, R. R. Salakhutdinov, and A. J. Smola, “Deep sets,” in NeurIPS, 2017.
[54] C. R. Qi, L. Yi, H. Su, and L. J. Guibas, “PointNet++: Deep hierarchical feature learning on point sets in a metric space,” in NeurIPS, 2017.
[55] M. Joseph-Rivlin, A. Zvirin, and R. Kimmel, “Mo-Net: Flavor the moments in learning to classify shapes,” in ICCVW, 2018.
[56] J. Yang, Q. Zhang, B. Ni, L. Li, J. Liu, M. Zhou, and Q. Tian, “Modeling point clouds with self-attention and gumbel subset sampling,” in CVPR, 2019.
[57] H. Zhao, L. Jiang, C.-W. Fu, and J. Jia, “PointWeb: Enhancing local
neighborhood features for point cloud processing,” in CVPR, 2019.
[58] Y. Duan, Y. Zheng, J. Lu, J. Zhou, and Q. Tian, “Structural relational reasoning of point clouds,” in CVPR, 2019.
[59] H. Lin, Z. Xiao, Y. Tan, H. Chao, and S. Ding, “Justlookup: One millisecond deep feature extraction for point clouds by lookup tables,” in ICME, 2019.
[60] X. Sun, Z. Lian, and J. Xiao, “SRINet: Learning strictly rotationinvariant
representations for point cloud classification and segmentation,” in ACM MM, 2019.
[61] X. Yan, C. Zheng, Z. Li, S. Wang, and S. Cui, “Pointasnl: Robust point clouds processing using nonlocal neural networks with adaptive sampling,” in CVPR, 2020.
[62] Y. Liu, B. Fan, S. Xiang, and C. Pan, “Relation-shape convolutional neural network for point cloud analysis,” in CVPR, 2019.
[63] A. Boulch, “Generalizing discrete convolutions for unstructured point clouds,” arXiv preprint arXiv:1904.02375, 2019.
[64] Y. Liu, B. Fan, G. Meng, J. Lu, S. Xiang, and C. Pan, “DensePoint: Learning densely contextual representation for efficient point cloud processing,” in ICCV, 2019.
[65] H. Thomas, C. R. Qi, J.-E. Deschaud, B. Marcotegui, F. Goulette, and L. J. Guibas, “KPConv: Flexible and deformable convolution for point clouds,” in ICCV, 2019.
[66] A. Boulch, “ConvPoint: continuous convolutions for point cloud processing,” Computers & Graphics, 2020.
[67] W. Wu, Z. Qi, and L. Fuxin, “PointConv: Deep convolutional networks on 3D point clouds,” in CVPR, 2019.
[68] P. Hermosilla, T. Ritschel, P.-P. Va´zquez, A’ . Vinacua, and T. Ropinski, “Monte carlo convolution for learning on nonuniformly sampled point clouds,” ACM TOG, 2018.
[69] Y. Xu, T. Fan, M. Xu, L. Zeng, and Y. Qiao, “SpiderCNN: Deep learning on point sets with parameterized convolutional filters,” in ECCV, 2018.
[70] A. Matan, M. Haggai, and L. Yaron, “Point convolutional neural networks by extension operators,” ACM TOG, 2018.
[71] C. Esteves, C. Allen-Blanchette, A. Makadia, and K. Daniilidis, “Learning so(3) equivariant representations with spherical CNNs,” in ECCV, 2017.
[72] N. Thomas, T. Smidt, S. Kearnes, L. Yang, L. Li, K. Kohlhoff, and P. Riley, “Tensor field networks: Rotation-and translationequivariant neural networks for 3D point clouds,” arXiv preprint arXiv:1802.08219, 2018.
[73] T. S. Cohen, M. Geiger, J. Koehler, and M. Welling, “Spherical CNNs,” ICLR, 2018.
[74] A. Poulenard, M.-J. Rakotosaona, Y. Ponty, and M. Ovsjanikov, “Effective rotation-invariant point CNN with spherical harmonics kernels,” in 3DV, 2019.
[75] F. Groh, P. Wieschollek, and H. P. Lensch, “Flex-Convolution,” in ACCV, 2018.
[76] B.-S. Hua, M.-K. Tran, and S.-K. Yeung, “Pointwise convolutional neural networks,” in CVPR, 2018.
[77] H. Lei, N. Akhtar, and A. Mian, “Octree guided cnn with spherical kernels for 3D point clouds,” in CVPR, 2019.
[78] S. Lan, R. Yu, G. Yu, and L. S. Davis, “Modeling local geometric structure of 3D point clouds using geo-cnn,” in CVPR, 2019.
[79] Y. Li, R. Bu, M. Sun, W. Wu, X. Di, and B. Chen, “PointCNN: Convolution on x-transformed points,” in NeurIPS, 2018.
[80] J. Mao, X.Wang, and H. Li, “Interpolated convolutional networks for 3D point cloud understanding,” in ICCV, 2019.
[81] Z. Zhang, B.-S. Hua, D. W. Rosen, and S.-K. Yeung, “Rotation invariant convolutions for 3D point clouds deep learning,” in 3DV, 2019.
[82] A. Komarichev, Z. Zhong, and J. Hua, “A-CNN: Annularly convolutional neural networks on point clouds,” in CVPR, 2019.
[83] S. Kumawat and S. Raman, “LP-3DCNN: Unveiling local phase in 3D convolutional neural networks,” in CVPR, 2019.
[84] Y. Rao, J. Lu, and J. Zhou, “Spherical fractal convolutional neural networks for point cloud recognition,” in CVPR, 2019.
[85] M. Simonovsky and N. Komodakis, “Dynamic edge-conditioned filters in convolutional neural networks on graphs,” in CVPR, 2017.
[86] R. B. Rusu and S. Cousins, “3D is here: Point cloud library (PCL),” in ICRA, 2011.
[87] Y. Wang, Y. Sun, Z. Liu, S. E. Sarma, M. M. Bronstein, and J. M. Solomon, “Dynamic graph CNN for learning on point clouds,” ACM TOG, 2019.
[88] K. Zhang, M. Hao, J. Wang, C. W. de Silva, and C. Fu, “Linked dynamic graph CNN: Learning on point cloud via linking hierarchical features,” arXiv preprint arXiv:1904.10014, 2019.
[89] Y. Yang, C. Feng, Y. Shen, and D. Tian, “FoldingNet: Point cloud auto-encoder via deep grid deformation,” in CVPR, 2018.
[90] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov,
D. Erhan, V. Vanhoucke, and A. Rabinovich, “Going deeper with convolutions,” in CVPR, 2015.
[91] K. Hassani and M. Haley, “Unsupervised multi-task feature learning on point clouds,” in ICCV, 2019.
[92] J. Liu, B. Ni, C. Li, J. Yang, and Q. Tian, “Dynamic points agglomeration for hierarchical point sets learning,” in ICCV, 2019.
[93] Y. Shen, C. Feng, Y. Yang, and D. Tian, “Mining point cloud local structures by kernel correlation and graph pooling,” in CVPR, 2018.
[94] M. Dominguez, R. Dhamdhere, A. Petkar, S. Jain, S. Sah, and R. Ptucha, “General-purpose deep point cloud feature extractor,” in WACV, 2018.
[95] C. Chen, G. Li, R. Xu, T. Chen, M. Wang, and L. Lin, “Cluster Net: Deep hierarchical cluster network with rigorously rotationinvariant representation for point cloud analysis,” in CVPR, 2019.
[96] D. M¨ ullner, “Modern hierarchical, agglomerative clustering algorithms,” arXiv preprint arXiv:1109.2378, 2011.
[97] Q. Xu, X. Sun, C.-Y. Wu, P. Wang, and U. Neumann, “Grid-gcn for fast and scalable point cloud learning,” in CVPR, 2020.
[98] J. Bruna,W. Zaremba, A. Szlam, and Y. Lecun, “Spectral networks and locally connected networks on graphs,” ICLR, 2014.
[99] M. Defferrard, X. Bresson, and P. Vandergheynst, “Convolutional neural networks on graphs with fast localized spectral filtering,” in NeurIPS, 2016.
[100] G. Te, W. Hu, A. Zheng, and Z. Guo, “RGCNN: Regularized graph CNN for point cloud segmentation,” in ACM MM, 2018.
[101] R. Li, S. Wang, F. Zhu, and J. Huang, “Adaptive graph convolutional neural networks,” in AAAI, 2018.
[102] Y. Feng, H. You, Z. Zhang, R. Ji, and Y. Gao, “Hypergraph neural networks,” in AAAI, 2019.
[103] C. Wang, B. Samari, and K. Siddiqi, “Local spectral graph convolution for point set feature learning,” in ECCV, 2018.
[104] Y. Zhang and M. Rabbat, “A Graph-CNN for 3D point cloud classification,” in ICASSP, 2018.
[105] G. Pan, J. Wang, R. Ying, and P. Liu, “3DTI-Net: Learn inner transform invariant 3D geometry features using dynamic GCN,” arXiv preprint arXiv:1812.06254, 2018.
[106] R. Klokov and V. Lempitsky, “Escape from cells: Deep kdnetworks for the recognition of 3D point cloud models,” in ICCV, 2017.
[107] W. Zeng and T. Gevers, “3DContextNet: K-d tree guided hierarchical learning of point clouds using local and global contextual cues,” in ECCV, 2018.
[108] J. Li, B. M. Chen, and G. Hee Lee, “SO-Net: Self-organizing network for point cloud analysis,” in CVPR, 2018.
[109] S. Xie, S. Liu, Z. Chen, and Z. Tu, “Attentional ShapeContextNet for point cloud recognition,” in CVPR, 2018.
[110] H. You, Y. Feng, R. Ji, and Y. Gao, “PVNet: A joint convolutional network of point cloud and multi-view for 3D shape recognition,” in ACM MM, 2018.
[111] H. You, Y. Feng, X. Zhao, C. Zou, R. Ji, and Y. Gao, “PVRNet: Point-view relation neural network for 3D shape recognition,” in AAAI, 2019.
[112] Y. Zhao, T. Birdal, H. Deng, and F. Tombari, “3D point capsule networks,” in CVPR, 2019.
[113] W. Chen, X. Han, G. Li, C. Chen, J. Xing, Y. Zhao, and H. Li, “Deep RBFNet: Point cloud feature learning using radial basis functions,” arXiv preprint arXiv:1812.04302, 2018.
[114] X. Liu, Z. Han, Y.-S. Liu, and M. Zwicker, “Point2Sequence: Learning the shape representation of 3D point clouds with an attention-based sequence to sequence network,” in AAAI, 2019.
[115] P. Wu, C. Chen, J. Yi, and D. Metaxas, “Point cloud processing via recurrent set encoding,” in AAAI, 2019.
[116] C. Qin, H. You, L. Wang, C.-C. J. Kuo, and Y. Fu, “PointDAN: A multi-scale 3D domain adaption network for point cloud representation,” in NIPS, 2019.
[117] B. Sievers and J. Sauder, “Self-supervised deep learning on point clouds by reconstructing space,” in NIPS, 2019.
[118] R. Li, X. Li, P.-A. Heng, and C.-W. Fu, “PointAugment: An auto-augmentation framework for point cloud classification,” in CVPR, 2020.
[119] S. Belongie, J. Malik, and J. Puzicha, “Shape matching and object recognition using shape contexts,” IEEE TPAMI, 2002.
[120] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, Ł. Kaiser, and I. Polosukhin, “Attention is all you need,” in NeurIPS, 2017.
[121] D. Bobkov, S. Chen, R. Jian, Z. Iqbal, and E. Steinbach, “Noiseresistant deep learning for object classification in 3D point clouds using a point pair descriptor,” IEEE RAL, 2018.
[122] S. Prokudin, C. Lassner, and J. Romero, “Efficient learning on point clouds with basis point sets,” in ICCV, 2019.
[123] L. Liu, W. Ouyang, X. Wang, P. Fieguth, J. Chen, X. Liu, and M. Pietik¨ainen, “Deep learning for generic object detection: A survey,” IJCV, 2020.
[124] C. R. Qi, O. Litany, K. He, and L. J. Guibas, “Deep hough voting for 3D object detection in point clouds,” ICCV, 2019.
[125] W. Shi and R. Rajkumar, “Point-GNN: Graph neural network for 3D object detection in a point cloud,” in CVPR, 2020.
[126] J. Ku, M. Mozifian, J. Lee, A. Harakeh, and S. L. Waslander, “Joint 3D proposal generation and object detection from view aggregation,” in IROS, 2018.
[127] M. Liang, B. Yang, S. Wang, and R. Urtasun, “Deep continuous fusion for multi-sensor 3D object detection,” in ECCV, 2018.
[128] M. Liang, B. Yang, Y. Chen, R. Hu, and R. Urtasun, “Multi-task multi-sensor fusion for 3D object detection,” in CVPR, 2019.
[129] B. Yang, W. Luo, and R. Urtasun, “PIXOR: Real-time 3D object detection from point clouds,” in CVPR, 2018.
[130] W. Luo, B. Yang, and R. Urtasun, “Fast and furious: Real time end-to-end 3D detection, tracking and motion forecasting with a single convolutional net,” in CVPR, 2018.
[131] Y. Zeng, Y. Hu, S. Liu, J. Ye, Y. Han, X. Li, and N. Sun, “RT3D: Real-time 3D vehicle detection in lidar point cloud for autonomous driving,” IEEE RAL, 2018.
[132] Z. Yang, Y. Sun, S. Liu, X. Shen, and J. Jia, “IPOD: Intensive point-based object detector for point cloud,” arXiv preprint arXiv:1812.05276, 2018.
[133] S. Shi, X. Wang, and H. Li, “PointRCNN: 3D object proposal generation and detection from point cloud,” in CVPR, 2019.
[134] Z. Jesus, G. Silvio, and G. Bernard, “PointRGCN: Graph convolution networks for 3D vehicles detection refinement,” arXiv preprint arXiv:1911.12236, 2019.
[135] V. Sourabh, L. Alex H., H. Bassam, and B. Oscar, “PointPainting: Sequential fusion for 3D object detection,” in CVPR, 2020.
[136] Y. Zhou and O. Tuzel, “VoxelNet: End-to-end learning for point cloud based 3D object detection,” in CVPR, 2018.
[137] A. H. Lang, S. Vora, H. Caesar, L. Zhou, J. Yang, and O. Beijbom, “PointPillars: Fast encoders for object detection from point clouds,” in CVPR, 2019.
[138] Z. Yang, Y. Sun, S. Liu, X. Shen, and J. Jia, “STD: Sparse-to-dense 3D object detector for point cloud,” in ICCV, 2019.
[139] C. R. Qi, W. Liu, C. Wu, H. Su, and L. J. Guibas, “Frustum PointNets for 3D object detection from RGB-D data,” in CVPR, 2018.
[140] X. Zhao, Z. Liu, R. Hu, and K. Huang, “3D object detection using scale invariant and feature reweighting networks,” in AAAI, 2019.
[141] M. Jiang, Y. Wu, and C. Lu, “PointSIFT: A sift-like network module for 3D point cloud semantic segmentation,” arXiv preprint arXiv:1807.00652, 2018.
[142] D. Xu, D. Anguelov, and A. Jain, “PointFusion: Deep sensor fusion for 3D bounding box estimation,” in CVPR, 2018.
[143] K. Shin, Y. P. Kwon, and M. Tomizuka, “RoarNet: A robust 3D object detection based on region approximation refinement,” in IEEE IV, 2019.
[144] Z. Wang and K. Jia, “Frustum convNet: Sliding frustums to aggregate local point-wise features for amodal 3D object detection,” in IROS, 2019.
[145] L. Johannes, M. Andreas, A. Thomas, H. Markus, N. Bernhard, and H. Sepp, “Patch refinement - localized 3D object detection,” arXiv preprint arXiv:1910.04093, 2019.
[146] D. Zhou, J. Fang, X. Song, C. Guan, J. Yin, Y. Dai, and R. Yang, “Iou loss for 2D/3D object detection,” in 3DV, 2019.
[147] Y. Chen, S. Liu, X. Shen, and J. Jia, “Fast point r-cnn,” in ICCV, 2019.
[148] S. Shi, C. Guo, L. Jiang, Z. Wang, J. Shi, X. Wang, and H. Li, “PV-RCNN: Point-voxel feature set abstraction for 3D object detection,” in CVPR, 2020.
[149] M. Feng, S. Z. Gilani, Y. Wang, L. Zhang, and A. Mian, “Relation graph network for 3D object detection in point clouds,” arXiv preprint arXiv:1912.00202, 2019.
[150] C. R. Qi, X. Chen, O. Litany, and L. J. Guibas, “ImVoteNet: Boosting 3D object detection in point clouds with image votes,” in CVPR, 2020.
[151] S. Shi, Z. Wang, X. Wang, and H. Li, “From points to parts: 3D object detection from point cloud with part-aware and partaggregation network,” TPAMI, 2020.
[152] B. Yang, M. Liang, and R. Urtasun, “HDNET: Exploiting hd maps for 3D object detection,” in CoRL, 2018.
[153] J. Beltr´an, C. Guindel, F. M. Moreno, D. Cruzado, F. Garc´ıa, and A. De La Escalera, “BirdNet: a 3D object detection framework from lidar information,” in ITSC, 2018.
[154] B. Li, T. Zhang, and T. Xia, “Vehicle detection from 3D lidar using fully convolutional network,” arXiv preprint arXiv:1608.07916, 2016.
[155] B. Li, “3D fully convolutional network for vehicle detection in point cloud,” in IROS, 2017.
[156] M. Engelcke, D. Rao, D. Z. Wang, C. H. Tong, and I. Posner, “Vote3Deep: Fast object detection in 3D point clouds using efficient convolutional neural networks,” in ICRA, 2017.
[157] X. Li, J. E. Guivant, N. Kwok, and Y. Xu, “3D backbone network for 3D object detection,” in CoRR, 2019.
[158] Y. Yan, Y. Mao, and B. Li, “SECOND: Sparsely embedded convolutional detection,” Sensors, 2018.
[159] V. A. Sindagi, Y. Zhou, and O. Tuzel, “MVX-Net: Multimodal voxelnet for 3D object detection,” in ICRA, 2019.
[160] C. He, H. Zeng, J. Huang, X.-S. Hua, and L. Zhang, “Structure aware single-stage 3D object detection from point cloud,” in CVPR, 2020.
[161] Z. Yang, Y. Sun, S. Liu, and J. Jia, “3DSSD: Point-based 3D single stage object detector,” in CVPR, 2020.
[162] G. P. Meyer, A. Laddha, E. Kee, C. Vallespi-Gonzalez, and C. K. Wellington, “LaserNet: An efficient probabilistic 3D object detector for autonomous driving,” CVPR, 2019.
[163] G. P. Meyer, J. Charland, D. Hegde, A. Laddha, and C. Vallespi Gonzalez, “Sensor fusion for joint 3D object detection and semantic segmentation,” CVPRW, 2019.
[164] Q. Chen, L. Sun, Z. Wang, K. Jia, and A. Yuille, “Object as hotspots: An anchor-free 3D object detection approach via firing of hotspots,” arXiv preprint arXiv:1912.12791, 2019.
[165] O. Ronneberger, P. Fischer, and T. Brox, “U-Net: Convolutional networks for biomedical image segmentation,” in MICCAI, 2015, pp. 234–241.
[166] B. Graham, M. Engelcke, and L. van der Maaten, “3D semantic segmentation with submanifold sparse convolutional networks,” in CVPR, 2018.
[167] Q. Hu, Y. Guo, Y. Chen, J. Xiao, and W. An, “Correlation filter tracking: Beyond an open-loop system,” in BMVC, 2017.
[168] H. Liu, Q. Hu, B. Li, and Y. Guo, “Robust long-term tracking via instance specific proposals,” IEEE TIM, 2019.
[169] L. Bertinetto, J. Valmadre, J. F. Henriques, A. Vedaldi, and P. H. Torr, “Fully-convolutional siamese networks for object tracking,” in ECCV, 2016.
[170] S. Giancola, J. Zarzar, and B. Ghanem, “Leveraging shape completion for 3D siamese tracking,” CVPR, 2019.
[171] M. Mueller, N. Smith, and B. Ghanem, “Context-aware correlation filter tracking,” in CVPR, 2017.
[172] J. Zarzar, S. Giancola, and B. Ghanem, “Efficient tracking proposals using 2D-3D siamese networks on lidar,” arXiv preprint arXiv:1903.10168, 2019.
[173] M. Simon, K. Amende, A. Kraus, J. Honer, T. S¨amann, H. Kaulbersch, S. Milz, and H. M. Gross, “Complexer-YOLO: Real-time 3D object detection and tracking on semantic point clouds,” CVPRW, 2019.
[174] H. Qi, C. Feng, Z. Cao, F. Zhao, and Y. Xiao, “P2B: Point-to-box network for 3D object tracking in point clouds,” in CVPR, 2020.
[175] X. Liu, C. R. Qi, and L. J. Guibas, “FlowNet3D: Learning scene flow in 3D point clouds,” in CVPR, 2019.
[176] Z. Wang, S. Li, H. Howard-Jenkins, V. Prisacariu, and M. Chen, “FlowNet3D++: Geometric losses for deep scene flow estimation,” in WACV, 2020.
[177] X. Gu, Y. Wang, C. Wu, Y. J. Lee, and P. Wang, “HPLFlowNet: Hierarchical permutohedral lattice flowNet for scene flow estimation on large-scale point clouds,” in CVPR, 2019.
[178] H. Fan and Y. Yang, “PointRNN: Point recurrent neural network for moving point cloud processing,” arXiv preprint arXiv:1910.08287, 2019.
[179] X. Liu, M. Yan, and J. Bohg, “MeteorNet: Deep learning on dynamic 3D point cloud sequences,” in ICCV, 2019.
[180] H. Mittal, B. Okorn, and D. Held, “Just go with the flow: Selfsupervised scene flow estimation,” in CVPR, 2020.
[181] F. J. Lawin, M. Danelljan, P. Tosteberg, G. Bhat, F. S. Khan, and M. Felsberg, “Deep projective 3D semantic segmentation,” in CAIP, 2017.
[182] A. Boulch, B. Le Saux, and N. Audebert, “Unstructured point cloud semantic labeling using deep segmentation networks.” in 3DOR, 2017.
[183] B. Wu, A. Wan, X. Yue, and K. Keutzer, “SqueezeSeg: Convolutional neural nets with recurrent crf for real-time road-object segmentation from 3D lidar point cloud,” in ICRA, 2018.
[184] B. Wu, X. Zhou, S. Zhao, X. Yue, and K. Keutzer, “SqueezeSegV2: Improved model structure and unsupervised domain adaptation for road-object segmentation from a lidar point cloud,” in ICRA, 2019.
[185] A. Milioto, I. Vizzo, J. Behley, and C. Stachniss, “RangeNet++: Fast and accurate lidar semantic segmentation,” in IROS, 2019.
[186] H.-Y. Meng, L. Gao, Y.-K. Lai, and D. Manocha, “VV-Net: Voxel vae net with group convolutions for point cloud segmentation,” in ICCV, 2019.
[187] D. Rethage, J. Wald, J. Sturm, N. Navab, and F. Tombari, “Fully convolutional point networks for large-scale point clouds,” in ECCV, 2018.
[188] H. Su, V. Jampani, D. Sun, S. Maji, E. Kalogerakis, M.-H. Yang, and J. Kautz, “SplatNet: Sparse lattice networks for point cloud processing,” in CVPR, 2018.
[189] R. A. Rosu, P. Sch ¨ utt, J. Quenzel, and S. Behnke, “LatticeNet: Fast point cloud segmentation using permutohedral lattices,” arXiv preprint arXiv:1912.05905, 2019.
[190] A. Dai and M. Nießner, “3DMV: Joint 3D-multi-view prediction for 3D semantic scene segmentation,” in ECCV, 2018.
[191] M. Jaritz, J. Gu, and H. Su, “Multi-view pointNet for 3D scene understanding,” in ICCVW, 2019.
[192] N. Audebert, B. Le Saux, and S. Lef`evre, “Semantic segmentation of earth observation data using multimodal and multi-scale deep networks,” in ACCV, 2016.
[193] M. Tatarchenko, J. Park, V. Koltun, and Q.-Y. Zhou, “Tangent convolutions for dense prediction in 3D,” in CVPR, 2018.
[194] F. N. Iandola, S. Han, M. W. Moskewicz, K. Ashraf, W. J. Dally, and K. Keutzer, “SqueezeNet: Alexnet-level accuracy with 50x fewer parameters and < 0.5 MB model size,” in ICLR, 2016.
[195] J. Huang and S. You, “Point cloud labeling using 3D convolutional neural network,” in ICPR, 2016.
[196] L. Tchapmi, C. Choy, I. Armeni, J. Gwak, and S. Savarese, “SEGCloud: Semantic segmentation of 3D point clouds,” in 3DV, 2017.
[197] J. Long, E. Shelhamer, and T. Darrell, “Fully convolutional networks for semantic segmentation,” in CVPR, 2015.
[198] A. Dai, D. Ritchie, M. Bokeloh, S. Reed, J. Sturm, and M. Nießner, “ScanComplete: Large-scale scene completion and semantic segmentation for 3D scans,” in CVPR, 2018.
[199] C. Choy, J. Gwak, and S. Savarese, “4D spatio-temporal convnets: Minkowski convolutional neural networks,” in CVPR, 2019.
[200] H.-Y. Chiang, Y.-L. Lin, Y.-C. Liu, and W. H. Hsu, “A unified point-based framework for 3D segmentation,” in 3DV, 2019.
[201] S. Wang, S. Suo, W.-C. Ma, A. Pokrovsky, and R. Urtasun, “Deep parametric continuous convolutional neural networks,” in CVPR, 2018.
[202] X. Ye, J. Li, H. Huang, L. Du, and X. Zhang, “3D recurrent neural networks with context fusion for point cloud semantic segmentation,” in ECCV, 2018.
[203] L. Landrieu and M. Simonovsky, “Large-scale point cloud semantic segmentation with superpoint graphs,” in CVPR, 2018.
[204] F. Engelmann, T. Kontogianni, J. Schult, and B. Leibe, “Know what your neighbors do: 3D semantic segmentation of point clouds,” in ECCVW, 2018.
[205] Z. Zhang, B.-S. Hua, and S.-K. Yeung, “ShellNet: Efficient point cloud convolutional neural networks using concentric shells statistics,” in ICCV, 2019.
[206] Q. Hu, B. Yang, L. Xie, S. Rosa, Y. Guo, Z. Wang, N. Trigoni, and A. Markham, “RandLA-Net: Efficient semantic segmentation of large-scale point clouds,” CVPR, 2020.
[207] L.-Z. Chen, X.-Y. Li, D.-P. Fan, M.-M. Cheng, K. Wang, and S.P. Lu, “LSANet: Feature learning on point sets by local spatial attention,” arXiv preprint arXiv:1905.05442, 2019.
[208] C. Zhao, W. Zhou, L. Lu, and Q. Zhao, “Pooling scores of neighboring points for improved 3D point cloud segmentation,” in ICIP, 2019.
[209] R. Arandjelovic, P. Gronat, A. Torii, T. Pajdla, and J. Sivic, “NetVLAD: CNN architecture for weakly supervised place recognition,” in CVPR, 2016.
[210] F. Engelmann, T. Kontogianni, J. Schult, and B. Leibe, “Know what your neighbors do: 3D semantic segmentation of point clouds,” in ECCV, 2018.
[211] F. Engelmann, T. Kontogianni, and B. Leibe, “Dilated point convolutions: On the receptive field of point convolutions,” in ICRA, 2020.
[212] Q. Huang,W.Wang, and U. Neumann, “Recurrent slice networks for 3D segmentation of point clouds,” in CVPR, 2018.
[213] F. Engelmann, T. Kontogianni, A. Hermans, and B. Leibe, “Exploring spatial context for 3D semantic segmentation of point clouds,” in ICCV, 2017.
[214] L. Landrieu and M. Boussaha, “Point cloud oversegmentation with graph-structured deep metric learning,” in CVPR, 2019.
[215] L. Wang, Y. Huang, Y. Hou, S. Zhang, and J. Shan, “Graph attention convolution for point cloud semantic segmentation,” in CVPR, 2019.
[216] L. Pan, C.-M. Chew, and G. H. Lee, “Pointatrousgraph: Deep hierarchical encoder-decoder with atrous convolution for point clouds,” arXiv preprint arXiv:1907.09798, 2019.
[217] Z. Liang, M. Yang, L. Deng, C. Wang, and B. Wang, “Hierarchical depthwise graph convolutional neural network for 3D semantic segmentation of point clouds,” in ICRA, 2019.
[218] L. Jiang, H. Zhao, S. Liu, X. Shen, C.-W. Fu, and J. Jia, “Hierarchical point-edge interaction network for point cloud semantic segmentation,” in ICCV, 2019.
[219] H. Lei, N. Akhtar, and A. Mian, “Spherical convolutional neural network for 3D point clouds,” arXiv preprint arXiv:1805.07872, 2018.
[220] Z. Zhao, M. Liu, and K. Ramani, “DAR-Net: Dynamic aggregation network for semantic scene segmentation,” arXiv preprint arXiv:1907.12022, 2019.
[221] F. Liu, S. Li, L. Zhang, C. Zhou, R. Ye, Y. Wang, and J. Lu, “3DCNN-DQN-RNN: A deep reinforcement learning framework for semantic parsing of large-scale 3D point clouds,” in ICCV, 2017.
[222] Z. Kang and N. Li, “PyramNet: Point cloud pyramid attention network and graph embedding module for classification and segmentation,” in ICONIP, 2019.
[223] Y. Ma, Y. Guo, H. Liu, Y. Lei, and G. Wen, “Global context reasoning for semantic segmentation of 3D point clouds,” in WACV, 2020.
[224] J. Wei, G. Lin, K.-H. Yap, T.-Y. Hung, and L. Xie, “Multi-path region mining for weakly supervised 3D semantic segmentation on point clouds,” in CVPR, 2020.
[225] X. Xu and G. H. Lee, “Weakly supervised semantic point cloud segmentation: Towards 10x fewer labels,” in CVPR, 2020, pp. 13 706–13 715.
[226] J. Hou, A. Dai, and M. Nießner, “3D-SIS: 3D semantic instance segmentation of RGB-D scans,” in CVPR, 2019.
[227] L. Yi, W. Zhao, H. Wang, M. Sung, and L. J. Guibas, “GSPN: Generative shape proposal network for 3D instance segmentation in point cloud,” in CVPR, 2019.
[228] G. Narita, T. Seno, T. Ishikawa, and Y. Kaji, “PanopticFusion: Online volumetric semantic mapping at the level of stuff and things,” in IROS, 2019.
[229] B. Yang, J. Wang, R. Clark, Q. Hu, S. Wang, A. Markham, and N. Trigoni, “Learning object bounding boxes for 3D instance segmentation on point clouds,” in NeurIPS, 2019.
[230] F. Zhang, C. Guan, J. Fang, S. Bai, R. Yang, P. Torr, and V. Prisacariu, “Instance segmentation of lidar point clouds,” in ICRA, 2020.
[231] Y. Shi, A. X. Chang, Z. Wu, M. Savva, and K. Xu, “Hierarchy denoising recursive autoencoders for 3D scene layout prediction,” in CVPR, 2019.
[232] F. Engelmann, M. Bokeloh, A. Fathi, B. Leibe, and M. Nießner, “3d-mpa: Multi-proposal aggregation for 3d semantic instance segmentation,” in CVPR, 2020.
[233] W. Wang, R. Yu, Q. Huang, and U. Neumann, “SGPN: Similarity group proposal network for 3D point cloud instance segmentation,” in CVPR, 2018.
[234] X. Wang, S. Liu, X. Shen, C. Shen, and J. Jia, “Associatively segmenting instances and semantics in point clouds,” in CVPR, 2019.
[235] Q.-H. Pham, T. Nguyen, B.-S. Hua, G. Roig, and S.-K. Yeung, “JSIS3D: Joint semantic-instance segmentation of 3D point clouds
with multi-task pointwise networks and multi-value conditional random fields,” in CVPR, 2019.
[236] C. Elich, F. Engelmann, J. Schult, T. Kontogianni, and B. Leibe, “3D-BEVIS: Birds-eye-view instance segmentation,” in GCPR, 2019.
[237] C. Liu and Y. Furukawa, “MASC: Multi-scale affinity with sparse convolution for 3D instance segmentation,” arXiv preprint arXiv:1902.04478, 2019.
[238] Z. Liang, M. Yang, and C. Wang, “3D graph embedding learning with a structure-aware loss function for point cloud semantic instance segmentation,” arXiv preprint arXiv:1902.05247, 2019.
[239] L. Han, T. Zheng, L. Xu, and L. Fang, “Occuseg: Occupancyaware 3d instance segmentation,” in CVPR, 2020.
[240] L. Jiang, H. Zhao, S. Shi, S. Liu, C.-W. Fu, and J. Jia, “PointGroup: Dual-set point grouping for 3D instance segmentation,” in CVPR, 2020.
[241] K. Mo, S. Zhu, A. X. Chang, L. Yi, S. Tripathi, L. J. Guibas, and H. Su, “PartNet: A large-scale benchmark for fine-grained and hierarchical part-level 3D object understanding,” in CVPR, 2019.
[242] L. Zhao and W. Tao, “JSNet: Joint instance and semantic segmentation of 3D point clouds,” in AAAI, 2020.
[243] B. De Brabandere, D. Neven, and L. Van Gool, “Semantic instance segmentation with a discriminative loss function,” in CVPRW, 2017.
[244] S.-M. Hu, J.-X. Cai, and Y.-K. Lai, “Semantic labeling and instance segmentation of 3D point clouds using patch context analysis and multiscale processing,” IEEE TVCG, 2018.
[245] D. Comaniciu and P. Meer, “Mean shift: A robust approach toward feature space analysis,” IEEE TPAMI, 2002.
[246] J. Lahoud, B. Ghanem, M. Pollefeys, and M. R. Oswald, “3D instance segmentation via multi-task metric learning,” in ICCV, 2019.
[247] B. Zhang and P. Wonka, “Point cloud instance segmentation using probabilistic embeddings,” arXiv preprint arXiv:1912.00145, 2019.
[248] Z. Wang and F. Lu, “VoxSegNet: Volumetric CNNs for semantic part segmentation of 3D shapes,” IEEE TVCG, 2019.
[249] E. Kalogerakis, M. Averkiou, S. Maji, and S. Chaudhuri, “3D shape segmentation with projective convolutional networks,” in CVPR, 2017.
[250] L. Yi, H. Su, X. Guo, and L. J. Guibas, “SyncSpecCNN: Synchronized spectral CNN for 3D shape segmentation,” in CVPR, 2017.
[251] P.Wang, Y. Gan, P. Shui, F. Yu, Y. Zhang, S. Chen, and Z. Sun, “3D shape segmentation via shape fully convolutional networks,” Computers & Graphics, 2018.
[252] C. Zhu, K. Xu, S. Chaudhuri, L. Yi, L. Guibas, and H. Zhang, “CoSegNet: Deep co-segmentation of 3D shapes with group consistency loss,” arXiv preprint arXiv:1903.10297, 2019.
[253] Z. Chen, K. Yin, M. Fisher, S. Chaudhuri, and H. Zhang, “BAENET: Branched autoencoder for shape co-segmentation,” in ICCV, 2019.
[254] F. Yu, K. Liu, Y. Zhang, C. Zhu, and K. Xu, “PartNet: A recursive part decomposition network for fine-grained and hierarchical shape segmentation,” in CVPR, 2019.
[255] T. Luo, K. Mo, Z. Huang, J. Xu, S. Hu, L.Wang, and H. Su, “Learning to group: A bottom-up framework for 3D part discovery in unseen categories,” in ICLR, 2020.
[256] Z. Liu, H. Tang, Y. Lin, and S. Han, “Point-Voxel CNN for efficient 3D deep learning,” in NeurIPS, 2019.