文献阅读: Deep Learning for 3D Point Clouds: A Survey

文献: Deep Learning for 3D Point Clouds: A Survey

Guo Y, Wang H, Hu Q, et al. Deep learning for 3d point clouds: A survey[J]. IEEE transactions on pattern analysis and machine intelligence, 2020.

Abstract:

三个主要任务

3D形状分类(3D shape classification),3D目标检测和跟踪(3D object detection)以及3D点云分割(3D point cloud segmentation)

  1. Introduction:

    3D数据提供了丰富的几何、形状和比例信息

    与2D数据相比,3D数据能更好的理解环境

    3D数据通常的几种表示形式:depth images(深度图), point clouds(点云),meshes(网格), and volumetric grids(体素)

    point clouds 保留了三维空间中原始的几何信息,无需离散化

    **挑战:**the small scale of datasets , the high dimensionality and the unstructured nature of 3D point clouds

    the major contributions of this paper can be summarized as follows:

    • the first survey paper to cover deep learning methods for several important point cloud understanding tasks, including 3D shape classification, 3D object detection and tracking, and 3D point cloud segmentation.

    • specifically focus on deep learning methods for 3D point clouds rather than all types of 3D data.

    • This paper covers the most recent and advanced progresses(最新和最先进的进展) of deep learning on point clouds. Therefore, it porvides the readers with the state-of-the-art (最先进的,最高水平的) methods

    语义分割、实例分割和部件分割

    semantic segmentation, instance segmentation and part segmentation

  2. Background

    2.1 Datasets

    • For 3D shape classification :synthetic datasets(合成数据集)and real-world datasets
    • For 3D object detection and tracking : indoor scenes and outdoor urban scenes
    • For 3D point cloud segmentation :these datasets are acquired by different types of sensors

    2.2 Evaluation Metrics

    • For 3D shape classification : Overall Accuracy(OA) and mean class accuracy(mAcc)
    • For 3D object detection : Average Precision(AP)
    • For 3D point cloud segmentation : OA and mean Intersection over Union (mIoU) and mAcc
  3. 3D Shape classification

    这类的方法通常先学习 embedding of each point (每个点的嵌入),然后使用 aggregation method (聚合方法)从 whole point cloud (整个点云)中 extract a global shape embedding (提取全局形状嵌入) ,最终由几个全连接层来实现 classification (分类)

    基于对每个点进行 feature learning的方式,现有的 3D shape classification methods 可分为 projection-based networks (基于投影的网络)和 point-based networks (基于点的网络)。

    • Multi-view based methods (多视图的方法)
    • Volumetric-based Methods(体素的方法)
    • Point-based Methods

    根据用于每个点的特征学习的网络体系结构,该类别中的方法可分为逐点MLP法基于卷积的方法基于图的方法、基于分层数据结构的方法和其他典型方法。

    3.1 Pointwise MLP Methods

    ​ 这类方法使用多层感知器 MLP对各个点进行独立的建模,接着使用对称的函数来集成到全局特征。

    ​ PointNet

    ​ PointNet++

    ​ 以及其他基于PointNet开发的网络

    3.2 Convolution-based Methods

    ​ 根据卷积核的类型,三维卷积方法可以分为连续卷积方法(continuous convolution networks )和离散卷积方法(discrete convolution networks)。

    3.2.1 3D Continuous Convolution Networks

    3D卷积可以解释为给定子集上的加权和

    ​ MLP是学习权重的一种简单方法。作为RS-CNN[35]的核心层,RS-Conv将某个点周围的局部子集作为其输入,使用MLP的方法来进行卷积,学习低维关系到高维关系的映射。

    一些方法还使用现有算法来执行卷积。

    ​ 在PointConv[38]中,卷积被定义为对重要性采样的连续3D卷积的蒙特卡洛估计。卷积核由加权函数(由MLP层学到)和密度函数(由核密度估计和MLP层学到)组成。为了提升内存和计算效率,3D卷积被简化成两部分:矩阵乘法和2D卷积,在相同的参数设置下,内存消耗可减小64倍。

    3.2.2 3D Discrete Convolution Networks

    ​ 这类方法在标准的网格上定义卷积核,其中的邻居点的权重是其关于中心点的补偿(offset)

    3.3 Graph-based Methods

    基于图的网络将点云中的每个点视为图的顶点,并基于每个点的邻居为图生成有向边。然后在空间域谱域中执行特征学习[58]

    • Graph-based Methods in Spatial Domain 空域

      卷积通过在空间邻域内的MLP实现,池化操作通过集成信息产生新的较粗的图。

    • Graph-based Methods in Spectral Domain 谱域

      这些方法将卷积定义为谱的滤波,将其实现为图上的信号与图的拉普拉斯矩阵的特征向量的乘法。

    3.4 Hierarchical Data Structure-based Methods 基于分层数据结构的方法

    ​ 略

    3.5 Other Networks

    ​ 略

  4. 3D Object detection and tracking

    (后期补充)

  5. 3D Point cloud segmentation

    3D点云分割需要理解全局几何结构和每个点的细粒度细节。

    根据分类粒度,三维点云分割方法可以分为三类:语义分割(场景级)(semantic segmentation)、实例分割(对象级)(instance segmentation)和部件分割(部件级)(part segmentation)

    5.1 3D Semantic Segmentation

    给定一个点云,语义分割的目标是,根据语义信息,将各个点分成一定的子集。主要分为:基于投影的方法和基于离散化、基于点的和混合的方法。

    5.1.1 Projection-based Methods 基于投影的方法

    • Multi-view Representation 多视图表示
    • Spherical Representation 球面表示

    5.1.2 Discretization-based Methods 基于离散的方法

    ​ 分为密集离散化和稀疏离散化。其他略

    5.1.3 Hybrid Methods 混合方法

    5.1.4 (重点)Point-based Methods 基于点的方法

    PointNet网络是整个点特征学习的先驱,后面的网络结构均是在此基础上改进而来

    PointNet提出使用共享的MLP来学习每个点的特征,并使用max pooling函数学习全局特征。

    这类方法可大致分为以下几类:基于各个点的MLP方法(pointwise MLP method),基于点卷积的方法(point convolution methods),基于RNN的方法(RNN-based methods)和基于图的方法(graph-based methods)。

    4.1.4.1 Pointwise MLP Methods

    共享MLP作为网络的基本单元,缺点无法捕获局部特征和点与点的相互作用。从而引入了几个专用网络,基于邻域特征池化基于注意力的汇聚局部全局特征连接的方法

    **Neighboring feature pooling :**PointNet++ 未来客服点云的不均匀性和密度变化带来的问题,还提出了多尺度分组和多分辨率分组的策略。

    ​ PointSIFT模块来实现方向的编码和scale awareness。

    ​ K均值聚类和KNN分别定义了空域和特征域两个邻域[204]。基于来自同一类的点在特征空间中更接近的假设,引入成对距离损失和质心损失来进一步正则化特征学习。

    Attention-based aggregation : 为提高分割的准确率,提出注意力的机制。

    [56]提出group shuffle attention来模拟点之间的关系,并提出Gumbel Subset Sampling(GSS)来代替FPS方法。

    Local-global concatenation :

    4.1.4.2 Point Convolution Methods

    这类方法通常试图提出在点云上进行更有效的卷积操作

    4.1.4.3 RNN-based Methods :

    4.1.4.4 Graph-based Methods :

    使用图神经网络(Graph NETWORKS)

    [203]将点云表示为一组互连的简单形状和重叠点,并使用属性有向图(即重叠点图)来捕捉结构和上下文信息。然后,将大规模点云分割问题分解为三个子问题,即几何均匀分割、超点嵌入和上下文分割。

    [214]提出了一个有监督的框架来将点云过度分割成纯粹的超点

    为了更好地捕捉高维空间中的局部几何关系,康等人[222]提出了一种基于图形嵌入模块(GEM)和金字塔注意网络(PAN)的金字塔方法。

    在[184]中,提出Graph Attention Convolution 用来从局部相邻集合中有选择性地学习相关特征。

    GEM模块将点云表示为有向无环图,并利用协方差矩阵代替欧氏距离来构造相邻相似矩阵。在PAN模块中使用四种不同大小的卷积核提取不同语义强度的特征。在[215]中,提出了图形注意卷积(GAC)来选择性地从局部邻近集中学习相关特征。

    5.2 Instance Segmentation

    相比于语义分割,实例分割更具有挑战性,因为需要对点进行更精确和更细粒度的推理。不仅需要区分语义不同的点,还要区分语义相同的实例

    (后期再补充)

    5.3 Part Segmentation

    (后期补充)

你可能感兴趣的:(文献阅读,3d,深度学习)