三维点云语义分割的一些方法与相关论文

三维点云语义分割的一些方法与相关论文

首先我们介绍一下三维深度学习在三维点云中的应用这样一篇综述性《Deep Learning for 3D Point Clouds: A Survey.》的论文,很好的概括了目前三维点云的处理方法,这里我们选择摘取其中关于语义分割的部分见后面

由此摘选出一些比较好的论文来阅读

一些未来准备看的论文

  • PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation point方法的开篇之作 pointnet
  • PointNet plus plus : Deep Hierarchical Feature Learning on Point Sets in a Metric Space pointnet++ pointnet的改进
  • RandLA-Net: Efficient Semantic Segmentation of Large-Scale Point Clouds (CVPR 2020) 大规模场景的语义分割
  • Attention Is All You Need (A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N.Gomez, Ł. Kaiser, and I. Polosukhin, “Attention is all you need,”in NeurIPS, 2017.)注意力机制的开篇文章

Deep Learning for 3D Point Clouds: A Survey.

综述类文章,讲了讲deep learning 在3维点云中的应用 注 中国人写英语真的容易看懂!

3D数据的表达方式 depth images, point clouds, meshes, and
volumetric grids

datasets:ModelNet [6], ScanObjectNN [7], ShapeNet [8], PartNet [9],S3DIS [10], ScanNet [11], Semantic3D [12], ApolloCar3D[13], and the KITTI Vision Benchmark Suite

problems: 3D shape classification, 3D object detection and tracking, 3D point cloud segmentation,3D point cloud registration, 6-DOF pose estimation, and 3D reconstruction

三维点云语义分割的一些方法与相关论文_第1张图片

针对毕设任务的三维点云分割如图

三维点云语义分割的一些方法与相关论文_第2张图片针对3D point cloud segmentation

datasets: 不同的传感器:Mobile Laser Scanners (MLS) [15], [34], [36], Aerial Laser Scanners (ALS) [33], [38], static Terrestrial Laser Scanners (TLS) [12], RGBD cameras [11] and other 3D scanners

数据集合集:

激光雷达

  • SemanticKITTI J. Behley, M. Garbade, A. Milioto, J. Quenzel, S. Behnke, C. Stachniss, and J. Gall, “SemanticKITTI: A dataset for semantic scene
    understanding of lidar sequences,” in ICCV, 2019
  • A. Serna, B. Marcotegui, F. Goulette, and J.-E. Deschaud, “Parisrue-madame database: a 3D mobile laser scanner dataset for benchmarking urban detection, segmentation and classification
    methods,” in ICRA, 2014.
  • X. Roynard, J.-E. Deschaud, and F. Goulette, “Paris-lille-3d: A
    large and high-quality ground-truth urban point cloud dataset
    for automatic segmentation and classification,” IJRR, 2018.

RGB-D

  • A. Dai, A. X. Chang, M. Savva, M. Halber, T. Funkhouser, and
    M. Nießner, “ScanNet: Richly-annotated 3D reconstructions of
    indoor scenes,” in CVPR, 2017.

challenges : distractors, shape incompleteness, and class imbalance.

Evaluation Metrics: Overall Accuracy (OA), mean Intersection over Union (mIoU) and mean class Accuracy (mAcc) mean Average Precision (mAP)

语义分割有四种模式: projection-based基于投影的, discretizationbased,基于离散化的 point-based给予点的, and hybrid methods混合的.

3D point cloud segmentation requires the understanding of both the global geometric structure and the fine-grained details of each point

问题的分类: semantic segmentation (scene level),instance segmentation (object level) and part segmentation (part level).

投影projection和离散化discretization-based methods 首先要做的是把输入的点云转化为正则表达( transform a point cloud to an intermediate regular representation,)

如multi-view [181],[182], spherical [183], [184], [185], volumetric [166], [186],[187], permutohedral lattice [188], [189], and hybrid representations [190], [191],

然后我们在正则化的形式上进行语义分割等操作,得到结果后我们在反推会原来的点云得到结果(The intermediate segmentation results are then projected back to the raw point cloud.)

与此不同的是,基于点的方法直接在无规则的点云上进行操作

三维点云语义分割的一些方法与相关论文_第3张图片

这张图显示了各个方法的发展

5.1.1 基于投影的方法

Multi-view Representation 多视角方法 核心思想是将3D的点云投影到多个2D视角,然后利用multi-stream FCN结构来预测 pixel-wise scores像素级分数,最终通过融合各个不同视角上的分数(投票方法)来得出最终的结论。(单纯从点云投影到2维)

A. Boulch, B. Le Saux, and N. Audebert, “Unstructured point
cloud semantic labeling using deep segmentation networks.” in
3DOR, 2017.

首先使用多个相机位置生成点云的几个RGB和深度快照。 然后,他们使用 2D 分割网络对这些快照进行逐像素标记。 使用残差校正进一步融合从 RGB 和深度图像预测的分数。

将点云从三维投影到RGB-D图像上

基于点云是从局部欧几里得表面采样的假设,Tatarchenko 等人。 引入了用于密集点云分割的切线卷积。 该方法首先将每个点周围的局部表面几何投影到虚拟切平面。 然后直接在表面几何上操作切线卷积。 这种方法显示出很好的可扩展性,能够处理具有数百万个点的大规模点云。

局限性:多视图分割方法的性能对视点选择和遮挡很敏感。 此外,这些方法还没有充分利用底层的几何和结构信息,因为投影步骤不可避免地会引入信息丢失

Spherical Representation球面表示

To achieve fast and accurate segmentation of 3D point clouds, Wu et al. [183] proposed an end-to-end network based on SqueezeNet [194] and Conditional Random Field (CRF).

在其中准确性上的改进 SqueezeSegV2 address domain shift by utilizing an unsupervised domain adaptation pipeline. 利用无监督的域适应来解决域转移

RangeNet++ 用于 LiDAR 点云的实时语义分割。
2D 范围图像的语义标签首先转移到 3D 点云,进一步使用基于 GPU 的高效 KNN 后处理步骤来缓解离散化错误和模糊推理输出的问题。 与单视图投影相比,球面投影保留了更多的信息,适用于激光雷达点云的标注。

存在的问题:离散化错误及偶然误差较大

5.1.2 基于离散化的方法

这些方法通常将点云转换为密集/稀疏的离散表示,例如体积和稀疏排列的格子。(这种想法跟我的想法重复了)

密度离散化表示。 早期的方法通常将点云体素化为密度网格,然后利用标准的 3D 卷积。

首先将点云划分为一组占用体素,然后将这些中间数据馈送到全 3D CNN 以进行体素分割。 这一段理解一下 是将点云转化为体素,然后进行语义分割。最后,体素内的所有点都被分配与体素相同的语义标签。这种方法的性能受到体素粒度和点云分区引起的边界伪影的严重限制。

J. Huang and S. You, “Point cloud labeling using 3D convolutional neural network,” in ICPR, 2016.

SEGCloud 实现细粒度、全局一致的语义分割。 该方法引入了确定性三线性插值,将 3D-FCNN [197] 生成的粗体素预测映射回点云,然后使用全连接 CRF (FCCRF) 来强制这些推断的每点标签的空间一致性。

引入了一种基于内核的内插变分自编码器架构来对每个体素内的局部几何结构进行编码。 代替二进制占用表示,对每个体素采用 RBF 以获得连续表示并捕获每个体素中点的分布。 VAE 进一步用于将每个体素内的点分布映射到紧凑的潜在空间。 然后,对称群和等价 CNN 都用于实现稳健的特征学习。(基于核方法,我完全没看懂)

H.-Y. Meng, L. Gao, Y.-K. Lai, and D. Manocha, “VV-Net: Voxel
vae net with group convolutions for point cloud segmentation,”
in ICCV, 2019

由于 3D CNN 良好的可扩展性,基于体积的网络可以自由地在具有不同空间大小的点云上进行训练和测试。 在全卷积点网络 (FCPN) [187] 中,首先从点云中分层抽象出不同级别的几何关系,然后使用 3D 卷积和加权平均池化来提取特征并合并远程依赖关系。 该方法可以处理大规模点云,并且在推理过程中具有良好的可扩展性。

ScanComplete 实现 3D 扫描完成和每体素语义标记。 该方法利用了全卷积神经网络的可扩展性,可以在训练和测试期间适应不同的输入数据大小。 使用从粗到细的策略来分层提高预测结果的分辨率。

总体而言,体素(volumetric representation)表示自然地保留了 3D 点云的邻域结构。 其常规数据格式还允许直接应用标准 3D 卷积。 这些因素导致该领域的性能稳步提高。 然而,体素化步骤固有地引入了离散化伪影和信息丢失。 通常,高分辨率会导致高内存和计算成本,而低分辨率会导致细节丢失。 在实践中选择合适的网格分辨率并非易事。

Sparse Discretization Representation稀疏离散化表示

体积表示自然是稀疏的,因为非零值的数量只占很小的百分比。 因此,在空间稀疏的数据上应用密集卷积神经网络是低效的为此,提出了基于索引结构的子流形稀疏卷积网络。 该方法通过将卷积的输出限制为仅与占用的体素相关,从而显着降低了内存和计算成本。**(这就是我所想的稀疏矩阵的卷积神经网络)**这种子流形稀疏卷积适用于高维和空间稀疏数据的高效处理。

此外,Choy 等人提出了一种名为 MinkowskiNet 的 4D 时空卷积神经网络,用于 3D 视频感知。 提出了一种广义稀疏卷积来有效处理高维数据。 进一步应用三边平稳条件随机场以加强一致性。

另一方面,Su 等人。 [188] 提出了基于双边卷积层(BCL)的稀疏格网络(SPLATNet)。 该方法首先将原始点云内插到一个 permutohedral 稀疏点阵,然后应用 BCL 对稀疏填充点阵的占用部分进行卷积。 然后将过滤后的输出插回到原始点云。 此外,该方法允许多视图图像和点云的灵活联合处理。
此外,罗苏等人。 [189] 提出了 LatticeNet 来实现对大型点云的高效处理。 还引入了一个名为 DeformsSlice 的依赖于数据的插值模块,用于将点阵特征反投影到点云。(有时间看一看,完全没看懂)

5.1.3 混合方法

为了进一步利用所有可用信息,已经提出了几种方法来从 3D 扫描中学习多模态特征。 Dai 和 Nießner [190] 提出了一个联合 3D 多视图网络来结合 RGB 特征和几何特征。 一个 3D CNN 流和几个 2D 流用于提取特征,并提出了一个可微的反投影层来联合融合学习到的 2D 嵌入和 3D 几何特征。 此外,蒋等人。 [200] 提出了一个统一的基于点的框架来从点云中学习 2D 纹理外观、3D 结构和全局上下文特征。 该方法直接应用基于点的网络从稀疏采样的点集中提取局部几何特征和全局上下文,无需任何体素化。 贾里茨等人。 [191] 提出了多视图点网络(MVPNet)来聚合来自 2D 多视图图像的外观特征和规范点云空间中的空间几何特征。(这一段没有仔细看)

5.1.4 Point-based Methods 基于点云的方法 重点来了

基于点的网络直接作用于不规则的点云。 然而,点云是无序和非结构化的,直接应用标准 CNN 是不可行的。
为此,提出了开创性工作 PointNet 使用共享 MLP 学习每点特征,使用对称池化函数学习全局特征。 基于PointNet,最近提出了一系列基于点的网络。 总的来说,这些方法大致可以分为pointwise MLP方法、点卷积方法、RNNbased方法和graph-based方法。

Pointnet 开创性的工作

Pointwise MLP Methods. 逐点 MLP 方法。

通常使用共享 MLP 作为其网络中的基本单元,以提高效率。 然而,共享 MLP 提取的逐点特征无法捕获点云中的局部几何形状以及点之间的相互交互 。 为了捕捉每个点的更广泛的上下文并学习更丰富的局部结构,已经引入了几个专用网络,

包括基于相邻特征池、基于注意力的聚合和局部-全局特征连接的方法

neighboring feature pooling, attentionbased aggregation, and local-global feature concatenation.

三维点云语义分割的一些方法与相关论文_第4张图片

Neighboring feature pooling:

为了捕捉局部几何图案,这些方法通过聚合来自局部相邻点的信息来学习每个点的特征。 特别是,PointNet++ [54] 对点进行分层分组,并从较大的局部区域逐步学习,如图 12(a)所示。还提出了多尺度分组和多分辨率分组来克服点云不均匀和密度变化引起的问题。

后来,蒋等人。 [141] 提出了一个 PointSIFT 模块来实现方向编码和尺度感知。 该模块通过三级有序卷积堆叠和编码来自八个空间方向的信息。

串联多尺度特征以实现对不同尺度的适应性。 与 PointNet++ 中使用的分组技术(即球查询)不同,Engelmann 等人。 [204]利用K-means聚类和KNN分别定义世界空间和特征空间中的两个邻域。基于来自同一类的点预计在特征空间中更接近的假设,引入成对距离损失和质心损失以进一步规范特征学习。

考虑相互点之间的作用关系, PointWeb 通过密集构建局部全链接网络来探索局部区域中所有点对之间的关系。 点对的概念。提出了一种自适应特征调整Adaptive Feature Adjustment (AFA)模块来实现信息交换和特征细化。此聚合操作有助于网络学习区分性特征表示

Zhang等人[205]基于同心球壳(concentric spherical shells. )的统计数据,提出了一种称为Shellconv的置换不变卷积。该方法首先查询一组多尺度同心球体,然后在不同的壳内使用最大池运算来汇总统计信息,然后使用MLP和一维卷积来获得最终的卷积输出。

提出了一种称为 RandLA-Net 的高效轻量级网络,用于大规模点云分割。 该网络利用随机点采样在内存和计算方面实现了非常高的效率。
进一步提出了一个局部特征聚合模块来捕获和保留几何特征

Attention-based aggregation:基于注意力聚合的方法:

为了进一步提高分割精度,在点云分割中引入了注意力机制

A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N.
Gomez, Ł. Kaiser, and I. Polosukhin, “Attention is all you need,”
in NeurIPS, 2017. 文章听起来有点意思

Yang等人[56]提出了一种群体洗牌注意模型来模拟点之间的关系,并提出了一种置换不变、任务不可知和可微的Gumbel子集抽样(GSS)permutation-invariant, task-agnostic and differentiable Gumbel Subset Sampling (GSS),以取代广泛使用的FPS方法。该模块对异常值不太敏感,可以选择具有代表性的点子集。
为了更好地捕捉点云的空间分布,提出了一种局部空间感知 Local Spatial Aware (LSA)层,用于根据点云的空间布局和局部结构学习空间感知权重。与CRF类似,Zhao等人[208]提出了一个基于注意的分数细化(ASR)模块,用于对网络产生的分割结果进行后处理。初始分割结果通过将相邻点的分数与学习到的注意权重相结合来细化。该模块可以很容易地集成到现有的深度网络中,以提高分段性能。

局部-全局信息共同处理Local-global concatenation:

Zhao等人提出了一种置换不变PS2网络,以结合点云的局部结构和全局上下文。Edgeconv和NetVLAD被反复叠加,以捕获局部信息和场景级全局特征。

Point Convolution Methods点卷积法。

这些方法倾向于为点云提出有效的卷积算子。
Hua等人[76]提出了一种逐点卷积算子,将相邻点合并到核单元中,然后与核权重进行卷积。如图12(b)所示,

Wang等人提出了一种基于参数连续卷积层的PCCN网络。该网络的核函数参数由MLP来决定,跨越整个连续的向量空间

Thomas等人提出了一种基于核点卷积(KPConv)的核点全卷积网络 Kernel Point Fully Convolutional Network(KP-FCNN)。具体地说,KPConv的卷积权重由到核点的欧几里德距离确定,并且核点的数目不是固定的。将核点的位置转化为为球面空间中最佳覆盖的优化问题。注意,半径邻域用于保持一致的感受野,而网格子采样用于每层,以在不同密度的点云下实现高鲁棒性。

在[211]中,Engelmann等人提供了丰富的消融实验 ablation experiments和可视化结果,以显示感受野对基于聚集的方法性能的影响。他们还提出了一种扩展点卷积(DPC)操作来聚合扩展的相邻特征,而不是K个最近邻。该操作被证明在增加感受野方面非常有效,并且可以很容易地集成到现有的基于聚合的网络中

注 消融实验 笔者第一次见到消融实验(Ablation experiment)这个概念是在论文《Faster R-CNN》中。
消融实验类似于“控制变量法”。
假设在某目标检测系统中,使用了A,B,C,取得了不错的效果,但是这个时候你并不知道这不错的效果是由于A,B,C中哪一个起的作用,于是你保留A,B,移除C进行实验来看一下C在整个系统中所起的作用。
————————————————
版权声明:本文为CSDN博主「房东丢的猫」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/gaolijing_/article/details/105626733

RNN方法

To capture inherent context features from point clouds, Recurrent Neural Networks (RNN)have also been used for semantic segmentation of point clouds.

基于pointnet的方法,Engelmann等人[213]首先将点块转换为多尺度块和网格块,以获得输入级上下文。然后,将PointNet提取的分块特征依次输入合并单元(CU)或循环合并单元(RCU),以获得输出级上下文。实验结果表明,结合空间上下文对于提高分割性能是非常重要的。

Huang等人[212]提出了一个轻量级局部依赖建模模块,并利用切片池层将无序的点特征集转换为有序的特征向量序列。如图12(c)所示,Ye等人[202]首先提出了一个逐点金字塔池(3P)模块来捕获从粗到细的局部结构,然后利用双向分层RNN进一步获得长距离空间依赖性。然后应用RNN实现端到端学习。然而,当将局部邻域特征与全局结构特征聚合时,这些方法失去了点云丰富的几何特征和密度分布[220]。

为了缓解刚性和静态池操作所带来的问题,赵等人提出了一种动态聚合网络(DARNET),以兼顾全局场景复杂性和局部几何特征。使用自适应接收场和节点权重动态聚合媒体间特征。

Liu等人[221]提出了3DCNN-DQN-RNN,用于大规模点云的有效语义解析。该网络首先使用3D CNN网络学习空间分布和颜色特征,然后使用DQN定位属于特定类别的对象。最后将拼接后的特征向量送入残差RNN中,得到最终的分割结果

你可能感兴趣的:(毕业设计三维点云,计算机视觉,深度学习,机器学习)