[论文简述+翻译]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space

论文简述:

  1. 第一作者:Charles R. Qi

  1. 发表年份:2017

  1. 发表期刊:Advances in Neural Information Processing Systems

  1. 探索动机:Pointnet不会得到度量空间点的局部结构。

  1. 工作目标:Pointnet++的设计需要解决两个问题:如何生成点集的划分,以及如何通过局部特征学习器提取出点集的特征或者局部的特征

  1. 核心思想:提出了set abstraction的分层结构,通过分层的局部特征学习器,沿着层次结构逐步抽象出更大局部区域的特征;提出了密度自适应的Pointnet层,实现了非均匀采样密度下的鲁棒特征学习;对于分割任务,采用基于距离插值和跨层跳跃链接(如图2所示)的分层传播策略,来实现点特征的传播

  1. 实现方法:1、set abstraction层由三个关键层构成:采样层、分组层和点网络层。采样层从输入点中选取一组点,定义了局部区域的质心。分组层通过寻找质心周围的"邻近"点来构建局部区域集。Pointnet层使用mini-Pointnet将局部区域的图案编码为特征向量。2、密度自适应的Pointnet层,当输入的采样密度变化时,可以学习合并来自不同尺度区域的特征。每个提取层提取多个尺度的局部图案,并根据局部点密度智能地组合它们。有两种结合方式:MSG和MRG。其中MRG在计算上更有效。

  1. 实验结果:Pointnet++递归地对输入点集进行嵌套划分,并有效地学习关于距离度量的层次特征。为了处理非均匀点采样问题,我们提出了两个新的set abstraction层,根据局部点密度智能聚合多尺度信息。这些贡献使我们能够在具有挑战性的3D点云基准上实现最先进的性能。

  1. 论文下载:https://proceedings.neurips.cc/paper/2017/hash/d8bf84be3800d12f74d8b05e9b89836f-Abstract.html

  1. 代码下载:https://github.com/erikwijmans/Pointnet2_PyTorch

论文翻译:

PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space

摘要:

已有工作很少研究点集深度学习。Pointnet[ 20 ]是该方向的先驱。然而,通过设计,Pointnet无法得到度量空间点所在的局部结构,限制了其识别细粒图片的能力和对复杂场景的泛化能力。在这项工作中,我们引入了一个分层神经网络,该网络在输入点集的嵌套划分上递归地应用点Pointnet。通过利用度量空间距离,我们的网络能够随着上下文规模的增加学习局部特征。进一步观察到点集通常以不同的密度进行采样,这导致在均匀密度上训练的网络性能大大降低,我们提出了新的点集学习层来自适应地组合来自多个尺度的特征。实验表明,我们的网络PointNet + +能够高效、鲁棒地学习深度点集特征。特别地,在具有挑战性的3D点云基准上获得了显著优于当前最先进的结果。

1. 引言

我们感兴趣的是分析几何点集,它是欧氏空间中点的集合。一种特别重要的几何点集类型是由三维扫描仪捕获的点云,例如来自配有自动驾驶的车辆。作为一个集合,这样的数据必须对其成员的排列具有不变性。此外,距离度量定义了可能显示不同属性的局部邻域。例如,不同位置的点的密度和其他属性可能并不均匀-在3D扫描中,密度变化可能来自透视效果、径向密度变化、运动等。

以前的工作很少研究点集上的深度学习。Pointnet[ 20 ]是一个直接处理点集的开创性工作。Pointnet的基本思想是学习每个点的空间编码,然后将所有单独的点特征聚合为一个全局点云的标签。根据其设计,Pointnet不会得到度量空间点的局部结构。然而,利用局部结构已被证明对卷积架构的成功非常重要。CNN将定义在规则网格上的数据作为输入,并能够沿着多分辨率层次结构在越来越大的尺度上逐步捕获特征。在较低水平的神经元有较小的感受野,而在较高水平的神经元有较大的感受野。沿着层次结构抽象局部图案的能力使得在一些看不见的情况下有更好的泛化能力。

我们引入一个分层神经网络,命名为Pointnet++,该网络,在度量空间中以分层的方式处理采样到的一组点。Pointnet++总体思路简单。我们首先通过底层空间的距离度量将点集划分为重叠的局部区域。与CNN相似,我们从小的社区中提取捕获精细几何结构的局部特征;这样的局部特征被进一步分组为更大的单元并进行处理以产生更高层次的特征。这个过程不断重复,直到得到整个点集的特征。

Pointnet++的设计需要解决两个问题:如何生成点集的划分,以及如何通过局部特征学习器提取出点集的特征或者局部的特征。这两个问题是相关的,因为点集的划分必须产生跨分区的公共结构,以便共享局部特征学习器的权重,就像在卷积设置中一样。我们选择我们的局部特征学习器为Pointnet。正如在该工作中所展示的那样,Pointnet是一个有效的体系结构来处理用于语义特征提取的无序点集。此外,该架构对输入数据损坏具有鲁棒性。作为一个基本的构建模块,Pointnet将局部点或特征的集合抽象成更高层的表示。在这个观点下,Pointnet++递归地在输入集的嵌套分区上应用Pointnet。

一个仍然存在的问题是如何生成点集的重叠划分。每个分区被定义为底层欧氏空间中的一个邻域球,其参数包括质心位置和范围。为了均匀地覆盖整个集合,通过最远点采样( FPS )算法在输入点集中选择质心。与以固定步长扫描空间的体积CNN相比,我们的局部感受野同时依赖于输入数据和度量标准,因此更加高效和有效。

[论文简述+翻译]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space_第1张图片

然而,由于特征尺度的纠缠性和输入点集的非均匀性,确定局部邻域球的合适大小是一个更具挑战性但又有趣的问题。我们假设输入点集在不同区域可能具有可变密度,这在结构传感器扫描[ 18 ] (见图1)等实际数据中相当常见。因此,我们的输入点集与CNN输入非常不同,CNN输入可以看作是定义在均匀恒定密度的规则网格上的数据。在卷积神经网络中,与局部划分尺度相对应的是核的大小。文献[ 25 ]表明使用较小的核有助于提高CNNs的能力。然而,我们在点集数据上的实验却反证了这一规律。由于采样不足,小邻域可能由太少的点组成,这可能不足以让PointNets鲁棒地捕获图案。

本文的一个重要贡献是Pointnet++在多个尺度上利用邻域来实现鲁棒性和细节的捕获。在训练过程中随机丢包的辅助下,网络学习自适应地对不同尺度下检测到的图案进行加权,并根据输入数据组合多尺度上的特征。实验表明,我们的Pointnet++能够高效、鲁棒地处理点集。特别是,在具有挑战性的3D点云基准上获得了明显优于SOTA的结果。

2. 问题陈述

假设是一个离散度量空间,其度量继承自欧氏空间,其中为点集,d为距离度量。此外,M在环境欧氏空间中的密度可能并非处处均匀。我们感兴趣的是学习以这样的作为输入(以及每个点的附加特征)的集合函数f,并产生语义兴趣重排X的信息。在实际应用中,这样的f可以是给分配一个标签的分类函数,也可以是给M的每个成员分配一个标号的分割函数。

3. 方法

我们的工作可以看作是Pointnet[ 20 ]的扩展,增加了层次结构。我们首先回顾了Pointnet( 3.1节),然后介绍了具有层次结构的点网络的一个基本扩展( 3.2节)。最后,我们提出了我们的Pointnet++,即使在非均匀采样的点集中也能鲁棒地学习特征(第3.3节)。

[论文简述+翻译]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space_第2张图片

图2:以二维欧氏空间中的点为例,展示了我们的分层特征学习架构及其在集合分割和分类中的应用。这里将单尺度点分组可视化。关于密度自适应分组的细节,见图3

3.1 回顾Pointnet[ 20 ]:一个通用的连续集函数逼近器

给定一个无序点集,其中,可以定义一个集合函数将点集映射到向量:

其中通常是多层感知器( MLP )网络。

式1中的集合函数f对输入点置换是不变的,并且可以任意逼近任意连续的集合函数[ 20 ]。注意h的响应可以解释为点(详见文献[ 20 ])的空间编码。

Pointnet在几个基准测试集上取得了令人印象深刻的性能。然而,它缺乏在不同尺度下捕捉局部上下文的能力。为了解决这个问题,我们将在下一节介绍一个分层特征学习框架。

3.2分层点集特征学习

在点网络使用单个最大池化操作聚合整个点集的同时,我们的新架构构建了点的分层分组,并沿着层次结构逐步抽象出越来越大的局部区域。

我们的层次结构由若干个set abstraction层组成(图2 )。在每个层次上,对点集进行处理和提取,产生一个元素较少的新集合。set abstraction层由三个关键层构成:采样层、分组层和点网络层。采样层从输入点中选取一组点,定义了局部区域的质心。分组层通过寻找质心周围的"邻近"点来构建局部区域集。Pointnet层使用mini-Pointnet将局部区域图案编码为特征向量。

一个set abstraction层的输入为的矩阵,这个矩阵来自于N个具有d维坐标和C维点特征的点。它输出一个矩阵,该矩阵包含个具有d维坐标的下采样点和新的总结局部上下文的维特征向量。我们在下面的段落中介绍set abstraction中的三个层。

采样层:给定输入点,采用迭代最远点采样( FPS )选择点的子集,使得为集合中相对于其余点最远的点(在度量距离中)。与随机抽样相比,在给定相同数量质心的情况下,它对整个点集具有更好的覆盖性。与扫描数据分布不确定的向量空间的CNN不同,我们的采样策略以数据依赖的方式生成感受野。

分组层:该层输入为大小为的点集和大小为的一组质心的坐标。输出为一组大小为的点集,其中每组对应一个局部区域,K为质心点邻域内的点数。需要注意的是,K在不同的组之间是不同的,但后续的Pointnet层能够将灵活的点数转换为固定长度的局部区域特征向量。

在卷积神经网络中,一个像素的局部区域由在该像素的某个曼哈顿距离(内核大小)内具有数组索引的像素组成。在从度量空间采样的点集中,点的邻域由度量距离定义。

Ball query找到距离查询点(在实现中设置了K的上限)一个半径内的所有点。另一种范围查询是K近邻( kNN )搜索,即寻找固定数量的近邻点。与kNN相比,Ball query的局部邻域保证了固定的区域尺度,从而使得局部区域特征在空间上更具有泛化性,这对于需要局部模式识别(例如语义点标记)的任务更有优势。

Pointnet层:在该层中,输入为个点的局部区域,数据大小为。输出中的每个局部区域由其质心和编码质心邻域的局部特征抽象出来。输出数据大小为

局部区域内点的坐标首先转化为相对于质心点的局部框:其中其中( 为质心坐标。我们使用Pointnet中3.1节描述的作为局部模式学习的基本构建模块。通过使用相对坐标和点特征可以捕获局部区域中的点对点关系。

3.3 非均匀采样密度下的鲁棒特征学习

如前所述,点集在不同区域具有非均匀密度是很常见的。这种不均匀性给点集特征学习带来了重大挑战。在稠密数据中学习到的特征可能无法泛化到稀疏采样区域。因此,针对稀疏点云训练的模型可能无法识别精细化的局部结构。

[论文简述+翻译]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space_第3张图片

图3:( a )多尺度分组( MSG );( b )多分辨率分组( MRG )。

理想情况下,我们希望尽可能紧密地检查到一个点集,以捕获密集采样区域中最精细的细节。但在低密度地区,这种近距离检查是被禁止的,因为局部模式可能会因为采样不足而被破坏。在这种情况下,我们应该在更大的邻域内寻找更大尺度的模式。为了实现这一目标,我们提出了密度自适应的Pointnet层(图3 ),当输入的采样密度变化时,可以学习合并来自不同尺度区域的特征。我们将具有密度自适应点网络层的分层网络称为Pointnet++。

在之前的3.2节中,每个提取层包含单个尺度的分组和特征提取。在Pointnet++中,每个提取层提取多个尺度的局部图案,并根据局部点密度智能地组合它们。在对局部区域进行分组并结合不同尺度的特征方面,我们提出了以下两种类型的密度自适应层。

多尺度分组( MSG ):如图3 ( a )所示,捕获多尺度图案的一个简单而有效的方法是应用不同尺度的分组层,然后根据Pointnets提取每个尺度的特征。将不同尺度下的特征串联起来形成多尺度特征。

我们训练网络学习一个优化的策略来结合多尺度特征。这是通过对每个实例以随机概率随机丢弃输入点来完成的,我们称之为随机输入丢弃。具体来说,对于每个训练点集,我们选择从中均匀采样的一个dropout比率,其中p 1。对于每一个点,我们以概率随机丢弃一个点。在实际应用中,为避免产生空点集,取p = 0.95。为此,我们提出了具有不同稀疏度(由诱发)和不同均匀性( dropout中随机性引起的)的训练集的网络。在测试过程中,我们保留了所有可用的点。

多分辨率分组( MRG ):上面的MSG方法在计算上很昂贵,因为它在每个质心点的大规模邻域运行本地Pointnets。特别地,由于在最底层时,质心点的数量通常相当大,因此时间成本很大。

在这里,我们提出了一种替代方法,避免了如此昂贵的计算,但仍然保留了根据点的分布特性自适应地聚合信息的能力。在图3 ( b )中,层在某个区域在上的特征是两个向量的串联。利用set abstraction层从低层的中汇总每个子区域的特征得到一个向量(图中左)。另一个向量(右)是通过使用单个点网络直接处理局部区域中的所有原始点获得的特征。

当局部区域的密度较低时,第一个向量可能比第二个向量更不可靠,因为计算第一个向量的子区域包含更稀疏的点,并且更容易受到采样不足的影响。在这种情况下,第二个向量的权重应该更高。另一方面,当一个局部区域的密度较高时,第一个向量提供了更精细的细节信息,因为它具有在较低层递归地检查较高分辨率的能力。

与MSG相比,这种方法在计算上更有效,因为我们避免了在最低层的大规模邻域中提取特征。

3.4用于点集分割的点特征传播

在set abstraction中,原始点集是下采样的。然而在集合分割任务中,如语义点标记,我们希望获得所有原始点的点特征。一种解决方法是在所有集合抽象层次中始终将所有点采样为形心,但这会导致高昂的计算开销。另一种方法是将特征从下采样点传播到原始点。

我们采用了基于距离插值和跨层跳跃链接(如图2所示)的分层传播策略。在一个特征传播层次中,将点特征从点传播到点,其中 ()分别为set abstraction层l的输入和输出的点集大小。我们通过在个点的坐标处插值 个点的特征值f来实现特征传播。在插值的众多选择中,我们采用基于k近邻的反距离加权平均(式中: 2 ,默认情况下取p = 2 , k = 3 )。然后将点上的插值特征与set abstraction层上的点特征通过跳跃连接的方式进行拼接。然后将拼接后的特征通过一个"单位Pointnet",类似于CNN中的逐个卷积。使用一些共享的全连接层和ReLU层更新每个点的特征向量。重复该过程,直到我们将特征传播到原始点集。

4. 实验

数据集我们从2D物体( MNIST [ 11 ] ),3D物体( ModelNet40 刚体, SHREC15 非刚体)到真实的3D场景( ScanNet [ 5 ] )四个数据集上进行评估。对象分类通过准确率进行评价。语义场景标注通过平均体素分类准确率进行评价[ 5 ]。下面列出每个数据集的实验设置:

· MNIST:60k个训练样本和10k个测试样本的手写体数字的图像。

. ModelNet40:40类CAD模型(多为人工制作)。我们使用9,843个形状的官方分割进行训练,2,468个用于测试。

. SHREC15:50类1200件。每个类别包含24个形状,这些形状大多是有机的,如马、猫等。我们在这个数据集上使用五倍的交叉验证来获得分类精度。

. ScanNet:扫描重建室内场景1513个。我们遵循文献[ 5 ]中的实验设置,使用1201个场景进行训练,312个场景进行测试。

[论文简述+翻译]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space_第4张图片
[论文简述+翻译]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space_第5张图片

图4:左:随机点丢失的点云。右:曲线显示了我们的密度自适应策略在处理非均匀密度时的优势。DP表示训练过程中的随机输入丢失;否则训练在均匀稠密点上。详见3.3节。

4.1欧氏度量空间中的点集分类

我们评估了我们的网络对从2D ( MNIST )和3D ( ModleNet40 )欧氏空间采样的点云进行分类。MNIST图像被转换为数字像素位置的二维点云。从ModelNet40形状的网格表面采样三维点云。默认情况下,MNIST使用512个点,ModelNet40使用1024个点。在表2的最后一行(ours normal),我们使用人脸正常作为额外的点特征,这里我们还使用了更多的点( N = 5000)来进一步提高性能。所有点集归一化为零均值且在单位球内。我们使用一个包含三个全连接层的三级层级网络。

结果:在表1和表2中,我们将我们的方法与一组具有代表性的SOTA进行比较。注意,表2中的点网络( vanilla )是文献[ 20 ]中没有使用变换网络的版本,相当于我们的分层网络只有一层。

首先,我们的分层学习架构取得了明显优于非分层点网络的性能[ 20 ]。在MNIST中,我们发现点网络( vanilla )和点网络比我们的方法分别降低了60.8 %和34.6 %的错误率。在ModelNet40分类中,我们也看到,使用相同的输入数据量( 1024个点)和特征(仅有坐标),我们的分类能力明显强于点网络。其次,我们观察到基于点集的方法甚至可以达到与成熟的图像卷积神经网络更好或相似的性能。在MNIST中,我们的方法(基于2D点集)在网络CNN中取得了接近网络的准确率。在ModelNet40中,我们使用正常信息的方法显著优于先前的SOTA方法MVCNN [ 26 ]。

对采样密度变化的鲁棒性:直接从现实世界获取的传感器数据通常会遇到严重的不规则采样问题(图1 )。我们的方法选择多个尺度的点邻域,并通过适当的加权学习来平衡描述性和鲁棒性。

我们在测试期间随机丢弃点(见图4左)来验证我们的网络对非均匀和稀疏数据的鲁棒性。在图4右边,我们看到MSG + DP (训练过程中随机输入丢失的多尺度分组)和MRG + DP (训练过程中存在随机输入丢失的多分辨率分组)对采样密度变化非常鲁棒。MSG + DP性能从1024个测试点下降到256个测试点,下降幅度小于1 %。此外,与备选方案相比,它在几乎所有的采样密度上都取得了最好的性能。Pointnet vanilla[ 20 ]由于其关注全局抽象而非精细细节,在密度变化下相当鲁棒。然而,与我们的方法相比,细节的损失也使它变得不那么强大。SSG (对Pointnet++进行逐级单尺度分组消融)无法泛化到稀疏采样密度,而SSG + DP通过在训练时间内随机丢弃点来修正该问题。

4.2点集分割用于语义场景标注

为了验证我们的方法适用于大规模点云分析,我们还评估了语义场景标注任务。目标是预测室内扫描中点的语义对象标签。文献[ 5 ]提供了在体素化扫描上使用全卷积神经网络的基线。它们完全依赖扫描几何而不是RGB信息,并以体素为单位报告精度。为了进行公平的比较,我们在所有的实验中去除RGB信息,并将点云标签预测转换为体素标记[ 5 ]。我们也与[ 20 ]进行了比较。在图5 (蓝色柱状图)中报告了基于体素的准确性。

[论文简述+翻译]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space_第6张图片

我们的方法在很大程度上优于所有的基线方法。与[ 5 ]在体素化扫描上学习相比,我们直接在点云上学习以避免额外的量化误差,并进行数据依赖采样以允许更有效的学习。与文献[ 20 ]相比,我们的方法引入了层次特征学习,捕获了不同尺度下的几何特征。这对于在多个层上理解场景和标注各种大小的物体非常重要。示例场景标注结果如图6所示。

对采样密度变化的鲁棒性

为了测试我们训练的模型在非均匀采样密度的扫描上的表现,我们合成了与图1相似的Scannet场景的虚拟扫描,并在这个数据上评估我们的网络。对于我们如何生成虚拟扫描,我们请读者参考补充材料。我们在三种设置( SSG、MSG + DP、MRG + DP)下评估我们的框架,并与基线方法[ 20 ]进行比较。

[论文简述+翻译]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space_第7张图片

图6:Scannet标记结果。[ 20 ]正确捕捉了房间的整体布局,却没有发现家具。相比之下,我们的方法在分割房间布局以外的对象方面要好得多。

性能比较如图5所示(黄色条)。我们看到,由于从均匀点云到虚拟扫描场景的采样密度偏移,SSG性能大幅下降。另一方面,MRG网络对采样密度偏移更加鲁棒,因为它能够在采样稀疏时自动切换到描述更粗粒度的特征。尽管训练数据(带有随机丢弃的均匀点)和密度不均匀的扫描数据之间存在域间隙,但我们的MSG网络仅受到轻微影响,并且在比较方法中达到了最佳精度。这些都证明了我们密度自适应层设计的有效性。

4.3 非欧氏度量空间中的点集分类

在本节中,我们展示了我们的方法对非欧氏空间的普适性。在非刚性形状分类(图7 )中,一个好的分类器应该能够将图7中的( a )和( c )正确分类为同一类别,即使它们在姿态上存在差异,这需要了解它们的内在结构。SHREC15中的形状是嵌入在3D空间中的2D曲面。沿曲面的测地距离自然地诱导出一个度量空间。我们通过实验表明,在这个度量空间中采用Pointnet++是捕获底层点集内在结构的有效方法。

对于[ 12 ]中的每一个形状,我们首先构造由成对测地距离诱导的度量空间。我们沿用文献[ 23 ],得到一个模拟测地距离的嵌入度量。接下来我们在这个度量空间中提取了本征点特征,包括WKS [ 1 ],HKS [ 27 ]和多尺度高斯曲率[ 16 ]。我们将这些特征作为输入,然后根据底层度量空间对点进行采样和分组。这样,我们的网络学习到不受形状特定姿态影响的多尺度内在结构。替代的设计选择包括使用XY Z坐标作为点特征或使用欧氏空间R3作为底层度量空间。下面我们说明这些都不是最优选择。

[论文简述+翻译]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space_第8张图片

图7:非刚性形状分类示例。

结果:本文方法与现有方法[ 14 ]的比较见表3。文献[ 14 ]提取测地矩作为形状特征,并使用堆叠稀疏自编码器来消化这些特征来预测形状类别。我们使用非欧度量空间和内在特征的方法在所有设置中都取得了最好的性能,并且大大优于[ 14 ]。

对比我们方法的第一个和第二个设置,我们看到内在特征对于非刚性形状分类非常重要。XY Z特征无法揭示内在结构,受姿态变化影响较大。比较我们的方法的第二个和第三个设置,我们看到使用测地邻域与欧氏邻域相比是有益的。欧氏邻域可能包含曲面上距离较远的点,当形状发生非刚性形变时,该邻域会发生剧烈变化。这给有效的权重共享带来了困难,因为局部结构可能变得组合复杂。另一方面,曲面上的测地邻域摆脱了这一问题,提高了学习的有效性。

[论文简述+翻译]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space_第9张图片

4.4 特征可视化

在图8中,我们可视化了我们的层次网络的第一级内核学到了什么。我们在空间中创建一个体素网格,并在网格单元(使用了最高的100个例子)中聚合激活某些神经元最多的局部点集。保留高投票率的网格单元并将其转换回三维点云,代表神经元识别的模式。由于模型是在以家具为主的ModelNet40上训练的,因此在可视化中可以看到平面、双平面、线条、角点等结构。

[论文简述+翻译]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space_第10张图片

图8:从第一层核学习到的三维点云模式。对模型进行ModelNet40形状分类(在128个核中随机选取20个)训练。颜色表示点深度(红色近,蓝色远)。

5 相关工作

分层特征学习的思想已经非常成功。在所有的学习模型中,卷积神经网络[ 10 ; 25 ; 8 ]是其中最为突出的一个。然而,卷积不适用于具有距离度量的无序点集,这是我们工作的重点。

最近的一些工作[ 20 ; 28]研究了如何将深度学习应用于无序集。他们忽略了潜在的距离度量,即使点集确实有一个。因此,它们无法捕捉点的局部上下文,对全局集合平移和归一化敏感。在这项工作中,我们以从度量空间中采样的点为目标,通过在我们的设计中明确考虑潜在的距离度量来解决这些问题。

从度量空间中采样的点通常是有噪声的并且具有非均匀的采样密度。这影响了有效的点特征提取,给学习造成困难。其中一个关键问题是选择合适的尺度进行点要素设计。此前,不论是在几何处理领域,还是在摄影测量与遥感领域,已经开发了几种关于[ 19 ; 17 ; 2 ; 6 ; 7 ; 30]的方法。与所有这些工作不同,我们的方法以端到端的方式学习提取点特征和平衡多个特征尺度。

在三维度量空间中,除点集外,深度学习有几种流行的表示方法,包括体网格[ 21 ; 22 ; 29]和几何图形[ 3 ; 15 ; 33]。然而,在这些工作中,都没有明确考虑非均匀采样密度的问题。

6 总结

在这项工作中,我们提出了Pointnet++,一个强大的神经网络架构来处理度量空间中采样的点集。Pointnet++递归地对输入点集进行嵌套划分,并有效地学习关于距离度量的层次特征。为了处理非均匀点采样问题,我们提出了两个新的set abstraction层,根据局部点密度智能聚合多尺度信息。这些贡献使我们能够在具有挑战性的3D点云基准上实现最先进的性能。

在未来,值得思考的是如何通过在每个局部区域共享更多的计算来加快我们提出的网络的推理速度,特别是对于MSG和MRG层。有个有趣的发现是其在高维度量空间的应用,其中基于CNN的方法将在计算上不可行,而我们的方法可以很好地扩展

你可能感兴趣的:(3D点云,深度学习,计算机视觉,神经网络)