论文翻译
归纳梳理
代码复现
代码分析
——————————————————————
论文原文:https://arxiv.org/pdf/1612.00593.pdf
——————————————————————
点云是一种重要的几何数据结构。由于其无序性,大部分研究把这种数据转换成了有序的3D体素网格或者图片集合。然而,这会使数据不必要地大量增加,并导致问题。在本文中,我们设计了一种直接处理点云的新型神经网络,这种网络很好的考虑了输入中的点的有序性。PointNet,这种神经网络为物体分类、部分分割和场景语义分析提供了统一的结构。虽然简单,但PointNet十分高效且有效。根据经验,这种神经网络表现出了和现有技术水平相当甚至更好的强劲表现。从理论上,我们为解释这种网络学习到了什么和为什么这种网络能够对输入数据的扰动和损坏保持高度鲁棒性进行了分析。
本文我们探索了能够处理3D几何数据(eg.点云、网格)的深度学习模型。典型的卷积结构要求高度规则的输入数据格式(eg.图片网格、3D体素数据),这是为了实现权重分享和其他核函数优化。由于点云和网格都不是有序的格式,大部分研究通常在把这些数据转换成有序的3D体素网格或者图片集合(eg.视图)后,再把数据喂给深度网络模型。然而,这种数据表示转换会使结果数据不必要地大量增加,同时也会引入能模糊数据自然不变性的量化伪像。
因此,我们使用简单的点云专注3D几何不同的输入表示,并命名生成的深度网络为PointNets。点云是简单且统一的结构,能够避免网格的组合不规则性和复杂性,因此更容易学习。然而,PointNet仍然需要重视这样一个事实,点云只是一组点,因此对其成员的排列不变性需要在网络计算中进行某些对称化操作。而更进一步的刚性运动的不变性也需要考虑。
PointNet是一个统一的模型,直接将点云作为输入,同时输出整个输入的类标签或者输入的的每个点块/部分的标签。该模型的基础构架非常的简单,因为在初始阶段,每个点的处理方法完全相同且独立。在基础设置中,每个点仅用它的三个坐标( x , y , z x,y,z x,y,z)来表示。额外维度可以通过计算法线和其他局部或者全局特征来添加得到。
我们这个方法的关键在于使用单个对称函数,最大池。网络有效地学习一组优化函数/准则,选择点云中感兴趣的或者含有信息的点并编码其选择的原因。网络最终的全连接层把这些学习到的最优值聚合到如上所述的整个形状的全局描述符(形状分类)上或者用于预测每个点标签(形状分割)。
我们的输入格式很容易应用刚性或者仿射变换,因为每个点都是独立变换的。因此我们能够增加一个依赖数据的空间变换网络,该网络会在PointNet处理数据前对数据进行规范化,以便进一步改善结果。
我们提供了该方法的理论分析和实验评估。我们展示了我们的网路可以近似任何连续的集合函数。更有趣的是,事实证明我们的网络通过学习一组稀疏的关键点来概括一个输入点云,这些关键点根据可视化大致对应物体对象的骨架。理论分析对为什么PointNet对输入点的小的扰动以及通过插入(异常点)或删除(错误点)造成的损坏具有高度鲁棒性提供了解释。
在形状分类、部分分割、场景分割的许多基准数据集中,我们通过实验将PointNet和基于多视图和体积表示的最先进方法进行了对比。在统一的构架下,PointNet不仅在速度上更快,同时也表现出了和现有技术相当甚至更好的性能。
我们工作的主要贡献如下:
通过神经网络处理无序集合的问题是一个非常普遍和根本的问题,我们希望我们的想法也可以应用到其他领域。
点云特征 点云大部分的现有特征都是针对特定任务手工制作的。点的特征通常编码点的某些统计特性,并且被设计成对于某些变换是不变的,这些变换通常被划分为内在的或外在的。它们还可以归类为局部特征和全局特征。对于特定任务,找到最优的特征组合并非易事。
3D数据的深度学习 3D数据具有多种流行的表示形式,从而有各种学习方法。Volumetric CNNs: 是在体素形状上应用3D卷积神经网络的先驱。然而,由于数据的稀疏性和3D卷积的计算成本,体积表示受到其分辨率的限制。FPNN 和 Vote3D提出了处理稀疏性问题的特殊方法;然而,他们的操作仍然是在稀疏的体积上,处理非常大的点云对他们来说是一种挑战。Multiview CNNs: 试图将3D点云或形状渲染成2D图像,然后应用2D卷积神经网络对它们进行分类。通过精心设计的图像CNN,这一系列方法在形状分类和检索任务方面取得了主导作用。然而,将它们扩展到场景理解或其他3D任务(eg.点分类、形状完成)上时表现很普通。Spectral CNNs: 最近的一些工作在网格上使用了光谱CNN。然而,这些方法目前受限于流形网格(eg.有机物体),而且如何将它们扩展到非等距形状(eg.家具)上并不明显。Feature-based DNNs: 首先通过提取传统的形状特征将3D数据转换成向量,然后使用全连接网络对形状进行分类。我们认为它们受限于所提取特征的表示能力。
无序集的深度学习 从数据结构的角度来说,点云是无序的向量集合。当大部分深度学习工作集中在规则输入表示,如序列(eg.语音和语言处理)、图像和体积(eg.视频、3D数据)上时,很少有在点集上做深度学习工作的。
Oriol Vinyals等人最近的一项工作研究了这个问题,他们使用具有注意机制的读-处理-写网络来处理无序输入集,同时展示他们的网络具有对数字进行排序的能力。然而,由于他们的工作重点是泛型集合NLP应用,因此缺少了几何体在集合中的作用。
我们设计了一个深度学习框架,直接使用无序点集作为输入。点云表示为一组3D点{ P i ∣ i = 1 , . . . , n P_{i} | i =1,...,n Pi∣i=1,...,n},其中每个点的 P i P_{i} Pi是其坐标( x , y , z x,y,z x,y,z)的向量加上额外的特征通道,例如颜色、法线等,除非另有说明,我们只使用坐标( x , y , z x,y,z x,y,z)作为我们点的通道。
对于对象分类任务,输入点云要么直接从形状采样,要么从场景点云中预分割。我们提出的深度网络输出所有 k k k个候选类别的 k k k分数。对于语义分割,输入可以是用于部分区域分割的单个对象,或者是用于对象区域分割的3D场景的一个子体积。我们的模型将为 n n n个点和 m m m个语义子分类中的每一个输出 n × m n×m n×m分数。
我们网络的构架的灵感来自 R n \mathbb{R}^n Rn 中的点集的属性。
我们的输入是来自欧式空间的点的子集。它有三个主要属性:
我们整个网络的结构都在图2中展示出来了,其中分类网络和分割网络占据了结构中的很大一部分。请阅读图2流程图的标题。
我们的网络有三个关键模块:
我们将在下面的单独段落中讨论这些设计选择背后的原因。
无序输入的对称函数
为了使模型对输入排序不变,存在三种策略:1)将输入排序为规范顺序;2)将输入看作训练RNN的序列,但其通过各种排列来增加训练数据;3)用一个简单的对称函数来聚类每个点的信息。这里,对称函数将 n n n个向量作为输入,同时输出一个对输入顺序不变的新向量。例如, + + +和 ∗ * ∗操作符是对称二元函数。
尽管排序听起来像是一个简单的解决方法,但谈及到一般意义上的点的扰动时,在高维空间中实际上并不存在稳定的排序。这可以很容易地通过矛盾来显示。如果这样一种排序策略存在,那么它定义了高维空间和 1 d 1d 1d实线之间的双向映射。不难看出,谈及点扰动时要求排序的稳定等同在维度降低时保持映射在空间上的接近度,这在一般情况下是无法实现的任务。因此,排序并不能完全解决排序问题,而且因为排序问题的存在,网络很难学习到一致的从输入到输出的映射。如实验(图5)中所示,我们发现直接在排序点集上应用多层感知机变现不好,但稍微比直接处理无序输入要好。
使用RNN的想法是将点集作为顺序信号,并希望用随机置换序列训练RNN,这样RNN将会变得和输入顺序无关。然而,在“OrderMatters”中,作者已经证明顺序确实很重要而且无法完全被忽略。尽管RNN对于具有小长度(数十个)的序列的输入排序已经具有相对良好的鲁棒性,但是很难扩展到成千上万的输入元素上,而这是点集的很常见的规模。根据实验,我们也证明了基于RNN的模型表现的并不如我们所提出来的方法(图5)。
我们的想法是通过对集合中转换元素应用对称函数来近似在点集上定义的一般函数:
(1) f ( { x 1 , . . . , x n } ) ≈ g ( h ( x 1 ) , . . . , h ( x n ) ) , \begin{aligned} f(\{ x_1,...,x_n \}) & \approx g(h(x_1),...,h(x_n)), \tag{1} \end{aligned} f({x1,...,xn})≈g(h(x1),...,h(xn)),(1)这里 f : 2 R N → R , h : R N → R K a n d g : R K × ⋅ ⋅ ⋅ × R K ⎵ n → R f:2^{\mathbb{R}^N} \to \mathbb{R}, h:\mathbb{R}^N \to \mathbb{R}^K \quad and \quad g:\underbrace{\mathbb{R}^K \times\cdot\cdot\cdot\times\mathbb{R}^K}_n\to\mathbb{R} f:2RN→R,h:RN→RKandg:n RK×⋅⋅⋅×RK→R是对称函数
根据实验,我们的基础模型十分简单:我们通过多层感知机来近似 h h h,并通过单个变量函数和最大池函数的组合来近似 g g g。通过实验发现这表现的很好。通过 h h h的集合,我们可以学到一些 f f f来捕获点集的不同属性。
尽管我们的关键模块看起来很简单,但它也具有很精彩的地方(参见5.3节),在一些不同的应用中能够表现出很强的性能(参见5.1节)。由于我们模型的简单性,我们也提供了4.3节中的理论分析。
局部和全局信息聚类
上一节的输出组成了一个向量 [ f 1 , . . . , f k ] [f_1,...,f_k] [f1,...,fk],这是输入集的全局标签。我们可以在形同全局特征上很容易训练SVM或多层感知机分类器以进行分类。然而,点的分割需要局部和全局新的的结合。我们能够通过简单而高效的方式来实现这一目标。
我们的解决方法可以在图2(Segmentation Network)中看到。在计算完全局点云特征向量后,我们将全局特征和每一个点的特征连接起来反馈给每一个点特征。然后我们基于组合的点特征提取新的每个点的特征,这样每个点特征都考虑了局部和全局信息。
通过这样的修改,我们的网络能够预测依赖于局部几何和全局语义的每个点数量。例如我们可以准确地预测出每个点的法线(图中的补充),验证网络能够汇总来自该点的局部领域的信息。在实验环节中,我们也表明我们的模型可以在形状部分分割和场景分割方面实现最先进的性能。
联合对准网络
如果点云在经历了某些几何变换(eg刚性变换),那么点云的语义标签必须是不变的。因此我们希望点集的学习表示对这些变换是不变的。
一个自然的解决方法是在特征提取前将所有的输入集对齐到规范空间。Jaderberg等人[9]介绍了一种通过采样和插值来对齐2D图像的空间变换的想法,通过在GPU上特别定制的层来实现。
与[9]相比,我们的点云输入形式使我们能够以更简单的方式来实现这一目标。我们不需要发明任何新的层,也不需要像图像情况那样引入任何别名。我们通过mini-network(图2中的T-net)预测仿射变换矩阵,并直接将该变换作用于输入点的坐标。Mini-network本身类似于大型网络,且由点的独立特征提取、max pooling和全连接层组成。更多关于T-net的细节在补充中。
这个想法可以进一步扩展到特征空间的对齐。我们可以在点的特征上插入另一个对齐网络,并预测特征变换矩阵以对齐来自不同输入点云的特征。然而,特征空间中的变换矩阵比空间变换矩阵的维度高很多,这极大地增加了优化的难度。因此,我们在softmax的训练损失中增加了一个正则化项。我们约束特征变换矩阵接近于正交矩阵。
(2) L r e g = ∣ ∣ I − A A T ∣ ∣ F 2 , L_{reg}=||I-AA^T||^2_F,\tag{2} Lreg=∣∣I−AAT∣∣F2,(2)
其中 A A A是mini-network预测的特征对齐矩阵。正交变换不会丢失输入的信息,因此期望是正交变换。我们发现通过增加正则化项,优化变得更加稳定,而且我们的模型实现了更好的性能。
通用逼近
首先,我们展示了我们的神经网络对于连续集函数的通用逼近能力。通过集函数的连续性,直观地,对输入点集的小扰动不应该极大地改变函数值,例如分类或分割的分数。
形式上,让 X = { S : S ⊆ [ 0 , 1 ] m a n d [ S ] = n } , f : X → R \mathcal{X} = \{S : S \subseteq [0,1]^m \ and \ [S]=n\},f:\mathcal{X} \to \mathbb{R} X={S:S⊆[0,1]m and [S]=n},f:X→R 是涉及Hausdorff距离 d H ( ⋅ , ⋅ ) d_H(\cdot,\cdot) dH(⋅,⋅)在 X \mathcal{X} X上的连续集合函数,换句话说, ∀ ϵ > 0 , ∃ δ > 0 \forall \epsilon >0,\exists \delta >0 ∀ϵ>0,∃δ>0,对于任意 S S S, S ′ ∈ X S'\in \mathcal{X} S′∈X,如果 d H ( S , S ′ ) < δ d_H(S,S')< \delta dH(S,S′)<δ,那么 ∣ f ( S ) − f ( S ′ ) ∣ < ϵ |f(S)-f(S')|<\epsilon ∣f(S)−f(S′)∣<ϵ。定理的意思是说,在max pooling层给定足够多的神经元时, f f f可以由我们的网络任意近似,换句话说,(1)中的 K K K足够大足够大。
定理 1 假设 f : X → R f:\mathcal{X} \to \mathbb{R} f:X→R是涉及Hausdorff距离 d H ( ⋅ , ⋅ ) d_H(\cdot,\cdot) dH(⋅,⋅)的连续集函数。 ∀ ϵ > 0 , ∃ \forall\epsilon >0,\exist ∀ϵ>0,∃一个连续函数 h h h和一个对称函数 g ( x 1 , . . . , x n ) = γ ∘ M A X g(x_1,...,x_n)=\gamma\circ \mathbf{MAX} g(x1,...,xn)=γ∘MAX,这样对于任意 S ∈ X S\in \mathcal{X} S∈X, ∣ f ( S ) − γ ( M A X x i ∈ S { h ( x i ) } ) ∣ < ϵ \bigg|f(S)-\gamma\bigg(\mathbf{ \mathop{MAX}\limits_{x_i \in S}}\{h(x_i)\}\bigg)\bigg|<\epsilon ∣∣∣∣f(S)−γ(xi∈SMAX{h(xi)})∣∣∣∣<ϵ这里 x 1 , . . . , x n x_1,...,x_n x1,...,xn是 S S S中任意排序的元素的完整列表, γ \gamma γ是连续函数, M A X \mathbf{MAX} MAX是向量做取最大值运算的运算符,它将 n n n个向量作为输入,然后返回一个包含每个元素最大值的新的向量。
在我们的补充材料中给出了这个定理的证明。关键的思路是,在最坏的情况下,模型可以通过将空间划分成等大小的体素来学习将点云转换成体积表示。然而,实验中模型学习到了一种更加智能的探测空间的策略,正如我们将在点函数可视化中看到的那样。
维度和稳定性的瓶颈 从理论上和实验中我们发现,模型的表现受到max pooling层维度的很大影响,即(1)中的 K K K。这里我们提供了一个分析,揭示了和模型的稳定性相关的属性。
我们定义 f f f的子网络为 u = M A X x i ∈ S { h ( x i ) } \mathbf{u=\mathop{MAX}\limits_{x_i \in S}}\{h(x_i)\} u=xi∈SMAX{h(xi)},其将 [ 0 , 1 ] m [0,1]^m [0,1]m中点集映射到 K K K维向量。以下定理告诉我们输入集中的小损失或者额外噪声点都不太可能改变模型的输出。
定理 2 假设 u : X → R K \mathbf{u}:\mathcal{X}\to\mathbb{R}^K u:X→RK,其中 u = M A X x i ∈ S { h ( x i ) } , f = γ ∘ u \mathbf{u=\mathop{MAX}\limits_{x_i \in S}}\{h(x_i)\},f=\gamma\circ\mathbf{u} u=xi∈SMAX{h(xi)},f=γ∘u,那么
(a) ∀ S , ∃ C S , N S ⊆ X , f ( T ) = f ( S ) , \forall S,\exist \ \mathcal{C}_S,\mathcal{N}_S \subseteq \mathcal{X},f(T)=f(S), ∀S,∃ CS,NS⊆X,f(T)=f(S),当 C S ⊆ T ⊆ N S ; \mathcal{C}_S\subseteq T\subseteq{\mathcal{N}_S}; CS⊆T⊆NS;
(b) ∣ C S ∣ ⩽ K |\mathcal{C}_S|\leqslant K ∣CS∣⩽K
我们解释下这个定理的含义。(a)如果 C S \mathcal{C}_S CS中的所有点都被保留, f ( S ) f(S) f(S)将不会因为输入的损失而改变;也不会因为 N S \mathcal{N}_S NS中的额外噪声点而改变。(b) C S \mathcal{C}_S CS中只包含有限点,由(1)中的 K K K决定。换句话说, f ( S ) f(S) f(S)实际上完全由小于或等于 K K K维元素的有限子集 C S ⊆ S \mathcal{C}_S\subseteq S CS⊆S决定。因此我们将 C S \mathcal{C}_S CS称作 S S S的临界点集,将 K K K称作 f f f的瓶颈维度。
结合 h h h的连续性,这解释了模型在涉及点扰动、损失和额外噪声点情况下的鲁棒性。类似于机器学习模型中的稀疏性原则,可以得到鲁棒性。**直观上,我们的模型通过学习一组稀疏的关键点来总结一个形状。**在实验中我们可以看到关键点构成了对象的骨架。
实验分为了四个部分。首先,我们展示了PointNets可以应用于多个3D识别任务(5.1节)。其次,我们提供了详细的实验来验证我们的模型设计(5.2节)。最后,我们可视化了模型学习的内容(5.3节),并分析了时间和空间复杂度(5.4节)。
在本节,我们将展示如何训练我们的模型来执行3D对象分类、对象零件分割和语义场景分割。即使我们作用在一份新的数据表示(点集)上,我们也能够在几个任务的基准测试中实现可比较的甚至更好的表现。
3D对象分类 我们的模型学习了可用于对象分类的全局点云特征。我们在ModelNet40形状分类基准上评估了我们的模型。来自40个人造对象类别的12311个CAD模型划分成9843个用于训练,2468个用于测试。当以前的方法关注于体积和多视图图像表示时,我们的模型已经成为第一个直接处理原始点云的方法。
我们根据表面区域在网格表面均匀采样1024个点,并把它们标准化为单位球体。在训练期间,我们通过沿着向上轴随意旋转物体并通过具有零均值和0.02标准偏差的高斯噪声抖动每个点的位置来实时增加点云。
在表1中,我们将我们的模型和之前的工作以及我们使用MLP从点云中提取传统特征(点密度、D2、形状轮廓等)的基线进行比较。我们的模型在基于3D输入(体积和点云)的方法中实现了最先进的性能。由于只有全连接层和max pooling层,我们的模型在推理速度上取得了很大的领先优势,而且也能够很容易在CPU上并行。当然,我们的方法和基于多视图的方法(MVCNN)之间仍然存在一点小差距,我们认为这是由于丢失了能够通过渲染图像捕获的精细的几何细节。
3D零件部分分割
零件分割是一项具有挑战性的细粒度3D识别任务。给定3D扫描或网格模型,任务是将零件类别标签(例如,椅子腿,杯柄)分配给每一个点或面。
我们评估了ShapeNet的零件数据集,其中包含16个种类16881个形状,总共注释了50个零件。大部分物体类别标有二到五个零件。表面真实注释标记在形状的采样点上。
我们把零件分割制定为每个点的分类问题。评估指标是点的mIoU。对于类别C中的每一个形状S,计算形状的mIoU:对类别C的每一个零件类型,计算真实值和预测值之间的IoU。如果真实值和预测点的并集是空的,那么将零件IoU计为1。然后我们平均类别C中所有零件类型的IoU来获得形状的mIoU。为了计算该类别的mIoU,我们去该类别中所有形状的mIoU的平均值。
在本节中,我们将我们的分割版本PointNet(图2的修改版本,Segmentation Network)和两种传统的方法进行对比,这两种方法都利用了每个点的几何特征以及形状之间的对应关系,以及我们自己的3D CNN基线。有关3D CNN的详细的修改内容和模型结构,请参阅补充说明。
在表2中,我们报告了每个类别和mIoU(%)的分数。在大多数类别中,我们观察到mIoU改善了2.3%,并且我们的网络打败了基准方法。
我们还对模拟Kinect扫描进行了实验来测试这些理论的鲁棒性。对ShapeNet零件数据集中每个CAD模型,我们使用Blensor Kinect Simulator从六个随机视点生成不完整的点云。我们使用相同网络结构和训练设置在完整形状和部分扫描上训练PointNet。结果表明我们的mIoU仅损失了5.3%。在图3中,我们提供了在完整数据和部分数据上的定性结果。可以看出,虽然部分数据相当具有挑战,但是我们的预测值是合理的。
场景语义分割
零件分割的模型可以很容易扩展到场景语义分割上,其中点的标签变成语义对象类别而不是物体零件标签。
我们在斯坦福3D语义分析数据集上进行实验。该数据集包含来自含有271个房间的6个区域的Matterport扫描仪3D扫描的数据。扫描的每个点都被一个来自13个类别(椅子、桌子、地板、墙等加上杂波)的语义标签所注释。
为了准备训练数据,我们首先按照房间分割点,然后将样本房间分割成1m×1m的区域。我们训练我们的PointNet分割模型来预测在每个区域中的每个点的类别。每个点都由一个9维度的向量表示,包含XYZ、RGB和归一化的房间的位置(从0到1)。在训练时,我们实时从每个区域中取样4096个点。在测试时,我们在所有点上进行测试。我们遵循同样的协议,用k-fold策略来进行训练和测试。
我们将提出的方法与使用手工提取特征的基线进行比较。基线提取相同的9维局部特征和另外三个特征:局部点密度、局部曲率和法线。我们使用标准MLP作为分类器。结果在表3中,其中我们的PointNet方法明显优于基线方法。在图4中,我们展示了定性分割结果。我们的模型能够输出平滑的预测,而且对于缺失点和遮挡具有鲁棒性。
基于我们模型的语义分割输出,我们进一步建立了一个使用连通组件进行对象提议的3D物体检测系统(详见补充)。我们在表4中对比了先前最先进的技术方法。先前的方法基于滑动形状方法(具有CRF后处理),其中SVM在局部几何特征和体素网格中的全局空间的相关特征上训练。我们的方法的性能在家具类别报告中大大超过了它。
在本节,我们通过对照试验验证我们的设计选择。我们还展示了模型的超参数的影响。
候选次序不变方法的对比
如4.2节所述,至少有三种处理无序输入点集的方法。我们用ModelNet40形状分类问题作为测试平台来对比这些选项,接下来的两个对照试验也会用这个任务。
我们所比较的基线(如图5所示)包括未排序和排序的多层感知机作为 n × 3 n × 3 n×3矩阵以及把输入点看作序列的RNN和基于对称函数的模型。我们实验的对称操作包括max pooling、average pooling和依赖attention的加权和。Attention方法类似于从每个点特征预测一个标量分数,然后通过计算softmax来归一化分数。然后,在归一化分数和点特征上计算加权和。如图5所示,max pooling操作实现了最优的性能且优势很大,这验证了我们的选择。
输入和特征变换的有效性
在表5中我们展示了输入和特征变换(对齐)的积极影响。有趣的是,最基础的结构已经取得了相当合理的结果。使用输入变换可以提高0.8%的性能。正则化损失是高维变换工作所必需的。通过结合变换和正则化项,我们实现了最佳性能。
鲁棒性测试
我们展示了我们的PointNet尽管简单有效,但对各种输入损坏都具有鲁棒性。我们使用和图5中max pooling相同的结构。输入点被归一化为单位球体。结果如图6所示。至于缺失点,当缺失50%的点时,涉及最远和随机输入采样的准确率仅下降2.4%和3.8%。训练时,我们的模型对异常点的鲁棒性也稳健。我们评估了两个模型:一个用点的坐标 ( x , y , z ) (x,y,z) (x,y,z)训练;另一个用 ( x , y , z ) (x,y,z) (x,y,z)加上点密度来训练。即使是有20%的点都是异常点,模型依旧有超过80%的准确率。图6右侧展示了模型对于点扰动的鲁棒性。
在图7中,我们将关键点集 C S \mathcal{C}_S CS 和一些样本形状 S S S的上限形状 N S \mathcal{N}_S NS(如理论2中讨论那样)的部分结果可视化。两个形状间的点集将给出完全相同的全局形状特征 f ( S ) f(S) f(S)。
从图7中可以很清楚地看到有助于最大池的特征关键点集 C S \mathcal{C}_S CS 总结了形状的骨架。上限形状 N S \mathcal{N}_S NS 说明了最大可能的点云,其给出和输入点云 S S S相同的全局形状特征 f ( S ) f(S) f(S)。 C S \mathcal{C}_S CS和 N S \mathcal{N}_S NS反映了PointNet的鲁棒性,这意味着丢失一些非关键点不会改变全局形状特征 f ( S ) f(S) f(S)。
N S \mathcal{N}_S NS由通过模型将所有点放入的边长为2的立方体构成,然后选择点 p p p,这些点的函数值 ( h 1 ( p ) , h 2 ( p ) , . . . , h K ( p ) ) (h_1(p),h_2(p),...,h_K(p)) (h1(p),h2(p),...,hK(p))不大于全局性状描述符。
表6总结了我们的PointNet分类在空间(模型中参数的数量)和时间(浮点运算/采样)复杂度。我们还将PointNet和先前基于体积和多视图的一组代表性构架进行了对比。
虽然MVCNN和Subvolume(3D CNN)实现了高性能,但是PointNet在计算成本方面的处理效率更高(以FLOPs/sample测量:分别是141倍和8倍)。除此之外,就模型的参数而言,PointNet比MVCNN更具有空间效率(参数减少17倍)。此外,PointNet的可扩展性更高,在输入点数量上实现性的,空间和时间复杂度为 O ( N ) O(N) O(N)。然而,由于卷积在计算时间上占主导地位,多视图方法的时间复杂度在图像分辨率上笔直地增长,基于体积卷积的方法随着体积大小立方增长。
根据实验,PointNet能够在Tensorflow上用1080X GPU处理每秒超过一百万个点的点云分类(大约1K对象/秒)或语义分割(大约2房间/秒),显示出实施应用的巨大潜力。
在这项工作中,我们提出了一种直接处理点云的新型深度神经网络PointNet。我们的模型对包括物体分类、零件分割和场景分割在内的一系列3D识别任务提供了统一的方法,同时在标准基准测试中获得了与现有技术相当或更好的结果。我们还提供了理论分析和可视化,以理解我们的模型。
日更待续 . . . ... ...