翻得不好,欢迎批评指正。
标准卷积因为有着特征各向同性而在点云语义分割方面有着内在的局限性。本文提出一种卷积核可以动态调整成适应目标结构的形状的图形注意卷积(GAC)。GAC根据动态学习的特征有选择地关注其中最相关的部分。卷积核的形状由学习到的注意权重贡献决定。GAC可以捕获点云的结构化特征进行细粒度分割以及避免目标之间的特征污染。我们对GAC的表现能力进行了深入的分析,以展示它如何了解点云的特征。
点云语义分割的目标是为每个点分配类别标签,这对3D理解是重要且具有挑战性的任务。最近的方法试图从网格域推广卷积神经网络到无组织的点云。然而,因为卷积核关于邻点特征的各向同性,这些工作对于点云语义分割有内在局限性。直观地,学习到的位于两目标边界上的点的特征实际上是来自这两个目标而不是它真正应该属于的类别,这导致了标签分配的模糊。
事实上,标准卷积核作用在规律的特征响应接受域,卷积权重固定在卷积窗口内的特定位置。这种位置决定的权值导致了卷积核的各向同性。例如,在图1中,点1处的学习特性模糊地描述了其相邻的点,这种标准卷积的局限性忽略了属于同一对象的点之间的结构联系,导致对象的轮廓性差,分割结果中有小的虚假区域。为解决上述问题,本文基于标准卷积的位置确定权,学习根据邻域的特征属性来掩盖或弱化部分卷积权,使卷积核动态适应点云的结构。在本文中通过提出一种新的GAC来实现,即选择性地关注接受域中邻域中最相关的部分。具体来说,受注意机制的启发,GAC被设计为通过将不同的相邻点的空间位置和特征属性相结合来动态地分配适当的注意权重。卷积核的形状由注意权的学习分布决定。最后,与网格域的标准卷积一样,我们的GAC也可以在点云的图形表示上有效地实现。在图像分割网络的基础上,利用该算法训练了一个端到端的图形注意卷积网络(GACNet),用于语义点云的分割。值得注意的是,使用条件随机场(CRF)对CNN输出进行后处理实际上已经成为语义分割的一个事实标准[45,5,9,2]。然而,通过结合空间和特征约束来产生注意权重,GAC与CRF具有相同的属性,这支持了相似点之间的标签一致性。因此,拟议的GACNet不再需要CRF。我们的贡献如下:
•我们提出了一种新的具有可学习核形状的图形注意卷积算法,以动态适应对象的结构;
•我们对所提出的图形注意卷积算法的性能和有效性进行了深入的理论和实证分析;
•我们使用所提出的GAC训练了一个端到端的图形注意卷积网络,用于点云语义分割,并通过实验证明了其有效性。
本节将从三个主要方面讨论相关的前期工作:点云深度学习、图形卷积和深度学习中的CRF。
点云深度学习。虽然深度学习已经成功地应用于二维图像中,但对于具有不规则数据结构的三维点云,探索其特征学习能力仍面临许多挑战。目前对这一问题的研究主要有基于体素化的[25,49]、基于多视图的[43,24]、基于图的[7,51,42]和基于集的方法[33,35]。
基于体素化的方法[50,30]旨在将点云空间离散成规则的空间占有网格,以便3D卷积可以像图像一样应用。这些基于全体素的方法不可避免地会导致信息丢失,以及内存和计算消耗,因为它相对于体素的分辨率呈立体增长。为了降低这些基于全体素的方法的计算成本,OctNet [38]和Kd Net[20]被设计成通过跳过对空体素的计算并聚焦于信息体素来解决这些问题。基于多视图的方法[43、24、18]将点云表示为从多个视图渲染的一组图像。然而,如何确定视图的数量和分布以覆盖三维对象,同时避免相互遮挡,目前还不清楚。基于图的方法[7,51]首先根据点云的空间邻域将其表示为一个图,然后推广标准CNN以适应图形结构数据。Shen等人。[40]定义了一个点集核为一系列可学习的联合响应邻域点的三维点,根据它们的几何相似性由核相关度量。3DGNN[36]将图形神经网络应用于RGBD数据。然而,由于其聚集函数的各向同性,3DGNN很难适应不同结构的对象。ECC[42]和SPG[23]提出根据边缘标签(权重)生成卷积滤波器,以便信息可以在图上的特定方向传播。然而,ECC和SPG只能捕获一些特定的结构,因为这些边缘标签(权重)是预定义的。得益于集合上深度学习的发展[33,52,37],研究人员最近通过首先从每点多层感知器(MLP)计算单个点特征,然后将所有特征聚合为点云的全局表示来构造有效且简单的直接学习非点集[35,12]。基于集的方法可以直接在点层次上使用,并且对刚性变换具有鲁棒性。然而,它忽略了点之间的空间邻接关系,而点之间的空间邻接关系包含了用于语义分割的细粒度结构信息。
图形卷积。关于图卷积的相关工作可分为谱方法和非谱方法。谱方法处理依赖于拉普拉斯矩阵特征分解的图的谱表示[19,10]。在谱图理论的谐波分析中,相应的特征向量可以看作是傅里叶基。谱卷积可以定义为图[8]上两个信号傅里叶变换的元素乘积。这种谱卷积不能保证滤波器的空间局部化,因此需要昂贵的计算[41,17]。此外,由于谱方法与其对应的拉普拉斯矩阵相关联,在一个图上学习的谱CNN模型不能转化为具有不同的拉普拉斯矩阵的其他图。非谱方法的目的是直接定义空间域或流形域中具有局部邻域的图的卷积。非谱方法的关键是定义一组应用于每个顶点邻域的共享权重[3,48]。Duvenaud等人。[11]计算每个顶点的权重矩阵,并在求和运算后将其乘以其邻域。尼珀特等人。[32]提出了启发式地选择和排序每个顶点的邻。Monti等人[31]提出了一个统一的框架,允许CNN体系结构在每个顶点周围使用固定的局部极性伪坐标绘制图形。Hamilton等人。[16]引入了一个归纳框架,通过在邻域上应用一个特定的聚合器,例如max/mean算子或递归神经网络(RNN)。然而,它们的卷积权重主要是根据预先定义的局部坐标系生成的,而忽略了语义分割对象的结构。
深度学习中的CRF。CRF[22]具有精细的概率建模能力,而CNN具有强大的特征学习能力。CRF和CNN的结合在许多图像分割工作中被提出[5,9,2,29]。最近,参考文献[21],CRF推理的迭代被建模为CNN层的堆栈[53,28]。对于三维点云,继CRF-RNN[53]之后,SegCloud[45]将CRF的实现扩展到完全连接CNN之后的三维点云。然而,由于CRF是作为CNN之后的一个单独部分应用的,因此很难探索它们结合的力量。
提出了一种新的用于三维点云结构特征学习的图形注意卷积算法(GAC),并证明了其理论优势(第3.1节)。然后,我们用所提出的GAC构造了一个端到端的点云分割框架(第3.2节)。第3.3节提供了将点云转换为所需图形金字塔的详细信息。
考虑一个由给定点云P={p1,p2,…,P N}∈r3根据它们的空间邻域构造的图G(V,E),其中V={1,2,…,N}和E⊆|V|×|V|分别表示顶点和边的集合,N是顶点的数目。表示N(i)={j:(i,j)∈E}∪{i}(包括自身)为顶点i的邻域集,设H={h1,h2,…,hN}为一组输入顶点特征,每个特征hi∈RF与一个对应的图顶点i∈V相关联,其中F为每个顶点的特征维数。
我们的GAC被设计用来学习函数g: RF→RK,它将输入特征H映射到一组新的顶点特征H′={H′1,H′2,…,H′N}与H′i∈RK,同时保持这些输出特征之间的结构联系。同时,与图像域中相对固定的邻域关系不同,本文提出的GAC在保持权值共享特性的同时,还应该能够处理无序和大小变化的邻域。为此,我们构造了一个共享注意机制α:R3+F→RK,将注意力集中在邻域中最相关的部分进行特征学习,使得GAC的卷积核能够动态地适应对象的结构。具体来说,每个相邻顶点的注意权重计算如下:
式中ai,j=[ai,j,1,ai,j,2,……,ai,j,K]∈RK表示j顶点到i顶点的注意权重向量,Δpij=pj−pi,Δhij=Mg(hj)−Mg(hi),式中Mg:RF→RK是应用于每个顶点的特征映射函数,即Mg是一个多层感知器。α的第一项表示相邻顶点的空间关系,这有助于将无序的相邻点跨越到有意义的曲面。第二项测量顶点对之间的特征差,这指导我们将更多的注意力分配给相似的邻居。共享注意机制α可以用任何可微的体系结构来实现,我们在这项工作中使用了多层感知器(如图2所示),其公式如下:
式中| |是串联操作,Mα表示应用的多层感知器。此外,为了处理不同顶点和空间尺度上大小不同的邻域,注意权重在顶点i的所有邻域上都被规范化,如下所示:
式中ai,j,K为第k特征通道处j顶点到i顶点的注意权重。因此,拟议的GAC的最终产出可以表述如下:
其中*表示产生两个向量的元素生成的Hadamard积,bi∈RK是一个可学习的偏差。
与标准卷积的关系。网格域中标准卷积的卷积权重由邻域的局部空间位置决定。在我们的GAC中,注意力权重不仅根据邻居的空间位置,而且根据他们的动态学习特征生成。此外,由于GAC是在点的空间邻域上设计的,它还保留了网格域标准卷积的关键特性:权值共享和局部性。
与先前工作的关系。本文所提出的GAC与已有的一些工作有关,主要包括GAT[47]和PointNet[33]。虽然我们受到了GAT的注意机制的启发[47],但我们的GAC是不同的:1)GAC不仅为不同的相邻点分配了适当的注意权重,而且还为不同的特征通道分配了适当的注意权重,因为不同通道的特征有望独立;2)与GAT相比,GAC融合了局部空间关系邻接点之间的关系,在三维形状分析中起着重要的作用;3)基于特征差异而不是两个邻接特征的连接来生成注意权重,这对于刻画特征关系更为有效和明确。
PointNet[33]及其变体[35]通过直接学习点集,在点云分析方面取得了很有希望的结果。PointNet的关键是使用maxpooling运算符(包括MLP)。它可以看作是GAC的一个极端情况,即“最大注意”,它通过在每个特征通道上取最大值来聚集相邻的特征。max算子倾向于捕捉最“特殊”的特征,这会破坏对象点之间的结构连接,并对噪声敏感。相比之下,该算法通过赋予邻域特征适当的注意权重,保持目标的结构,从而实现对邻域特征的聚集。
理论分析。在本节中,我们将探讨GAC的表达能力,以进一步了解GAC如何有效地学习点云的特征。具体来说,我们考虑GAC是否能够学习精确地表示每个顶点的相邻特征。假设输入顶点特征H是有界的,即H⊆[a,b]F,其中a和b分别表示下限和上限。事实上,我们可以证明,所提出的GAC能够将图G(V,E)上任何顶点的整个邻域信息聚合到任意精度:
定理1。设X={S:S⊆[a,b]F and S is finite},f:X→R是连续集函数w.R.t. 豪斯多夫距离dH(·,·)表示Si={hj:j∈N(i)∈X}为任意阶顶点i∈V的邻接点集。∀ǫ>0,∃K∈Z和GAC的参数θ,使得对于任意i∈V,
其中γ是连续函数,gθ(Si)∈RK是GAC的输出。完整的证据见附录。与PointNet类似,在最坏的情况下,我们的GAC可以学习将点云划分为一个体积表示。在PointNet中,表示能力受输出维数K的限制,然而,由于我们的GAC中的注意力机制实际上充当了特征编码器,所以即使当k不足够大时,GAC也能够逼近集合函数f。
我们遵循通用的图像分割体系结构来组织我们的网络进行点云语义分割,创建了图注意卷积网络(GACNet)。不同的是,我们的GACNet是在点云的图金字塔上实现的,如图3所示。在图金字塔的每个尺度上,应用GAC进行局部特征学习。然后使用图池操作来降低每个特征通道中点云的分辨率。之后,学习到的特征被逐层插值回最细的尺度。受[27]的启发,相同规模的功能是跳过连接的。最后,考虑到多个图形池化和特征插值层导致的特征保真度损失,在最佳尺度上增加一个GAC层用于特征细化。
图形池化。图池化旨在输出粗化图顶点上的聚合特征。表示H′l为在图金字塔的第l个刻度处的输出特征集,第(l+1)个刻度的输入特征集Hl+1计算如下:
其中hv∈Hl+1和Nl(v)表示第l尺度上顶点v的邻域。池函数可以是max或mean函数,分别对应于max和mean池〔42〕。
特征插值。为了最终得到与原始输入点个数相同的特征映射,必须将学习到的特征从最粗尺度逐层插值到原始尺度。设H′lbe为图金字塔层第l阶的学习特征集,Pl and Pl-1分别为第l阶和(l-1)阶的空间坐标集。为了得到(l-1)阶的特征,我们在plan中搜索Pl-1的三个最近邻,并计算其特征的加权和。组合权重根据邻居的标准化空间距离计算[35]。
GACNet与CRF。在语义分割任务中,CRF作为CNN输出的后处理已经成为事实上的标准。CRF的关键思想是鼓励相似点共享一致的标签。直观地说,空间上的相似点和外观上的相似点被鼓励分配相同的标签。
事实上,我们的GAC与CRF模型具有相同的特性。具体来说,GAC根据邻域的空间位置和特征属性来分配适当的注意权重。空间位置项鼓励空间上的闭合点共享相似的特征,而特征属性项旨在引导具有相似属性(即低层局部特征或高层语义标签)的点之间的信息传播。因此,在GACNet中不再需要CRF模型。
值得注意的是,与将CRF模型表示为递归网络[53]相比,所提出的GACNet具有几个引人注目的优点。首先,GACNet不需要使用CRF进行独立于CNN的后处理,它相当于将CRF的递归网络展开到网络的每一层,直接引导学习到的特征保持对象的结构以进行语义分割。其次,与CRF的类概率空间中的简单消息传递和兼容性变换相比,GAC还具有将输入信号映射到隐藏特征空间以进一步提取特征的能力。我们在第4.3节中对这些权利要求进行了实验性评估。
本节描述如何在点云上构造图金字塔。具体来说,我们搜索所有点的空间邻域,并将它们链接为一个图。通过交替应用图形构造和粗化技术,构造出不同空间尺度的图形金字塔。此外,在图形构建过程中,记录每个点邻域在最细尺度上的协方差矩阵,并将其特征值作为局部几何特征(geo特征)。点的初始特征向量由高度、RGB和地理特征组成。点云上的图形构造。对于记录点的空间坐标的点云P,我们构造了一个有向图G(V,E)。这里,每个顶点都与一个点相关联,边被添加到该点与其KG邻居之间。在我们的实验中,在半径为ρ的范围内对KG近邻进行随机采样,由于KG近邻与点云的密度无关,因此比搜索KG近邻具有更好的性能。图形粗化。与图像域中的金字塔结构类似,我们使用最远点采样算法将输入点云P用一组比率进行子采样[35]。将次采样点云表示为P={P0,P1,…,P L},其中L是次采样的标度数,P0=P。对于每个PL(L=0,…,L),可以将对应的图Gl(Vl,El)构造为以上描述。
在本节中,我们评估了基于各种3D点云分割基准的GACNet,包括Stanford大规模3D室内空间(S3DIS)[1]数据集和Semantic3D[15]数据集。通过三个指标对性能进行了定量评估,包括每类交并(IoU)、每类平均IoU(mIoU)和总体精度(OA)。此外,对GAC的几个关键部件的性能进行了进一步的分析。
S3DIS数据集包含来自三个不同建筑的六个室内区域的3D RGB点云。每个点都用13个类别中的一个语义标签进行注释。对于一个原则性的评估,我们遵循[45,33,23]选择区域5作为我们的测试集,并对GACNet的其余部分进行培训,以确保培训模型没有看到测试区域的任何部分。值得注意的是,第5区域与其他区域不在同一建筑中,区域5和其他区域的物体之间存在一些差异。这种跨建筑的实验装置在测量模型泛化性的同时,也给分割任务带来了挑战。
为了准备我们的训练数据,我们首先将数据集一个房间一个房间地拆分,然后将它们分成1.2m×1.2m的块,每边有0.1m的缓冲区。位于缓冲区内的点被视为上下文信息,与模型训练或类预测的损失函数无关。此外,为了便于训练,对每个块中的点进行采样,得到统一的4096个点。在测试阶段,块可以是任意大小,这取决于计算设备的内存。在这个实验中,我们把我们的测试室分成4096个×9个点的四分块。根据第3.3节,每个块被单独构造为图形金字塔,用于训练或测试。
实验结果的定量评价见表1。我们可以看到,在大多数类中,所提出的GACNet比其他竞争方法表现得更好。特别是,我们在窗户、桌子、沙发和木板上取得了可观的成绩。在S3DIS数据集中,板和窗被粘贴在墙上,很难用几何的方法来描述,但是我们的GACNet仍然可以根据它们的颜色特征将它们分割出来。由于GAC的卷积权值不仅根据相邻点的空间位置,而且根据相邻点的特征属性进行分配,因此即使空间几何丢失或较弱,GACNet也能够捕获点云的判别特征。
Semantic3D数据集是目前可用的最大的激光雷达数据集,具有来自各种城市和农村场景的超过40亿个点。每个点都有RGB值和强度值,并标记为8个类别之一:人造地形、自然地形、高植被、低植被、建筑物、硬景观、扫描工艺品和汽车。与S3DIS数据集不同,Semantic3D数据集包含具有相对较大对象的室外场景。为了适应对象的大小,SimeSt3D数据集的采样块被设置为4m×4m,同时保持相同的最大数量的4096个点。我们在表2中提供了对基准的reduced-8挑战的评估结果。
此外,我们列出了与其他最新方法相比,我们的GACNet的总体准确性和平均IoU。
总的来说,我们的表现与许多类的其他竞争方法相当或更好。值得注意的是,在semantic3D数据集中,由于点之间的相互遮挡,大多数对象,如汽车、硬景观、建筑物和低/高植被,都是不完整的。然而,由于GAC强大的结构化特征学习能力,我们的GACNet仍然可以学习捕获它们的区分特征进行分割。同时,我们也注意到,在本实验中,人工地形和自然地形对于GACNet来说是相对难以分离的,因为在一个容易混淆的区域(如图4所示)中有大量的点没有出现在训练集中。
为了更好地了解在所提出的框架中所做的各种设计选择的影响,我们进一步进行了几项消融研究以证明GAC的有效性,探索GAC中空间位置和特征属性的影响,并将GAC与CRF-RNN进行了比较[53],并研究初始特征的影响。
GAC的有效性。为了进一步了解所提出的GAC的有效性,我们将其与PointNet[33]的max算子(包括MLP)进行了比较,后者通过直接学习点集取得了很好的效果。具体来说,我们只将GAC中的注意机制替换为max操作符,而保持GACNet中的其余部分不变。S3DIS数据集的测试结果见表3。结果表明,GAC的平均IoU比max算子高出4.43%,说明GAC在区分特征学习方面比max算子具有更多的优势。实际上,PointNet[33]中的max算子充当了一个“最大注意”机制,它倾向于刻画特征空间中点集的轮廓,同时破坏对象点之间的结构连接。这使得max算子在对象分类方面表现良好,但在需要精细划分对象边界的地方分割能力较差。
空间位置和特征属性。在GAC中,相邻点的空间位置和特征属性作为空间和特征的引导,动态地产生它们的注意权重。为了探索它们各自的角色,我们设计了另外两种仅使用空间位置和特征属性的GAC变体。为了比较方便,他们在S3DIS数据集上的测试结果如表3所示。实验结果表明,空间位置和特征属性在GAC中对语义点云分割具有重要作用。空间位置跨越无序的邻域点到有意义的对象曲面,而特征属性通过给不同的邻域赋予适当的权重,进一步引导GAC适应对象的结构。在没有空间位置约束的情况下,点只与具有相似初始特征的邻域进行信息交换,导致最终特征是零碎的,难以形成有意义的对象。没有特征属性的引导,卷积核很难区分对象的边界,当前点很容易被相邻对象污染(如图5所示)。
CRF-RNN。如第3.2节所述,我们的GACNet实际上与CRF模型具有相同的特性,这鼓励相似点之间的特征和标签一致性。为了实验验证这个声明,我们移除GACNet中的最后一个GAC层,并使用不同的迭代将其替换为CRF-RNN[53]。具体地说,我们使用来自[21]的高斯核来计算CRF的成对势。为了比较方便,表3还提供了它们在S3DIS数据集上的测试结果。我们可以看到,在一次迭代中,CRF-RNN已经基本收敛,并且更多的迭代不会导致显著的精度提高。由于我们的GACNet在网络的每一层都具有相同的CRF特征(第3.2节),CRF不再需要重现。
初始特征的影响。在上述S3DIS数据集上的实验中,每个点的初始特征向量由高度、RGB和地理特征组成。在这部分我们提供了额外的消融研究,以进一步了解不同初始输入特征的GACNet的性能。我们设计了三个对比实验,分别去除RGB信息、地理特征和两者。S3DIS数据集的测试结果见表3。相比之下,mIoU分别下降了2.69%、2.48%和3.89%。然而,与测试阶段相对较大的精度差异相比,我们还注意到,没有地理特征的训练精度实际上与我们的标准GACNet相差不大(如图6所示)。初始地理特征作为底层通用特征,根据先验知识进行设计,有利于网络的泛化。
我们比较了GAC和max算子对随机高斯噪声的稳健性和对丢失数据的抵抗能力。然而,由于附加噪声会改变分割任务中某个点的类属性,因此我们转向分类任务进行鲁棒性和压力测试。我们在ModelNet40[50]形状分类基准上实现了这项工作。共有12311个CAD模型,来自40个人工对象类别,分为9843个用于训练和2468个用于测试。我们在网格上均匀地采样1024个点,并将它们规范化为一个单位球体作为网络的输入。我们的分类网络是通过简单地将GACNet中的特征插值层替换为全局池化层来构建的,并且网络的输入只是每个点的高度信息。所有模型都是在不增加数据的情况下训练的。在稳健性测试中,输入点加入一系列标准差和零均值的高斯噪声。在压力测试中,输入点的一系列比值被随机剔除。从图7中,我们可以看到max算子对噪声更敏感,因为它实际上倾向于捕获最“特殊”的特征(可能是噪声),而GAC由于其空间和特征约束而对噪声具有鲁棒性。对于缺失数据,当缺失率为40%时,GAC的准确率下降了13.66%,而max算子的准确率下降了
提出了一种新的具有可学习核形状的图形注意卷积算法(GAC),用于三维点云的结构特征学习。我们的GAC是一个通用且简单的模块,它保持了标准卷积的权值共享特性,并且可以有效地在图形数据上实现。我们应用GAC训练了一个端到端的语义点云分割网络。理论分析和实证实验都表明了本文提出的GAC的有效性和优越性。