Paper list(9): nobody

【摘要】

       点云提供了一种灵活的、可扩展的几何表示,适用于计算机图形学中的无数应用程序,以及括大多数3D数据采集设备的原始输出。因此,直接作用于点云的智能计算模型的设计是至关重要的,特别是当考虑到效率或噪声而排除了昂贵的去噪和网格化过程的可能性时。虽然在图形和视觉领域,人工设计的点云特征早已被提出,但是最近卷积神经网络(CNNs)在图像分析方面取得的巨大成功表明,将CNN的视角应用到点云世界的价值。

       为此,我们提出了一种新的神经网络模块EdgeConv,该模块适用于基于cnn的高级别点云任务,包括分类和分割。EdgeConv是可微分的,可以插入到现有的架构中。与主要在外部空间运行或单独处理每个点的现有模块相比,EdgeConv具有几个吸引人的特性:它合并了局部邻域信息;它可以被堆叠或递归地应用来学习整体形状属性;而在多层系统中,特征空间的亲密性捕获了原始嵌入中潜在的长距离语义特征。除了提出此模块之外,我们还提供了广泛的评估和分析,以揭示EdgeConv捕获和利用点云的细粒度几何特性。该方法在包括ModelNet40和S3DIS在内的标准基准上实现了最先进的性能

【引言】

       点云,或在2D或3D中分散的点集合,可以说是最简单的形状表示;它们还包括三维传感技术的输出,包括激光雷达扫描仪和立体重建。随着快速三维点云采集的出现,最近的图形和视觉处理管道往往直接处理点云,由于效率考虑或噪声存在时这些技术的不稳定性,从而绕过了昂贵的网格重建或去噪。点云处理和分析的许多最新应用包括室内导航[57]、自动驾驶车辆[33]、机器人[40]以及形状合成和建模[14]。

       现代应用程序要求对点云进行高级处理。最近的算法不再识别角和边等突出的几何特征,而是搜索语义线索和启示。这些特性并不完全适合计算或微分几何的框架,通常需要基于学习的方法,通过对标记或未标记的数据集进行统计分析来获得相关信息。

       在本文中,我们主要考虑点云处理领域中的两个模型任务:点云分类和分割。传统的解决这些问题的方法使用手工制作的特征来捕获点云的几何属性[26,38,39]。最近,用于图像处理的深度神经网络的成功激发了一种数据驱动的方法来学习点云上的特征。深度点云处理和分析方法发展迅速,在各种任务上都优于传统方法[10]。

       然而,让深度学习适应点云数据远非易事。最关键的是,标准的深度神经网络模型以规则结构的输入数据为输入,而点云从根本上是不规则的:点位置在空间中连续分布,点位置的任何排列顺序都不会改变空间分布。使用深度学习模型处理点云数据的一种常见方法是首先将原始点云数据转换为体积表示,即3D网格[30,54]。然而,这种方法通常会引入量化工件和过多的内存使用,使得很难捕获高分辨率或细粒度的特性。

       先进的深度神经网络是专门设计来处理点云的不规则性,直接操作原始点云数据而不是传递给中间规则表示。该方法由PointNet[34]率先提出,它通过在每个点上独立操作,然后应用一个对称函数来累积特征,从而实现点的排列不变性。PointNet的各种扩展考虑点的邻域,而不是独立地作用于每一个点[36,43];这些允许网络利用局部特性,提高基本模型的性能。这些技术主要是在局部尺度上独立处理点以保持排列不变性(permutation invariance)。然而,这种独立性忽略了点之间的几何关系,这是导致局部特征缺失的基本限制。

        为了解决这些缺点,我们提出了一种新的简单操作,称为EdgeConv,它在保持排列不变性的同时捕获局部几何结构。EdgeConv不是从点的嵌入(embeddings)直接生成点的特性,而是生成描述点与其邻居之间关系的边缘特性(edge features)。EdgeConv被设计成对邻域排序的不变量,即排列不变量。

       EdgeConv易于实现并集成到现有的深度学习模型中,以改进它们的性能。在我们的实验中,我们将EdgeConv集成到基本版本的PointNet中,而不使用任何特性转换。我们的业绩大幅提升;得到的网络在几个数据集上实现了最先进的性能,最显著的是ModelNet40和S3DIS用于分类和分割。

      我们总结了关键的贡献,如下:

•我们提出了一种新的点云操作,EdgeConv,以更好地捕捉点云的局部几何特征,点云仍然保持排列不变性。

•我们证明了该模型可以通过动态更新graph来学习语义分组点group points 。

•我们演示了EdgeConv可以集成到用于点云处理的多个现有管道。

•我们对EdgeConv进行了广泛的分析和测试,显示它在基准数据集达到了最先进的性能。

【相关工作】

手工制作的特征:

在几何数据处理和分析中的各种任务,包括分割、分类和匹配,需要一些形状之间的局部相似性的概念。传统上,这种相似性是通过构造捕获局部几何结构的特征描述符来建立的。在计算机视觉和图形学领域,无数的论文提出了适用于不同问题和数据结构的点云的局部特征描述符。对手工设计的点特征的全面概述超出了本文的范围,但是我们建议读者参考[51,15,4]来进行全面的讨论。

广义地说,人们可以区分外在描述符和内在描述符(extrinsic and intrinsic descriptors)。外部描述符通常来源于三维空间中形状的坐标,包括形状上下文[3]、自旋图像[17]、积分特征[27]、基于距离的描述符[24]、点特征直方图[39,38]、正常直方图[50]等经典方法。内在描述符将三维形状视为流形,其度量结构(metric structure)被离散为网格或图;根据定义,用度规表示的量是固有的和不变的等距变形(quantities expressed in terms of the metric are by definition intrinsic and invariant to isometric deformation)。这类的代表包括光谱描述符,如全局点特征[37],热波核特征[48,2],和变体[8]。最近,有几种方法围绕标准描述符来包装机器学习方案[15,42]

特征学习:

       在计算机视觉领域,依赖手工特征的方法在图像识别等具有挑战性的图像分析问题上已经达到了一个稳定阶段。卷积神经网络(convolutional neural networks, CNNs)的使用带来了一项突破[22,21],导致了一种势不可当的趋势,那就是抛弃手工制作的特征,转而使用从数据中学习特定任务特征的模型。

     深度神经网络是CNN的一个基本架构,它将卷积和池化层结合在一起,以在图像中聚合局部信息。这一图像深度学习的成功表明,将关注点应用到像点云这样的几何数据上是有价值的。然而,与图像不同的是,几何数据通常不在底层网格(underlying grid),因此需要对构建块(如卷积和池)进行新的定义。

       现有的三维深度学习方法可以分为两个类。基于视图和体积的表示例证了将几何数据放置到网格中,并将现有的深度学习算法应用到适应的结构中的口述。其他方法用特殊运算代替深度神经结构的标准构造块的方法适合于非结构化几何数据[29,6,31,34,36]。我们提供最接近的技术细节如下。

基于视图的方法:

       基于视图的技术将一个3D对象表示为一个2D视图集合,那么,标准cnn应用得以应用。通常,CNN应用于每个视图,然后通过视图池化过程(view pooling procedure)[47]聚合结果特性。基于视图的方法也适用于输入来自3D传感器并表示为一系列范围的图像[53],在这种情况下可以使用单个视图。

基于体素的方法:

       直接将非结构化几何数据转换为常规3D网格的方法,在该网格上可以应用标准的CNN操作[30,54]。这些体积表示通常是wasteful,因为体素化产生了一个稀疏占用的3D网格。时间和空间的复杂性限制了体积网格的分辨率,产生了量化的工件。最近,空间划分方法如k-d树[20]或八叉树[49]解决了一些分辨率问题,但仍然依赖于边界体的细分,而不是局部几何结构。最后,[35]研究了基于视图和体积方法相结合的3D形状分类方法。

PointNets:

       PointNets包含了一个特殊的点集架构类,比如3D点云。关键点在于利用一个对称函数应用于三维坐标的方式获得不变的排列。虽然它们在点云分析任务上取得了令人印象深刻的性能,但点网单独对待每个点,本质上是学习从3D到潜在特性的映射,而不利用局部几何结构。映射学习对点云的全局变换敏感,为了解决这个问题,PointNet使用了一个复杂的、在计算上非常昂贵的空间转换器网络来学习3D对齐。

        局部信息对于特征学习是重要的。首先,对于人工描述符,局部特征通常考虑相邻点之间的几何关系,以便对各种转换具有鲁棒性。其次,局部信息对于基于图像的深卷积架构的成功至关重要。后续工作提出了一种改进的PointNet++体系结构,该体系结构利用局部点集的几何特征,并对这些特征进行层次聚集来进行推理[36]。在[43]中也提出了类似的方法,从point kernel correlation layer 中获取初始点特征,然后在邻近点之间进行聚合。得益于局部结构,pointnet++在几个点云分析基准测试上实现了最新的结果。但是,pointnet++仍然独立地处理局部点集中的各个点,并且不考虑点对之间的关系。

几何深度学习:

PointNet例举了一类基于非欧几里德结构数据的广泛的深度学习体系结构,称为几何深度学习[7]。这些方法可以追溯到在早期[41]上构造图神经网络的方法。最近,[9]提出了一种通过拉普拉斯算子[44]对图进行卷积推广的方法。这种基本方法存在许多缺点,包括拉普拉斯特征分解的计算复杂性、表示卷积滤波器的大量参数以及缺乏空间定位。这些问题在后续工作中通过使用多项式[11,19]或合理的[23]频谱滤波器得到了缓解,这些滤波器避免了拉普拉斯特征分解,同时保证了定位。

     频谱图CNN模型具有明显的等距不变性,因此已被应用于非刚性形状分析[5]。然而,一个关键的难点是拉普拉斯特征基受限于域。因此,对一种形状学习的过滤器可能不适用于其他形状。谱转换网络在一定程度上解决了这一问题[56]。

    非欧几里德卷积的另一种定义采用空间滤波器,而不是谱滤波器。测地线CNN (GCNN)是一个深入的CNN网络,使用局部固有化参数,推广了patches的概念[29]。它相对于谱方法的关键优势是更好的泛化。后续工作提出了使用各向异性扩散[6]或高斯混合模型技术[52,31]。[25]将可微分的功能映射[32]层合并到一个几何深度神经网络中,允许对非刚性形状之间的对应关系进行内在的结构化预测。

    最后一类的几何深度学习方法试图通过将形状嵌入具有平移不变结构的域(如球面[46]、圆环面[28]或平面)来进行卷积运算[13]

【本文工作】

       我们提出了一种受PointNet和卷积操作启发的方法。然而,受图神经网络的启发,我们不是在像PointNet这样的个别点上工作,而是通过构造局部邻域图和对连接邻域点对的边缘执行近似于卷积的操作,以建立局部几何结构,。我们在下面的文章中展示了这种被称为边缘卷积(EdgeConv)的操作,它具有介于平移不变性和非局部性之间的特性。

       与graph CNNs不同的是,图不是固定的,而是在网络的每一层进行动态更新的。也就是说,一个点的k近邻在网络的各个层之间是变化的,并由sequence of embeddings计算得到。特征空间中的相似性与输入中的相似性不同,导致点云信息的非局部扩散。

【结论】

       在这项工作中,我们提出了一种新的点云学习算子,并展示了它在各种任务中的性能。我们的技术的成功验证了我们的假设,即局部几何特征对于三维识别任务是至关重要的,甚至在引入了来自深度学习的机器之后也是如此。此外,我们证明我们的模型可以很容易地修改为各种任务,如正常预测,同时继续取得合理的结果。

       虽然我们的架构可以很容易地集成到现有的管道中,用于基于点云的图形、学习和视觉,但我们的实验也表明了未来研究和推广的途径。首先,我们的模型的成功表明,如果内在特征不仅仅是简单的点坐标,那么它们也具有同样的价值;开发一个实用的和理论上合理的框架来平衡学习过程中内在的和外在的考虑,这需要从几何处理的理论和实践中得到启发。另一个可能的扩展是设计一个非共享的转换网络,它在每个local patches上以不同的方式工作,为我们的模型增加了灵活性。最后,我们将考虑我们的技术在更抽象的点云中的应用,这些应用来自于文档检索而不是3D几何;除了扩大我们的技术的适用性,这些实验将提供深入了解几何在抽象数据处理中的作用。

你可能感兴趣的:(Paper list(9): nobody)