ICCV 2021 Oral | 无需法向的大场景点云表面重建

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达、

ICCV 2021 Oral | 无需法向的大场景点云表面重建_第1张图片

论文链接:https://arxiv.org/abs/2105.03582

代码已开源在github:

https://github.com/tangjiapeng/SA-ConvONet

1. 摘要

从点云进行表面重建(surface reconstruction from point clouds)是计算机视觉和图形学领域的一个基本问题。最近的先进方法通过在测试的阶段独立地优化每个局部隐式场来解决此问题。由于没有显式地考虑局部场之间的几何关系,这些方法需要使用精准的法向来帮助它们避免在局部隐式场相互交叠的区域产生符号翻转的问题。这个严格的需求导致了其真实扫描点云的重建结果并不鲁棒,因为原始扫描的点云是不带法向的。尽管SAL[1]通过无符号的隐式场学习(sign-agnostic learning)突破了这一局限性,未来的工作仍需要探索如何将这一技术应用于局部隐式场学习。为此,华南理工大学、香港理工大学、阿里巴巴达摩院,联合提出了SA-ConvONet: Sign-Agnostic Optimization of Convolutional Occupancy Networks,在同一个框架中实现三个重建目标:可处理大场景,能泛化到未见过形状,对真实扫描的原始点云具有鲁棒性。具体地,他们通过一个简单但有效的设计来实现这一目标,其为在测试阶段通过无符号的交叉熵损失函数(unsigned cross-entropy loss)进一步优化内外隐式场学习网络。内外隐式场的学习是基于3D U-Net学到的卷积特征[6]来实现的。和之前的先进方法在多个物体和场景表面重建数据集上进行的充分的对比表明了该方法的优越性。该论文已收录为ICCV2021 Oral论文。

2. 简介

ICCV 2021 Oral | 无需法向的大场景点云表面重建_第2张图片

图1 给一个复杂物体(左)或大规模场景(右)的无法向点云,

我们的方法能重建出精确的表面网格而不需要使用法向。

从点云进行表面重建对于智能系统感知和理解周围的三维环境具有重要的意义,其在许多的现实应用中扮演着重要的角色,比如计算机辅助制造,3D打印,机械臂抓取。近来,廉价可便携式的扫描仪如Kinect的出现使得获得3D点云更加的容易,这使得这一问题得到了广泛的关注。传统的表面重建方法根据预先定义好的几何先验采用数学优化的方式解决这一问题,然后基于深度学习的方法以数据驱动的方式从大规模的数据集中学习几何先验知识。最近,3D隐式场表征十分流行。相比其它的表达方式如体素,八叉树,点云,连续的隐式场理论上可实现无限分辨率的重建且能恢复任意的拓扑。

许多方法从不同的角度来改进隐式场表面重建方法。例如,为了能更好地扩展到大规模室内场景,一些方法选择去学习局部隐式场来表征局部表面的几何,同时将全局形状几何表示为局部隐式场的组合,而不是从一个潜在的向量中学习全局隐式场。为了更好地泛化到未见过的形状,一些工作尝试在测试时进一步优化网络参数搜索出对当前输入更优的解,而不是严格地固定住已经学好的网络参数。最近的先进方法通过在测试时独立地优化每个局部隐式场,可同时达到前面两个重建目标。由于没有显式地考虑局部场之间的几何关系,这些方法需要使用精准的法向来帮助它们避免在局部隐式场相互交叠的区域产生符号翻转的问题。这个严格的需求导致了其重建真实扫描点云的结果并不鲁棒,因为原始扫描的点云是不带法向的。尽管SAL[1]通过无符号的隐式场学习(sign-agnostic learning)突破了这一局限性,未来的工作仍需要探索如何将这一技术应用于局部隐式场学习。也就是说,至今没有一个方法能同时在一个框架里面实现三个重建目标:可处理大场景,能泛化到未见过形状,对真实扫描的原始点云具有鲁棒性。

为此,我们提出了一个隐式场表面重建方法:sign-agnostic optimization of convolutional occupancy networks,在同一个框架中达到上述的三个重建目标。我们提出了一个简单但又有效的设计,即在测试时以无符号学习的方式进一步优化内外隐式场(occupancy field)的学习,而内外隐式场的学习是基于3D U-Net学到的卷积特征[6]来实现的。我们的方法启发于两个关键的特点。第一个特点是在内外隐式场解码器(occupancy field)在有真实符号隐式场(ground-truth signed field)的3D数据集上预训练后, 它能为测试阶段的优化(test-time optimization)提供一个符号场作为初始化。该初始化使得我们能进一步使用无符号的损失函数约束内外隐式场预测网络的学习,最大化所想要得到的等值面和观察到的无法向点云之间的一致性。第二个特点是3D U-Net同时聚合了全局和局部形状特征。局部形状特征的使用不仅能帮助我们更好地保持表面细节,而且能支持我们进行大规模室内场景表面的重建。融合的全局形状特征可以在特征层面上约束局部隐式场之间的几何一致性,使得局部隐式场的组合总是一个合理的全局形状,即使我们没有使用法向信息提供全局引导。如图1所示,我们的方法能够直接从点云中很好地恢复出逼真的表面细节,而不使用法向信息。

ICCV 2021 Oral | 无需法向的大场景点云表面重建_第3张图片

图2: 算法总览图。

我们方法是基于convolutional occupancy networks(CONet)[6](图的中间部分)设计的,其用PointNet和3D U-Net组成的网络从81c74623692b9a641a75f3472f915121.png中提取出体素特征e273b4be3bd7ca8cdf5eafc4f6e76b0f.png用来预测一个内外隐式场3d1bb1c183af7d764a9b978f09469b08.png。我们首先将CONet在有ground-truth ce62b05efc5d55e594e8b174bf2e57e7.png的3D数据集上使用标准的二元交叉熵损失函数预训练(图的顶部)。测试时,我们提出的无符号优化阶段利用无符号交叉熵损失函数进一步微调整个网络参数进一步提高bc210e6c8ec437e68c51e86f0b0789f3.png的准确性(图的底部)。

3. 方法

3.1 Overview

给一个点集a0c3a94c05ee16bf11b28d449ba39a96.png作为输入,我们方法的目标是重建一个表面3d61177444d858c3dbb801a13c2c9ebf.png,其与潜在的真实表面745fb848c7e0d4a9587589d2a88a990e.png尽可能的像。我们选择通过预测一个隐式场9d5e2dea6c679ced11ca0102868065c4.png来逼近8d3f43d8976d4f1b998610f06db40185.png的隐式场表征26fb74ee961b557ed9fb4312b7fd9ae1.png,由于隐式场表达具有能实现无限分辨率且任意拓扑的表面重建。图2所示的是我们方法的算法总览图。我们的方法由两个阶段组成,分别是卷积内外隐式场学习网络的预训练(convolutional occupancy networks pre-training)和无符号的测试阶段网络再优化(sign-agnostic, test-time optimization)。前面那个阶段负责学习具有全局一致性约束的局部形状形状先验,为后一阶段提供合理的符号场作为初始化。后一阶段使用无符号的交叉熵损失函数进一步优化整个网络用以提高385b75b36c12ea3f11d1140edf403914.png的准确性。我们将在下面的3.2和3.3节中更多的方法细节。

3.2 Convolutional Occupancy Fields Pre-training

3.2.1 Convolutional Feature Learning

如图2所示,我们先将输入点云e053e80f3277eee946a9269189c67031.png通过一个轻量的PointNet网络提取出逐点特征。然后,我们通过聚合一个体素内的局部点云信息,将其转成大小为2d9c2297c1a237e82ab78124d8ec0c89.png的体素特征。具体地,我们使用平均池化来聚合落入同一个体素内的点云特征。为了能融合全局和局部形状信息,我们使用了一个3D U-Net来处理4d8aaf1449dde1fc1386bae6c85df03f.png进一步得到60cd0c5ae6248fb6c7176d5a2d26625a.png。由于3D CNN所固有的内存开销限制,我们将体素的大小设为242aa364d765bf607f68647e69608b6c.png,同时3D U-Net的深度设为4使得感受野和f7276d0510646d1b1f935ff65d3b2e9c.png的大小一致。由于卷积神经网络的平移等变性和U-Net融合的丰富的形状特征,我们的方法能支持大规模室内场景的表面重建。

3.2.2 Occupancy Fields Prediciting

 基于前面得到的体素特征79131badc4920646114c40f339ba7aad.png,我们能预测空间任意一个点f6a61d9d20fc0e0ffaac33c0b07a974c.png被分类为表面内的概率655e5b34b7802f8da813d7c1fb48026c.png。为此,我们首先根据effb84105234f9832bde6b8b44780ace.png的位置使用三线性内插取出对应的特征向量335e2f934b2b916cdac23b0e2e8abb7a.png,然后将e12324b05c48c1338c1bae618b8d22a5.png3a6da3408fee4df1264f8d0364bedd98.png送入由一个轻量的多层感知机网络实现的occupancy decoder 79e2079832a6f9dd721e4102b250daa3.png中:

6d9a32beaa3870c3b947ad2f1c493fed.png

a855e6cff5f04a093ad1f66f08e97fbb.png的分类概率是通过将网络输出1fd5170578c595e4a7f893301690db57.png经过sigmoid激活函数得到的。

3.2.3 Loss Function

在训练时,我们在真实形状的包围盒中随机采一个点集ff1956b3b209ed2b4e28af877f0d6129.png并计算它们对应的内外分类状态作为标签。我通过标准的二元交叉熵损失函数来训练网络:

ICCV 2021 Oral | 无需法向的大场景点云表面重建_第4张图片

3.3 Sign-Agnostic Implicit Surface Optimization

在测试阶段,我们可以通过一次前向操作直接输出隐式场得到测试结果。但是如果给定的输入偏离了训练集数据分布,我们很可能不能得到一个满意的输出结果。为了提高对未知形状的泛化能力,我可以选择对预训练得到的形状先验再次优化使其能更好地适应当前的输入。但是我们不能使用上式(2)定义的损失函数去监督测试阶段网络的微调,因为我们没有获知输入点云的法向信息,因此不能得到一个内外场作为ground truth。尽管我们可以选择去估计法向,但是法向估计过程中的累积误差将会加大我们恢复出干净的表面重建结果的难度。

但是,我们通过对基于U-Net的内外场学习网络进行无符号的优化来避免使用法向。根据SAL[1],我们知道通过合理地初始化网络参数,隐式场解码器能表征一个单位球的符号距离场,这可帮助我们通过无符号的损失函数训练获得符号场。类似地,预训练之后的内外场解码器也能提供一个符号隐式场作为测试时优化的初始化。这样,我们就可以直接使用无符号交叉熵损失函数来进一步约束内外场和输入点云之间的一致性,而不需要使用法向信息。此外,在优化时,我们能始终保持局部隐式场之间的几何一致性,因为我们使用了全局形状特征。因此,即使我们没有法向信息的引导,也能得到合理一致的全局形状。特别地,无符号损失函数被定义为:

ICCV 2021 Oral | 无需法向的大场景点云表面重建_第5张图片

d0370b3a34c8ceae480cafa0ecda79c2.png 是从真实表面5f3db27ad2918e7288b92391f9df0be5.png上采出的一个点集,5bb14087536cc3a5319c25d502c68210.png是从非表面区采出的一个点集。因为799bcf6eefa0db38b5f0893faa80cfbd.png未知。因此我们考虑使用观察到的表面点云1e851898858e035842df995e341a9f81.png作为其的一个近似逼近,然后将在3D空间随机采的点当作非表面点。更具体地,我们强迫观测到的表面a0c2980a62f3af62bf9ebccde766eed0.png和内外场的0.5等值面相接近,约束空间中点的内外分类概率要么是接近0或者接近1。

经过隐式场学习的无符号优化后,我们采用多分辨率等值面提取(Multi-resolution IsoSurface Extraction)和marching cubes算法来提取表面网格作为最终的重建结果。

4. 实 验

对比方法:我们和现有的四类表面重建的方法进行对比,包括(1)传统的基于优化的方法,如Screened Posisson Surface Reconstruction(SPSR)[4]; (2)基于深度学习的优化方法,如Sign-Agnostic Learning(SAL)[1]和Implicit Geometric Regularization (IGR)[2];(3)利用数据驱动学习形状先验,如Occupancy Networks(ONet)[5]和Convolutional Occupancy Networks(CONet)[6];(4)优化数据驱动学习到的形状先验,如LIG[3]。我们将不同方法的特点进行了总结对比,呈现在表1中。对于那些需要法向的方法,我们利用[7]的方法先估计无方向的法向,然后再进行朝向纠正。

ICCV 2021 Oral | 无需法向的大场景点云表面重建_第6张图片

表1 不同方法的工作条件总结。

由于我们的方法是对局部几何进行建模,且在测试时不需要使用法向信息也能对网络参数进行优化,因此我们方法是第一个同时实现以下三个重建目标的方法:可处理大场景,能泛化到未见过形状,对真实扫描的原始点云具有鲁棒性。

评估方式 我们使用Chamfer Distance(CD74b9e455daeda7120aacfab860f68f58.png), Normal Consistency(NC247b0fc9c8bcee68a1952a73619fc4df.png,以及F-score3524b07e0a9b690261cf866567ad4ad3.png作为主要的评估方式。我们报告两个阈值0d7fe6a541042960a07fc63f72803684.png0b038dcb8b68528b72e91308c0318151.png下测得的F-score结果(36489edb301401c30b654f19f515b39e.png)。我们通过在预测和真实的表面网格上随机采10,000个点来计算数值评估结果。对于CD而言,数值越低,重建结果越精确。对于NC和F-score,数值越高,重建结果越精确。

物体表面重建 我们首先在物体表面重建这个任务上进行实验对比。为了模拟真实扫描点云中的噪声,我们对输入的30,000个点用高斯噪声(均值为0,标准差为0.05)进行扰动。

ICCV 2021 Oral | 无需法向的大场景点云表面重建_第7张图片

图3 在ShapeNet-chair进行表面重建实验得到的可视化对比结果

ICCV 2021 Oral | 无需法向的大场景点云表面重建_第8张图片

表2 在ShapeNet-chair进行表面重建实验得到的数值对比结果

由图3展示的视觉效果可见,我们的方法对复杂物体的重建有一定的优势。和只使用全局形状特征的方法(例如ONet,SAL,IGR)相比,我们的方法更能刻画复杂的表面细节,这是因为我们利用了更丰富的形状特征(同时使用全局和局部特征)。此外,而不是像CONet一样在测试时严格地固定住所学到的形状先验,我们方法在测试时适当地对预训练得到的先验进行微调,这使得我们的方法能保持更加逼真的表面细节(如细长的杆和小洞)。此外,不准确的法向信息导致SPSR,IGR,和LIG容易产生有瑕疵的表面网格结果。然而,这并不会对我们的方法有负面影响,因为我们在测试阶段优化的过程中没有使用法向信息。表2的数值对比结果再次验证了我们方法的优越性。

     ICCV 2021 Oral | 无需法向的大场景点云表面重建_第9张图片

图4在synthetic indoor scene dataset上进行表面重建实验得到的数值对比结果

ICCV 2021 Oral | 无需法向的大场景点云表面重建_第10张图片

表3 在synthetic indoor scene dataset上进行表面重建实验得到的数值对比结果

室内场景的表面重建 我们还在室内场景重建的数据集上,和其他方法进行对比。如图4所示的视觉对比结果,我们可以看到我们的方法能重建一些椅子细长的腿,然而其他方法并不能。这表明我们的方法仍能被扩展用于大规模的室内场景,因为我们选择对局部几何进行建模,而不是像SAL和IGR一样对全局几何建模。和CONet相比,我们方法能重建更细粒度的表面几何,这表明我们的方法更容易泛化到那些未见过的场景,这是由于我们设计的测试阶段优化策略能有效地约束想要得到的隐式曲面和观察到的点云相接近。还有,避免法向估计使我们的方法能实现更加鲁棒的场景表面重建。表3中呈现的数值对比结果再次展现了我们方法的优越性。

ICCV 2021 Oral | 无需法向的大场景点云表面重建_第11张图片

表4 在真实场景数据集ScanNet上进行表面重建实验得到的数值对比结果

真实场景泛化测试 为了对比在真实扫描场景的泛化能力,我们还在真实场景数据集上(ScanNet和Matterport3D)评估不同方法的泛化能力。所有的方法仅在synthetic indoor room dataset上进行预训练,然后再直接进行测试。

ScanNet-V2: 图5和表4分别呈现了在ScanNet数据集上测试的可视化和数值对比结果。我们可以看到我们的结果有更好的数值评估分数和恢复更加细致的表面几何。这有效地表面了我们的方法具有对真实扫描的点云更好的泛化能力。

Matterport3D:为了验证我们方法是否可扩展用于包含多个房间的超大场景,我们还在Matterport3D上进行实验。我们采用滑动窗口的策略,分别对每个切割出来的小房间实施测试阶段再优化策略。图5(d)所示的是可视化对比结果。值得注意的是,Matterport3D中的场景和预训练网络时用到的synthetic indoor room十分不一样,但是我们方法仍能恢复每个房间的细致几何,并且保持场景的摆放。

这表明了我们的方法可更好地应用于超大场景,且对不同扫描设备中存在的噪声具有更好的鲁棒性。

ICCV 2021 Oral | 无需法向的大场景点云表面重建_第12张图片

图5 在ScanNet和Matterport3D数据集上进行表面重建实验得到的可视化对比结果。(a)(b)(c)是在ScanNet上测试得到的,(d)是在Matterport3D上的测试结果。

5. 总结

针对从无法向点云进行表面重建这一任务,我们提出了一个简单但有效的隐式曲面重建方法,sign-agnostic optimization of convolutional occupancy networks,在同一个框架中实现可处理大场景,能泛化到未见过形状,对真实扫描的原始点云具有鲁棒性这三个重建目标。从U-Net学到的卷积特征中学习隐式场的方法特性使得我们能够在测试阶段不需要法向信息也能对网络参数进行再次优化。在物体和场景数据集上进行的大量实验表明了我们方法能在数值和可视化对比中超越现有方法。我们方法的一个不足之处在于缓慢的测试速度,这也是测试阶段优化方法通用的缺陷之处,我们将其当作我们的未来工作展望。

Reference

[1] Matan Atzmon and Yaron Lipman. Sal: Sign agnostic learning of shapes from raw data. In CVPR, 2020

[2] Amos Gropp, et al. Implicit geometric regularization for learning shapes. ICML, 2020.

[3] Chiyu Jiang, et al. Local implicit grid representations for 3d scenes. In CVPR, 2020.

[4] Michael Kazhdan and Hugues Hoppe. Screened poisson surface reconstruction. ACM ToG, 2013

[5] Lars Mescheder, et al. Occupancy networks: Learning 3d reconstruction in function space. In CVPR, 2019.

[6] Songyou Peng, et al. Convolutional occupancy networks. In ECCV, 2020.

[7] Hugues Hoppe, et al. Surface reconstruction from unorganized points. In SIGGRAPH, 1992.

ICCV和CVPR 2021论文和代码下载

后台回复:CVPR2021,即可下载CVPR 2021论文和代码开源的论文合集

后台回复:ICCV2021,即可下载ICCV 2021论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF
CVer-3D点云交流群成立
扫码添加CVer助手,可申请加入CVer-3D点云 微信交流群,方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。
一定要备注:研究方向+地点+学校/公司+昵称(如3D点云+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲长按加小助手微信,进交流群
▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看ICCV 2021 Oral | 无需法向的大场景点云表面重建_第13张图片

你可能感兴趣的:(算法,python,计算机视觉,神经网络,机器学习)