【论文精读】CVRecon: Rethinking 3D Geometric Feature Learning For Neural Reconstruction

今天读的是一篇发表在ICCV2023上的文章,试图使用mvs的方法来助力neural reconstruction。

项目地址:点击前往
文章地址:点击前往

文章目录

  • Abstract
  • 1 Introduction
  • 2 Related Works
  • 3 Methodology
    • 3.1 Method Overview
    • 3.2 Ray-contextual Compensated Cost Volume
    • 3.3 Implementation Details
  • 4 Experiments
  • 5 Conclusion

Abstract

由于缺乏深度信息,现有的基于volume的技术只是简单地沿着整个相机光线复制物体表面的2D图像特征。 我们认为这种重复会在空旷和封闭的空间中引入噪声,给生成高质量 3D 几何体带来挑战。 受传统MVS的启发,我们提出了一种端到端 3D 神经重建框架 CVRecon,旨在利用cost volume中丰富的几何嵌入来促进 3D 几何特征学习。 此外,我们提出了射线上下文补偿cost volume(RCCV),这是一种新颖的 3D 几何特征表示,可编码视图相关信息,并提高完整性和鲁棒性。 通过全面的实验,我们证明我们的方法显着提高了各种指标的重建质量,并恢复了 3D 几何形状的清晰细节。 我们广泛的消融研究为开发有效的 3D 几何特征学习方案提供了见解。

1 Introduction

主要有以下贡献:

  • 我们确定了神经重建领域现有特征学习方案的基本局限性,并相应地建议利用多视图cost volume作为直接的 3D 几何特征表示。
  • 我们观察到广泛使用的标准cost volume缺乏沿相机光线的分布参考信息,并提出光线补偿机制来解决这个问题。
  • 为了提高非重叠和低纹理区域中成本量的鲁棒性,我们提出了一种新颖的上下文修复模块。
  • 我们广泛的实验表明了我们提出的 RCCV 的有效性,及其与下游融合和预测模型的不可知性。

2 Related Works

介绍了volumetric-based 3D reconstructions、depth-based 3D reconstructions还有深度估计中的cost volume。

3 Methodology

【论文精读】CVRecon: Rethinking 3D Geometric Feature Learning For Neural Reconstruction_第1张图片

3.1 Method Overview

整体架构如上图,每个key frame关键帧会有一系列的reference frame参考帧(注意和mvs里面的reference image与source image作区分,其实就是这两个东西)。首先建立一个标准的cost volume,然后使用提出的光线补偿和上下文修复模块来增强这个代价体,生成的RCCV被通过grid sampling来集成进全局feature volume。再之后,一个3D CNN被使用,来从volumetric表达转变成TSDF volume。

这么做的优势有几个。

  • 直接创建RCCV作为输入图像的3D几何特征表达,与现存的back- projection机制相比,能避免引入噪声、提高重建质量。
  • 我们避免了使用2D深度图作为中间表达,深度图有一致性的问题,并且如果估得不准,会丢失关于物体表面的信息。我们使用端到端框架来保留所有几何信息亿达到准确重建。
  • 我们观察到标准的cost volume缺乏全局信息,代价的分布不是normalized并且出现了多峰的情况,从单个成本值预测几何形状需要光线分布作为参考。
  • 如图3所示,非重叠和无纹理区域的代价体没有携带太多有用的信息。因此,我们提出光线补偿和上下文修复来提高cost volume的完整性和鲁棒性。
    【论文精读】CVRecon: Rethinking 3D Geometric Feature Learning For Neural Reconstruction_第2张图片
    【论文精读】CVRecon: Rethinking 3D Geometric Feature Learning For Neural Reconstruction_第3张图片

3.2 Ray-contextual Compensated Cost Volume

先介绍了标准的cost volume是怎么做的,只是换了个说法来表达。
然后介绍了Camera Ray Compensation。对每个keyframe创建标准cost volume。基于深度图的方法会把这个volume变成2D,然后对每个像素估算深度。我们直接把它当作3D 特征表达,如果没有整体摄像机光线分布,3D 位置 [ d , h , w ] [d, h, w] [d,h,w] 的单个特征 R C R^{C} RC 不足以解码其几何形状。为此,我们提出这个补偿模块,构建特征,并且concatenate到标准cost volume上。
【论文精读】CVRecon: Rethinking 3D Geometric Feature Learning For Neural Reconstruction_第4张图片
最后介绍了一下Contextual In-painting。其实就是简单的卷积
关于fusion,获得每个图像关键帧的 RCCV 后,通过三线性插值的网格采样生成全局特征量。 考虑到我们提出的 RCCV 特征的下游操作的性质,我们发现它可以与各种帧间特征融合技术无缝集成。
关于TSDF,我们采用3D密集或稀疏卷积模块进行几何预测。 粗略和中等级别的预测是占用网格以稀疏化特征网格,而在精细级别,是直接预测 TSDF volume。
关于Loss,遵循NeuralRecon,我们将二元交叉熵(BCE)损失函数应用于粗略和中等水平的占用预测,并将L1损失函数应用于精细水平 TSDF预测。 TSDF真实值的分辨率为4cm。 遵循 Atlas,我们将TSDF volume真值中所有未观察到的列标记为未占用。

3.3 Implementation Details

介绍了实验细节。

4 Experiments

在ScanNet2上做了实验,效果看起来还不错。

5 Conclusion

复述了一下贡献。

你可能感兴趣的:(三维重建,3d,人工智能,深度学习,python,计算机视觉)