NeuralRecon: Real-Time Coherent 3D Reconstruction from Monocular Video 论文阅读笔记

论文阅读笔记

文章目录

  • 论文阅读笔记
    • 论文名称:[NeuralRecon: Real-Time Coherent 3D Reconstruction from Monocular Video](https://arxiv.org/pdf/2104.00681.pdf)
      • [论文笔记原文写在个人的 有道云笔记上,这里可以看到插图](https://note.youdao.com/s/32hCfwDl)
    • 一、论文摘要部分
    • 二、论文introduction部分
    • [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TScMOfYS-1636377266427)(https://note.youdao.com/yws/res/4/WEBRESOURCE1ecc365117102c44545cdb5316873094)]
    • 相关工作
        • Multi-view Depth Estimation.
        • 3D Surface Reconstruction.
        • Neural Implicit Representations.
    • 方法
    • 项目介绍
      • Demo:
    • 备注
      • 相机标定

  • 阅读人:邓珺礼
  • 阅读时间:2021年9月29日
  • 阅读耗时:1小时

论文名称:NeuralRecon: Real-Time Coherent 3D Reconstruction from Monocular Video

论文笔记原文写在个人的 有道云笔记上,这里可以看到插图

  • 论文名称中文翻译:
  • 会议/期刊名称: CVPR2021
  • CCF级别: A
  • 作者(所有):
  • 作者学校/研究机构(一作,中文):
  • 作者所在实验室/研究机构的名称:
  • 实验室/研究机构的网址:
  • 论文项目网址:https://zju3dv.github.io/neuralrecon
  • 代码开源地址(没有,写无):https://github.com/zju3dv/NeuralRecon
  • 第一作者近三年内的代表作:
    1.
    2.
    3.
    4.

一、论文摘要部分

  1. 本文解决什么问题?
  2. 本文提出的解决方案。
  3. 中文总结出本文的核心思想、最大亮点。
  • 提出了单目视频实时重建三维场景的方法,之前的方法是分别估计每个关键帧的单视角的深度图并把它们融合到一起。
  • 提出了一种直接重建局部表面表示的方法。对每个视频段序列,把局部表面看做稀疏的TSDF体素。一种基于学习的TSDF模块,基于逻辑回归门的单元用于指导网络从之前的段落中融合特征。
  • 第一个实时的基于学习的系统来三维重建

二、论文introduction部分

逐段总结Introduction中心思想(如果是背景描述,可以简单几句话概括;如果是前人方法的不足,需重点归纳;等等。。。。。),不要逐字翻译,而是在理解基础上做归纳总结。

  • 相机运动可以通过视觉惯性SLAM系统来捕捉到,实时的基于图像的稠密重建还是挑战,因为计算量大和质量不好。
  • 大部分使用深度图融合方法。
  • KinectFusion使用RGBD
  • 单视角深度图 多视角深度图,估计出来的深度图用多视角一致性和时间平滑性作为标准过滤,融合为一个 Truncated Signed Distance Function (TSDF)
    volume。
  • 重建出来的mesh可以通过Marching Cubes algorithm提取出来。最终的重建结果可以从更新后的全局 TSDF 中通过 Marching Cubes 算法获得。
  • 基于深度的方法有两个缺点
    1. 单视角深度图是分别独立估计每个关键帧的,而不是基于固有的视角重叠。因此即使有正确的相机运动,视角因子也会有变化。每张图深度不一致。重建结果会有分层或分散。
    2. [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6pBEzvuU-1636377266426)(https://note.youdao.com/yws/res/4/WEBRESOURCE71a200d6e98193b2a783a6a0e381a3d4)]
    3. 关键帧图像是在重叠的局部窗口分别估计出来的。有很多冗余的计算量。
  • 直接得到三维体素,都不需要深度图了。减少了计算深度图的计算量,我们能哟红更大的3D卷积方法从而实现实时。使用笔记本的GPU都可以,详细参见项目readme
  • 用稀疏卷积,3d 特征 volume 输出 稀疏 TSDF volume。
  • 使用了从粗到细的设计,预测到的TSDF越来越精细。
  • 用了GRU Gated Recurrent Unit
  • 常用分类
    1. 基于深度
    2. volume-based Atlas

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TScMOfYS-1636377266427)(https://note.youdao.com/yws/res/4/WEBRESOURCE1ecc365117102c44545cdb5316873094)]

相关工作

Multi-view Depth Estimation.

  1. 图像一致性假设

3D Surface Reconstruction.

Neural Implicit Representations.

方法

具体来说,该方法提出了一个基于GRU的联合重建与融合模块。如下图,在每个阶段,三维特征体都会首先通过一个三维稀疏卷积,并进行三维几何特征提取。然后,三维几何特征会被输入进GRU联合重建与融合模块。该模块会将三维几何特征与在历史片段重建中获得的隐变量进行融合,并通过一个全局感知机回归 TSDF 和占有分数。

直观地说,这里的GRU作为一种基于学习的选择性注意机制,可取代传统TSDF融合中的线性操作。在后续的步骤中,因为GRU进行了联合重建与融合的操作,所以会直接将回归的TSDF替换对应区域的全局TSDF,最终的重建结果可以从更新后的全局 TSDF 中通过 Marching Cubes 算法获得。

直观地说,这里的 GRU 作为一种基于学习的选择性注意机制,可取代传统 TSDF 融合中的线性操作。在后续的步骤中,因为GRU 进行了联合重建与融合的操作,所以会直接将回归的 TSDF 替换对应区域的全局 TSDF,最终的重建结果可以从更新后的全局 TSDF 中通过 Marching Cubes 算法获得。

项目介绍

Demo:

  • To capture data and run this demo, an Apple device (iPhone or iPad) with ARKit support is required. Generally speaking, devices released after 2017 (e.g. iPhone 7 and later generations) are all supported. You can search for ‘arkit’ on this page to find out. You will also need a Mac computer to compile the data capture app and a GPU-enabled machine (GPU memory > 2GB) to run NeuralRecon.

备注

  1. 解析视频周晓巍教授valse2021放在邓珺礼主机

  2. [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-y3uZxT58-1636377266428)(https://note.youdao.com/yws/res/4/WEBRESOURCE864c17b989f0f13f7d890194d0a27124)]

  3. 唐宇迪三维重建课程

  4. [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-p2AQFSZU-1636377266430)(https://note.youdao.com/yws/res/4/WEBRESOURCE53a3b3b301d19e4d4172f6149b9d0be4)]

  5. 大神解读neuralrecon

  6. 【泡泡图灵智库】NeuralRecon:单目视频的实时Coherent三维重建

  7. 稠密重建到mesh的Marching Cube算法

  8. TSDF解读

相机标定

求解相机参数的过程

你可能感兴趣的:(r语言,3d,人工智能)