2020-07-07 CVPR2020 i3DV论文讨论(3) 笔记

目录

  • [1] PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization
  • [2] Height and Uprightness Invariance for 3D Prediction from a Single View
  • [3] RoutedFusion: Learning Real-time Depth Map Fusion
  • [4] Information-Driven Direct RGB-D Odometry
  • [5] Anisotropic Convolutional Networks for 3D Semantic Scene Completion
  • [6] Total3DUnderstanding: Joint Layout, Object Pose and Mesh Reconstruction for Indoor Scenes from a Single Image
  • 总结

[1] PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization

  • 出自南加大的一个系列工作
  • task:基于图片的三维重建
  • motivation:重建的表面不够细节,不够精致,high-fidelity + accuracy + high resolution
  • high-fidelity:Pixel-Aligned Implicit Funciton(ICCV 2019,简称PIFu)。
  • 得到high-fidelity的重建后,如何得到accuracy + high resolution?使用双分支结构,上分支对原图进行下采样,使用Coarse PIFu进行处理;下分支先预测前后双向的表面法向量结构,使用Fine PIFu进行处理。然后,采样空间中的一个点,在低分和高分向量中找到local向量,过MLP后判断是否在表面上。
    2020-07-07 CVPR2020 i3DV论文讨论(3) 笔记_第1张图片

[2] Height and Uprightness Invariance for 3D Prediction from a Single View

  • task:单视角三维重建
  • motivation:已有方法忽略了一个问题——不同相机位姿下物体高度是不变的。解决data conflict问题——两张图片能对应到同一个点,但是它们的label对不上。eg:跟踪同一个视频中的两个物体,跟踪物体1时,物体2是负样本,跟踪物体2时,物体2是正样本。
  • method:检测地平面,计算相机高度,对坐标进行变换。

[3] RoutedFusion: Learning Real-time Depth Map Fusion

  • task:输入:位姿、RGB-D图像,输出:融合后的完整的3D场景。
  • background: TSDF。
  • motivation:文中在Introduction中列出了3个优点、6个缺点。①. TSDF采用加权更新,具有一定限制。②. TSDF的更新是线性的,截断值t是预设的,会产生伪影。③. 融合可能会把正反平面抵消。④. 噪声无法处理。⑤. 无法处理gross outliers。⑥. 存在超参,对于特定的场景需要进行调整。
  • method:通过降噪和异常处理(自编码器)解决④⑤,通过refine解决②。其实就是都交给网络去学。
  • 本文方法不是端到端的。

[4] Information-Driven Direct RGB-D Odometry

  • task:基于RGB-D的视觉里程计。
  • related works:特征点法、直接法。
  • contribution:第一个引入信息理论的方法,在每个模块(小节)中都引入了信息理论,在每个小节中都有motivation。
  • 本文在BA(Bundle Adjustment)凸优化的基础上,针对计算效率进行优化。
    2020-07-07 CVPR2020 i3DV论文讨论(3) 笔记_第2张图片

[5] Anisotropic Convolutional Networks for 3D Semantic Scene Completion

  • task:从静态深度图或RGB图像感知三维世界。
  • motivation:现有方法存在两个问题:①. 三维卷积的感受野固定,不能迎合物体的变化。②. 三维卷积是计算密集型,消耗较大。后有方法解决了第二个问题,本文主要针对第一个问题。
  • method:提出AIC模块,不使用固定大小卷积核,学习卷积核的大小,形成不同的感受野。

[6] Total3DUnderstanding: Joint Layout, Object Pose and Mesh Reconstruction for Indoor Scenes from a Single Image

  • task:室内场景语义重建。
  • motivation:在场景理解和物体网格重建之间架起桥梁。
  • contribution:①. 本文是第一个端到端的、在实例等级上使用网格重构的3D场景理解方法。②. 在对象网格生成中,提出一种新的密度感知拓扑修改器。③. 本文方法考虑了对象之间的attention机制和多边关系。

总结

  • [1]中通过重建front/back normal来增加细节信息,V&L中能通过什么增加细节信息呢?
  • 使用信息论做决策,如何能套到V&L中?可否替代一些强化学习的决策方法?

你可能感兴趣的:(论文分享)