论文阅读--Deep Stereo using Adaptive Thin Volume Representation with Uncertainty Awareness

UCSNet(CVPR2020)

  • 论文阅读
      • UCSNet(CVPR2020)
        • 1. MVSNet
        • 2. UCSNet细节
          • a. Cascade module
          • b. Plane sweep volume
          • c. Uncertainty awareness
          • d. Adaptive thin volume

论文阅读

UCSNet(CVPR2020)

论文全称:Deep Stereo using Adaptive Thin Volume Representation with Uncertainty Awareness

论文地址:https://arxiv.org/abs/1911.12012

代码地址:https://github.com/touristCheng/UCSNetgithub.com

论文概要:该论文基于MVSNet进行改进。通过论文标题可知,Deep Stereo是指深度立体几何,即利用深度学习的方法进行深度估计;using Adaptive Thin Volume Representation 指出了本文的创新点之一,构造了Adaptive Thin Volume(ATV)这个模块来对模型进行改善;with Uncertainty Awareness是本文的第二个创新点,利用了Uncertainty的机制对深度扫描范围进行约束。整体来说,本文利用了ATV和Uncertainty Awareness机制对进行多视图深度估计。

分块讲解

1. MVSNet

以下参考于:https://zhuanlan.zhihu.com/p/148569782?from=groupmessage

MVS是第一个开源的基于深度学习的三维重建系统,该论文的整理流程为:

  1. 输入一张reference image(为主) 和几张source images(辅助);

  2. 分别用网络提取出下采样四分之一的32通道的特征图;

  3. 采用立体匹配(即双目深度估计)里提出的cost volume的概念,将几张source images的特征利用单应性变换( homography warping)转换到reference image,在转换的过类似极线搜索,引入了深度信息。构建cost volume可以说是MVSNet的关键。具体cost volume上一个点是所有图片在这个程中,点和深度值上特征的方差,方差越小,说明在该深度上置信度越高;

  4. 利用3D卷积操作cost volume,先输出每个深度的概率,然后求深度的加权平均得到预测的深度信息,用L1或smoothL1回归深度信息,是一个回归模型。

  5. 预测正确的深度信息,重建成三维点云。

论文阅读--Deep Stereo using Adaptive Thin Volume Representation with Uncertainty Awareness_第1张图片

2. UCSNet细节

先上论文图:

论文阅读--Deep Stereo using Adaptive Thin Volume Representation with Uncertainty Awareness_第2张图片

论文整体流程为:

  • 输入reference image 和 source image;
  • 利用 2D Unet 进行特征提取,将上采样的3层分别提出以备用;
  • Stage 1:利用小特征图进行Plane Sweep并计算出Plane Sweep volume,进而利用3D CNN计算出Probability volume,接着用uncertainty estimation将深度扫描范围进行更新(下阶段不用plane sweep了)并估计出深度;
  • Stage 2:利用上阶段估计的范围,调整深度扫描范围,构建出比较轻量级的Adaptive thin volume,接着步骤和stage 1类似;
  • Stage 3:步骤与stage 2类似,最后计算出深度估计,得到最终结果。
a. Cascade module

UCSNet的第一个改进就是将传统的MVSNet改成类似于级联(Cascade)的网络结构,利用粗(Coarse)到精(Fine)的特征图进行优化操作。

论文阅读--Deep Stereo using Adaptive Thin Volume Representation with Uncertainty Awareness_第3张图片

如图所示,UCSNet利用2D Unet对原始输入图片分别进行提取,其中用到了三层上采样的部分,以下称为小、中、大特征图,进行下一步操作。

b. Plane sweep volume

本文利用平面扫描方法,将 source image 通过单应性变换 warp 到 reference image 的视角中,构建 cost volume。构建的具体流程如下三图:

论文阅读--Deep Stereo using Adaptive Thin Volume Representation with Uncertainty Awareness_第4张图片

对于已知相对位姿两帧图像,reference image中的一个pixel只可能对应于matching image中epipolar line上边的pixel。在拍摄方向上取不同的点(d_1, d_2, …, d_9)分别对应于不同pixel。每个pixel根据其邻域信息计算matching cost,也就是它与reference image中那个pixel的匹配程度。

论文阅读--Deep Stereo using Adaptive Thin Volume Representation with Uncertainty Awareness_第5张图片

每个pixel可以用一个vector来记录不同深度上的matching cost。所有的pixel就构成了一个tensor,也就是所谓的cost volume。

论文阅读--Deep Stereo using Adaptive Thin Volume Representation with Uncertainty Awareness_第6张图片

c. Uncertainty awareness

该部分就是讲上述 Plane sweep volume 中固定的深度扫描范围,改成类似自适应的深度范围,对于每一个需要扫描的 pixel 都有对应的深度范围。
其中深度范围确定的计算公式则是由该pixel的上一层深度估计与方差确定。

首先 3D CNN 的最后一层为 softmax 层,输出每一个pixel对应深度的概率值,利用以下公式计算出深度期望值:

论文阅读--Deep Stereo using Adaptive Thin Volume Representation with Uncertainty Awareness_第7张图片

再根据深度期望,计算出每一个点的深度标准差:

论文阅读--Deep Stereo using Adaptive Thin Volume Representation with Uncertainty Awareness_第8张图片

开根号后为方差,最后利用以下公式对深度范围进行更新:

请添加图片描述

d. Adaptive thin volume

利用 Uncertainty awareness 后计算出深度扫描区域,进而进行深度扫描并构建cost volume,这得出的volume就是作者所说的 Adaptive thin volume。它的深度不是固定的,是根据pixel变化的,所以厚度和数据量也会少很多,所以叫thin volume。

你可能感兴趣的:(计算机视觉)