[MVS]《Non-parametric Depth Distribution Modelling based Depth Inference for Multi-view Stereo》阅读笔记

基于MVS深度推断的非参数深度分布建模

摘要

通常,边界像素遵循多模态分布而非单峰分布。这使得在cost volume金字塔较粗级别上的错误深度预测,且不能在细化级别上进行校正,导致错误的深度预测。作者提出一种相反的方法,就是在非参数化的深度分布模型上处理单峰和多峰模型分布上的像素。作者的方法在早期阶段粗级别上输出多重深度假设从而避免错误。当在后续级别围绕这些假设进行局部搜索时,并不会保持刚性的深度空间顺序,因此,引进了一个稀疏的成本聚合网络来获取各个volume的信息。方法在DTU和Tanks&Temples数据集上对边界区域的表现比现有的方法有大幅度提升。

介绍

近来,使用cost volume pyramid的基于学习的方法通常在粗级别上构建的初始深度估计来执行局部深度搜索,而他们假设所有像素都服从单峰分布,并且将每个像素的深度估计为在预定范围内近似连续的深度分布期望。这些方法忽视了有剧烈深度变化的小物体和边界区域,在这些区域,单峰分布假设并不成立。
如果估计的粗深度远离实际深度,误差将传播到细化级别,并且无法通过局部深度搜索进行校正,从而导致不正确的深度预测。
作者通过使用多模态分布在不同分辨率下对每个像素深度进行显式建模。并且使用非参数分布沿着3D视觉线学习每个深度假设的概率。这种方法比其他参数化方法灵活,特别在由粗到细结构中。在最高分辨率下使用其对应深度块内的深度分布来指导学习过程。给定学习分布,并通过前K个概率对深度假设进行分支来构建下一级别的cost volume。
但是,由于像素深度分支处理,它失去了相对空间关系。所以,作者提出一种稀疏成本聚合网络,以保持相对空间关系。
论文主要贡献:

  • 提出了一个非参数深度概率分布模型,允许处理具有单峰和多峰分布的像素
  • 建立了一个基于已建模的像素深度概率分布来对深度样本进行分支,从而建立一个cost volume pyramid
  • 应用了一个稀疏的成本聚合网络来处理每个cost volume以维持其中的刚性的几何空间信息,并避免空间模糊
  • 作者的方法在边界区域效果比之前方法更优,并成为DTU数据集上目前的最新技术。

相关工作

解决两个主要问题:在粗水平上的早期决定和部分cost volumes的空间模糊性。而作者以一个非参数深度分布模型结合一个新型多尺度深度评估框架来解决第一个问题,以一个全新的稀疏cost volume公式和一个稀疏cost aggregation网络来保持刚性的空间关系解决第二个问题。

方法

[MVS]《Non-parametric Depth Distribution Modelling based Depth Inference for Multi-view Stereo》阅读笔记_第1张图片

这是作者基于从粗到精构建的cost volume金字塔执行深度推断的方法的总体流程。关键思想是基于围绕顶部K个深度假设的局部搜索来构建级联cost volume,并通过对像素深度概率分布建模来获得的。

Non-parametric depth distribution modelling

如果离散深度图具有足够高的分辨率。并且可以很好地近似连续深度分布,那么单峰深度分布就是一种有效的假设。难是,低分辨率的像素可能是一组具有不同深度值的3D点云的共同投影,尤其是在一些具有深度不连续物体边界的3D结构上时。
[MVS]《Non-parametric Depth Distribution Modelling based Depth Inference for Multi-view Stereo》阅读笔记_第2张图片

现有的级联cost volume方法使用单峰分布来表示这些像素可能导致不正确的深度估计。估计深度可能离任何深度模式太远,因此无法在后续的细化步骤中恢复。作者在一组离散的深度假设上近似该连续分布。

Cost volume pyramid

用于深度初始化的常规cost volume

给定一个预先定义的全局深度搜索范围,在逆深度空间上均匀采样深度值。每一个采样深度表示该平行于参考摄像机图像平面的一个平面。使用深度d计算出的differential homography,将源视图的特征映射到参考视图。并把matching cost计算为参考特征 f 0 L f_0^L f0L与被映射源特征 f i → 0 , d L f_{i\rightarrow0,d}^L fi0,dL的Group-wise相关性。然后估计每个深度假设平面的cost maps,并将它们连接成一个cost volume。并采用视图聚合模型来估计来自不同源视图的可见性映射并融合匹配代价。
给定常规cost volume,然后使用一个常规3D-UNet去cost aggregation。初始的成本聚合网络输出一个概率模型,其定义为每个像素的非参数深度概率分布,代表每个深度样本的可能性。

用于深度细化的稀疏cost volume

将level l l l上每个选定的深度样本细分为两个样本来定义level l l l-1的深度样本。
[MVS]《Non-parametric Depth Distribution Modelling based Depth Inference for Multi-view Stereo》阅读笔记_第3张图片

每个像素dm的计算公式为:
在这里插入图片描述

并且深度搜索间隔 Δ d l − 1 = 0.5 Δ d l \Delta d^{l-1}=0.5\Delta d^l Δdl1=0.5Δdl
然后根据新的深度样本构建cost volume来建模在level l − 1 l-1 l1d 深度概率分布。但因为深度样本是以像素方式形成的,因此不保留相邻3D点之间的相对空间位置。所以使用稀疏cost volume和基于稀疏卷积的聚合信息。

稀疏cost aggregation网络

因为使用常规的密集3D卷积不能使稀疏cost volume有效聚合,所以利用 p k p_k pk的刚性空间关系构建了一个稀疏成本聚合网络,由三个稀疏3D conv层、一个稀疏BN层和一个稀疏ReLU激活层组成。网络的输出是一个概率分布,可作为构建下一细化级别的cost volume的输入,如图。
[MVS]《Non-parametric Depth Distribution Modelling based Depth Inference for Multi-view Stereo》阅读笔记_第4张图片

Depth Inference at full resolution

只在全分辨率level 0下执行深度推断,并将估计分布的期望作为每个像素的深度
在这里插入图片描述

损失函数

以高分辨率地面真实值的深度图观察近似为深度概率分布。而地面真实值概率分布近似于对应patch在全分辨率下的深度观测直方图,并由观察之和归一化。
[MVS]《Non-parametric Depth Distribution Modelling based Depth Inference for Multi-view Stereo》阅读笔记_第5张图片

最后,在预测概率和地面真实概率之间以二元交叉熵计算损失,
在这里插入图片描述

由于地面真值概率分布通常集中在少数几个假设上,导致零概率和非零概率样本数量不平衡,所以做了损失平衡。
[MVS]《Non-parametric Depth Distribution Modelling based Depth Inference for Multi-view Stereo》阅读笔记_第6张图片

在最后的level,损失采用 l 1 l_1 l1范数测量真实深度图与最终估计深度图之间的距离。
在这里插入图片描述

总损失是二元交叉熵损失和 l 1 l_1 l1损失的加权求和。
在这里插入图片描述

实验

实现

训练
使用大小为640 × 512的降采样和裁剪图像及其对应的深度图在DTU数据集上训练模型。
度量
精确度度量从估计点云到地面真实点云的距离,单位是毫米,完整性度量从地面真实点云到估计点云的距离。总分是准确性和完整性的平均值。
评估
设每层假设数为{M l}Ll=0 {8,16,32,96}进行检验。

在DTU上的结果

[MVS]《Non-parametric Depth Distribution Modelling based Depth Inference for Multi-view Stereo》阅读笔记_第7张图片

在平均完整性和总体得分上都优于所有现有的方法。
还利用平均深度误差分析了边界重建的质量在拉普拉斯金字塔的5个区域
[MVS]《Non-parametric Depth Distribution Modelling based Depth Inference for Multi-view Stereo》阅读笔记_第8张图片

对不同深度平滑区域的性能。该方法在边界区域(R0)误差最小。
在效率方面,模型需要6054 MB GPU内存和1.2s来估计全分辨率的深度图,这与现有的基于成本体积的方法相当。

在Tanks and Temples上的结果

[MVS]《Non-parametric Depth Distribution Modelling based Depth Inference for Multi-view Stereo》阅读笔记_第9张图片

与现有方法的定量比较。模型可以在坦克和庙宇的数据集上取得有竞争力的性能。

消融实验

[MVS]《Non-parametric Depth Distribution Modelling based Depth Inference for Multi-view Stereo》阅读笔记_第10张图片

使用标准3D卷积的非参数深度分布建模会由于空间模糊导致性能下降。提出的稀疏代价聚合可以提高基于单模的方法的性能。提出的非参数深度分布建模需要稀疏代价聚合以获得最佳重构质量。
局限
然而,稀疏卷积的计算成本很高,因为它们没有完全优化。这增加了推断时间。

结论

提出了一种基于每个像素的非参数深度概率分布建模的深度推断方法。作者的建模可以处理具有单模态和多模态深度分布的像素,比如边界上的像素。作者的方法在粗水平上不推断深度,这避免了在早期和随后传播到细化水平的深度误差。实验结果表明,该方法能够获得较好的性能,尤其是对边缘像素的提取。

你可能感兴趣的:(MVS,人工智能,机器学习,计算机视觉)