《Boosting Monocular Depth Estimation Models to High-Resolution ...》论文笔记

参考代码:BoostingMonocularDepth
论文:Boosting Monocular Depth Estimation Models to High-Resolution via Content-Adaptive Multi-Resolution Merging

1. 概述

导读:这篇文章提出了一种使用现有深度估计模型(MiDas)生成具有更高分辨率/更多细节表现深度图的方法(同时保持高分辨率和深度一致性是现存的挑战)。文章探究了输入的图像分辨率/图像中的结构信息是如何影响最后的深度估计的,也就是输入图像分辨率对模型带来的影响,以及通过图像中的结构信息进行细粒度深度细节优化。文章通过选择合适的策略在保持场景预测连续性和高频信息表达能力上取折中,生成了具有更多细节表现能力的深度估计方法。文章的策略主要归纳为两点:
1)探究分辨率和模型生成深度图的关系,提出一种高低分辨率结果融合机制,提升深度估计的细节表达;
2)在一些细节上使用patch采样的方式对细节信息进行补全,进一步提升细节上的表达,同时也提出一种path和原图的融合策略,用以消除融合问题(path和原图预测出来的深度不一致)。

1.1 对于深度估计模型的观察

输入分辨率与深度估计结果:
在低分辨率(也就是训练使用的分辨率)下,生成的深度预测结果具有较好的深度一致性,但是当把分辨率加大的时候,在出现更多深度细节的同时,深度的一致性预测也被破坏。可以参见下图所示:
《Boosting Monocular Depth Estimation Models to High-Resolution ...》论文笔记_第1张图片

细节分布与深度估计结果:
在大尺寸的深度图预测中,出于CNN网络感受野的原因,在深度细节比CNN网络的感受野相差较远的时候那么就会出现深度预测的不一致性,也就是图像中不同区域的适宜分辨率是各异的。对此文章中通过图像进行采样的方式,为每个采样选择合适的输入分辨率,从而得到更好的深度预测结果。

对与上面的两点文章对其进行分析,将出现这些问题的原因归纳为如下的两点:

  • 1)CNN网络感受野,由于CNN网络自身的设计的原因,需要感知的信息与感受野相差很大的时候会存在感知信息不全的问题,从而出现预测的不一致性,下图就是很好的例子:
    《Boosting Monocular Depth Estimation Models to High-Resolution ...》论文笔记_第2张图片
  • 2)CNN网络固有的表达能力上线,越深越宽的网络其能编码的信息越强,但是这个值也是有一定的范围的。对此文章做了一个实验首先输入 192 ∗ 192 192*192 192192分辨率的图像,得到一个深度预测结果。之后,将这个图像上采样到 500 ∗ 500 500*500 500500(看作是感受野一致),得到一个深度预测结果,见下图所示:
    《Boosting Monocular Depth Estimation Models to High-Resolution ...》论文笔记_第3张图片
    在上面可以看到在一些细节上有所好转,这表明该参与实验的网络是存在一定的表达能力上限的,缺少对更多细节的表达能力。

对此,文章通过上述中提到的不同分辨率深度结果融合/patch选择优化之后融合,从而得到高分辨率且细节表现丰富的深度预测结果。其效果可以参考下图所示:

2. 方法设计

2.1 整体pipline


文章整体的pipeline流程可以划分为如下的几个步骤:

  • 1)使用两种分辨率的图像作为输入得到上图(b)中上面的两个结果,之后通过pixel2pixel的方法进行融合得到(b)图下面的结果;
  • 2)之后按照设定的梯度规则选择不同的采样patch,之后对这些path进行预测,也就是上推(c)的过程;
  • 3)之后再将(b)和(c)的结果融合起来得到最后高分辨率的深度预测结果;

2.2 Double Estimation策略

这里首先是输入两个不同分辨率的图像作为输入(也就是训练分辨率和最大无一致性问题的输入分辨率)得到两个深度预测。那么对于这个最大无问题的分辨率(也就是文章中提到的 R 20 R_{20} R20)是怎么确定的呢?文章是通过原模型感受野作为边界,按照一定的规则进行选择的,

你可能感兴趣的:(#,Depth,Estimation,深度估计)