【阅读笔记】Deep-Learning Assisted High-Resolution Binocular Stereo Depth Reconstruction

基于深度学习的高分辨率双目立体深度重建

目录

  • 前言
  • 1、介绍
  • 2、TECHNICAL APPROACH
    • A.Deep-learning model with uncertainty
    • B.SGBM with per-pixel searching range (PPSR)
  • 3、实验


前言

本文提出了基于高分辨率图像的密集双目立体重建从而进行设施检查。以往的方法都会在高分辨率数据上消耗过多的计算资源、缺乏泛化能力。本文提出对资源需求较少的非学习方法,在基于学习的方法指导下,获取高分辨率的图像以及精确的双目立体重建。深度学习模型对立体图像对的每个像素进行下采样,获得初始视差预测。之后,使用修改版本的SGBM算法对上采样的每个像素搜索范围操作。


1、介绍

双目稠密重建已被广泛应用,但是由于庞大的视差搜索范围和像素数量带来了巨大的计算量,高分辨率图像的立体匹配仍是一项具有挑战性的任务。此外,三维重建时由于缺乏纹理、倾斜表面和光照等因素,可能导致重建失败以及在困难图像域中的稀疏视差预测。

本文的目标是对高分辨率图像的密集精确的深度重建。

【阅读笔记】Deep-Learning Assisted High-Resolution Binocular Stereo Depth Reconstruction_第1张图片
从4K分辨率立体图像重建点云。
(a)来自扫描仪的点云,用来和真实数据进行比较。
(b)通过深度学习辅助方法进行密集重构的点云。
(c)(b)与(a)相比的重建误差。
(d)(b)的放大图。

以往大多数方法都是基于cost volume的,这消耗大量的gpu内存。最近的很多方法一定程度上降低了内存消耗,但仍然无法满足4K图像。

非学习方法:SGM在视差范围为1000的4K图像上消耗超过50GB的CPU内存。
SGBM可以在有限的计算资源下直接处理4K图像对。然而,模型参数是依情况而定的,SGBM可能无法预测许多图像区域中的视差。
深度学习模型可以估计视差预测的不确定度。不确定度是缩小视差搜索范围的可能视差范围的良好暗示。

本文创新点:

  1. 提出了基于学习的模型来指导非学习方法的一种混合方法,在高分辨率立体重建任务中实现高效率和高精度。
  2. 训练一个深度学习模型来获得视差和不确定度。其中对于不确定度,使用非学习的方法进一步对每个像素搜索范围进行操作。
  3. 实验表明,学习和非学习方法相结合可以精确地处理高分辨率立体图像。

简单说,就是
深度学习模型可以估计视差预测的不确定度。但消耗大量的gpu内存,无法满足4k图像
非学习方法 SGBM可以在有限的计算资源下直接处理4K图像对,但无法预测许多图像区域中的视差。
本文就基于深度学习模型(预测视差)来指导非学习方法(处理4K图像)。


2、TECHNICAL APPROACH

【阅读笔记】Deep-Learning Assisted High-Resolution Binocular Stereo Depth Reconstruction_第2张图片
本文方法的处理流程。PSMNU:深度学习模型。SGBMP:辅助深度学习的非学习模型。PSMNU可以预测下采样后的立体图像的视差和不确定度。视差被上采样到原始大小。遮挡由视差获得。视差和遮挡估计会通过专用滤波器。SGBMP使用过滤后的数据和上采样的不确定性来预测与原始立体图像的精确视差。

A.Deep-learning model with uncertainty

本文基于PSMNet构建PSMNU,其修改了PSMNet来预测偶然的不确定因素。
PSMNU (PSMNet with Uncertainty)

深度学习模型函数f(x)表示将立体图像x映射到其左视图的视差。该映射是一个随机的过程并满足如下每个像素的高斯分布:
在这里插入图片描述
损失函数如下:
在这里插入图片描述
Np为像素点数量,Ep定义为:
在这里插入图片描述

本文改变了PSMNet的最后一个回归层(下图PSMNet网络中的红圈),使f输出两个通道。一个输出yp(像素p的预测视差),另一个输出σp(像素p高斯分布的标准差)。

【阅读笔记】Deep-Learning Assisted High-Resolution Binocular Stereo Depth Reconstruction_第3张图片

PSMNet结构概述:左右立体图像输入两个权重共享的CNN网络通道用于计算特征图,一个SPP模块用于获取特征,通过串联不同尺寸的次级区域的表现和一个用于特征融合的卷积层。左右图像的特征被用于构成一个四维的匹配代价卷,再通过一个3D CNN来完成代价聚合和视差回归。

在SceneFlow Dataset数据集上训练本文的PSMNU(双目立体视觉数据集,从若干合成视频中抽取了39000+个图像对)。其预测和真实视差有1.18像素的平均误差。从其标准差映射看出,在视差变得不连续并且发生遮挡的大多数物体边缘处存在高度不确定性。
【阅读笔记】Deep-Learning Assisted High-Resolution Binocular Stereo Depth Reconstruction_第4张图片
Middlebury数据集的Adirondack案例的PSMNU输出。
(a)左视图。
(b)真实视差。
(c)σ映射,缩放到0-255以进行可视化。红色圆圈表示噪声水平较高的区域。
(d)估计的视差。

B.SGBM with per-pixel searching range (PPSR)

接下来使用PSMNU输出的yp(像素p的预测视差)和σp(像素p高斯分布的标准差)来确定每个像素的视差范围。本文通过扩展OpenCV的SGBM方法来实现SGBMP。注意,yp和σp在上采样之前进行缩放,以确保图像比例之间的一致性。-----像素p,在PPSR里第i个候选视差的代价聚合SGM如下,Sp是总匹配代价:
在这里插入图片描述SGBMP根据σp值对yp的置信度打折,λs是调整Sp全局权重的因子。(0 < λs< 1)
在测试4K图像时,由于图像尺寸较大,Sp在某些区域很容易饱和。SGBM已经解决了这个问题,我们在成本合计之前进一步缩减立体匹配代价。
【阅读笔记】Deep-Learning Assisted High-Resolution Binocular Stereo Depth Reconstruction_第5张图片


3、实验

【阅读笔记】Deep-Learning Assisted High-Resolution Binocular Stereo Depth Reconstruction_第6张图片
在Middlebury数据集上进行比较的结果数据。
【阅读笔记】Deep-Learning Assisted High-Resolution Binocular Stereo Depth Reconstruction_第7张图片
Middlebury数据集上比较的结果视图。
(a) Adirondack案例(b)PlaytableP案例(c)Jadeplatn案例(d)左视图(e)SGBM的视差(f)SGBMP的视差。
所有预测视差相对于真实视差都进行归一化。
【阅读笔记】Deep-Learning Assisted High-Resolution Binocular Stereo Depth Reconstruction_第8张图片
定制的立体摄像机。
(a)手持平台。(b)无人机,载有隔离振动的阻尼器。L,R是4K相机(3008×4112)。当无人机静止时,将捕获图像

【阅读笔记】Deep-Learning Assisted High-Resolution Binocular Stereo Depth Reconstruction_第9张图片
设施检查任务中的实验数据比较。
(a)石廊(b)混凝土支柱(c)桥梁支撑(d)T形梁(e)建筑墙体。PSMNU的执行时间约为7秒,图像尺寸为752×1028。来自PSMNU的具有不确定性(σ图)的视差预测(y)被上采样到原始输入立体图像的大小。行内的视差预测已标准化。SGBM对于(a)(d)(e)产生的有效预测要少得多。(a)中的纹理通常是均匀的,并且亮度和颜色会受到镜头的影响。(d)中的T形光束的左侧表面在左右图像之间的颜色不一致。(e)中的图像有不同程度的过度曝光。本文的SGBMP在这些情况下均表现更好。
【阅读笔记】Deep-Learning Assisted High-Resolution Binocular Stereo Depth Reconstruction_第10张图片
在实验数据上的比较。
SGBM的复杂案例。相机是固定的。这些双目立体图像最初具有照明和镜头问题。在光照不足的情况下,图像的亮度较低。渐晕效果使图像的边界更暗。两台相机之间的颜色不一致,尤其是对于(c)。SGBM仅在(a)和(b)中的对象边界处产生有效的视差。本文的SGBMP仍保证其性能。
【阅读笔记】Deep-Learning Assisted High-Resolution Binocular Stereo Depth Reconstruction_第11张图片
扫描仪点云比较。
(a)和(d):来自测量扫描仪的点云。
(b)和(e)来自SGBMP的点云,着色表示重建误差。
(c)和(f):误差直方图。
等于或大于0.05m的重建误差在(b)和(e)中显示为红色。(c)和(f)中的垂直红色长条表示相应的平均误差。显示与前景对象的像素对应的SGBMP点,并将其与测量扫描仪中的点云进行比较。

你可能感兴趣的:(笔记,计算机视觉,深度学习,人工智能)