计算机视觉基础(13)——深度估计

前言

本节是计算机视觉的最后一节,我们将学习深度估计。从深度的概念和度量入手,依次学习单目深度估计和双目/多目深度估计,需要知道深度估计的经典方法,掌握深度估计的评价标准,注意结合对极几何进行分析和思考。

一、深度的概念和度量方式

1.1  深度的概念

计算机视觉基础(13)——深度估计_第1张图片

  • 深度指场景中物体表面到相机的距离,即图中 ()点的 ()坐标
  • 采用深度图(Depth Map)表征,图中每点的取值代表对应像素的深度值

1.2  深度的度量方式与设备

1.2.1  结构光

  • 结构光:将特殊结构图案(如离散光斑、条纹、编码结构光等)投影到空间物体表面上,用另一个相机观察在三维物理表面成像的畸变情况,进行图像匹配比较并计算出深度
  • 属于主动光探测方案
  • 技术成熟、便携、低延时,适用于较近距离

计算机视觉基础(13)——深度估计_第2张图片

1.2.2  ToF

  • Time-of-Flight (ToF)向目标连续发送光脉冲,用传感器接收从物体返回的光,通过探测光脉冲的往返飞行时间测距
  • 属于主动光探测方案
  • 适用于较远距离,传感器复杂、成本高、深度图稀疏

计算机视觉基础(13)——深度估计_第3张图片

1.2.3  双目视觉

  • 双目视觉技术:利用两个标定好的RGB摄像头采集图像,通过匹配对应点,获取的二维图像像素点的深度
  • 属于被动光探测方案
  • 精度依赖于双目匹配算法,易受到光照变化等因素影响,适用于较近距离
  • 但是,遇到重复纹理、⽆边缘特征时,识别的效果就会很差

计算机视觉基础(13)——深度估计_第4张图片

二、计算机视觉中的深度估计问题

深度估计:设计计算机视觉算法,根据输入图像,估计出对应的深度图。

计算机视觉基础(13)——深度估计_第5张图片

根据输入图像的数目分为单目深度估计(Monocular)、双目深度估计(Binocular)、多视角立体视觉 (Multi-View Stereo, MVS)

与基于传感器硬件的解决方案相比,软件算法的深度估计方案成本较低

计算机视觉基础(13)——深度估计_第6张图片

三、深度估计的应用

3.1  自动驾驶、机器人导航

计算机视觉基础(13)——深度估计_第7张图片

3.2  3D重构(三维建模、三维地图、3D打印)

计算机视觉基础(13)——深度估计_第8张图片

计算机视觉基础(13)——深度估计_第9张图片

3.3  增强现实

计算机视觉基础(13)——深度估计_第10张图片

计算机视觉基础(13)——深度估计_第11张图片

3.4  单目3D拍照

计算机视觉基础(13)——深度估计_第12张图片

3.5  浅景深渲染

计算机视觉基础(13)——深度估计_第13张图片

3.6  RGB-D 语义分割/目标检测/视觉跟踪

将深度作为额外的辅助信息应用在传统视觉任务中RGB-D:RGB-D 语义分割/目标检测/视觉跟踪

计算机视觉基础(13)——深度估计_第14张图片

四、单目深度估计

4.1  单目深度估计的概念

目标:利用能够反映深度的线索/提示信息(Cues),从单幅图像中预测出对应的深度图

对弱纹理等挑战区域具有更强的鲁棒性

单目深度估计本身具有较强挑战性

4.2  单目深度线索

4.2.1  近大远小

近大远小:对常见物体的尺寸有大致的估计,根据其在图像中的大小,判断相对位置/距离

计算机视觉基础(13)——深度估计_第15张图片

4.2.2  纹理的丰富程度

纹理丰富程度:近距离的区域更为清晰,纹理也较为丰富。

4.2.3  遮挡关系

遮挡关系:被遮挡的背景物体距离较远,前景距离较近

计算机视觉基础(13)——深度估计_第16张图片

4.2.4  平行线与消失点

平行线与消失点:在远离相机的过程中,3D空间的平行线在2D图像上的投影逐渐接近,直至相较于消失点

4.2.5  光影/明暗/纹理

通过光影、明暗与纹理变化,可以轻易推断出物体的三维形状

计算机视觉基础(13)——深度估计_第17张图片

4.3  单目深度估计的主流方法

  • 单目深度线索较为繁杂多样,手工设计的方法很难全面涵盖上述所有线索
  • 卷积神经网络通过端到端数据驱动的方式,可以很好地学习并集成上述线索,并且适合处理二维图像数据,因而成为单目深度估计的主流方法

计算机视觉基础(13)——深度估计_第18张图片

4.3.1  基于卷积网络

计算机视觉基础(13)——深度估计_第19张图片

4.3.2  基于全卷积网络

计算机视觉基础(13)——深度估计_第20张图片

4.3.3  基于Transformer

计算机视觉基础(13)——深度估计_第21张图片

4.3.4  基于多任务

计算机视觉基础(13)——深度估计_第22张图片

4.3.5  基于弱监督

  • 与分割、检测等数据不同,深度真值不适合手工标注,主要依赖于深度传感器采集
  • 由于深度传感器应用场景受限,场景多样化的深度训练数据不易获取,导致模型的场景泛化性能较差

计算机视觉基础(13)——深度估计_第23张图片

为解决上述问题,Chen et al. 2016年提出一种人工标注稀疏深度真值的方法,即从每一张图像中随机选两点,人工标出两点对应的前后顺序

通过上述标注方法构建了Depth-in-the-Wild (DIW)数据集

DIW数据集规模大(49.6万张图片),场景多样化,真值标注稀疏且是相对的 (每张只包含两个点的相对前后顺序)

计算机视觉基础(13)——深度估计_第24张图片

计算机视觉基础(13)——深度估计_第25张图片

由于每张图像仅包含一个深度真值,因而上述网络训练过程属于弱监督学习

由于DIW数据集场景多样化,即使采用弱监督学习,在DIW上训练的模型相较于其他数据集训练的模型具有更强的泛化性能

计算机视觉基础(13)——深度估计_第26张图片

4.4  相对深度估计

计算机视觉基础(13)——深度估计_第27张图片

计算机视觉基础(13)——深度估计_第28张图片

计算机视觉基础(13)——深度估计_第29张图片

4.5  常见的单目深度估计数据集

计算机视觉基础(13)——深度估计_第30张图片

4.6  常见的深度估计评价指标(重点)

计算机视觉基础(13)——深度估计_第31张图片

五、双目/多目立体匹配

5.1  双目/多目深度估计线索

计算机视觉基础(13)——深度估计_第32张图片

5.2  对极几何回顾

计算机视觉基础(13)——深度估计_第33张图片

5.3  特殊矫正后的情况

通过矫正两个相机的朝向与位置,使极线为水平线

同一点在两幅图中的视差 (Disparity) = 1 + 2 与其深度成反比

计算机视觉基础(13)——深度估计_第34张图片

计算机视觉基础(13)——深度估计_第35张图片

计算机视觉基础(13)——深度估计_第36张图片

5.4  未经矫正的情况

计算机视觉基础(13)——深度估计_第37张图片

计算机视觉基础(13)——深度估计_第38张图片

5.5  基于深度学习的MVS:MVSNet

计算机视觉基础(13)——深度估计_第39张图片

总结

在本节中,我们学习了深度估计的相关知识。读者需要重点掌握深度的概念和度量方式,单目深度估计和双目深度估计的主流方法,其中,深度估计的评价指标和对极几何是重点

你可能感兴趣的:(计算机视觉基础,计算机视觉,人工智能,深度估计,图像处理)