深度信息估计的方法很多,根据成像光源不同可分为两大类:主动视觉(Active Vision,AV)法和被动视觉(Passive Vision,PV)法。主动视觉法是指被测物体发射可控制的光束,然后拍摄光束在物体表面上所形成的图像,通过几何关系计算出被测物体距离的方法。被动视觉方法不采用特殊光源进行照明,仅从一个或多个摄像系统获取的二维图像信息中确定空间信息,形成三维轮廓数据。本文主要针对被动视觉方法开展研究。
被动视觉属于被动传感,其所需景物的照明是靠环境提供的。在利用深度信息进行3D场景恢复中,根据视点数目不同,常分为:单视点图像深度信息估计、双目立体匹配深度信息估计、多视点深度信息估计和自由视点深度信息估计。单视点图像深度信息估计通过单幅图像提取目标的颜色、形状、共面性等二维、三维九何信息,从而利用少量己知条件获取该目标的空间三维信息。双目立体匹配深度信息估计利用在两个不同的视点获得的同一景物的两幅图像进行立体匹配来恢复出场景物体的深度信息。多视点深度信息估计则将双目立体匹配深度信息进一步扩展为利用多幅图像进行立体匹配,得到多幅互相独立的视差图,根据一定的融合准则,将多幅视差图合成为一幅视差图,得到深度信息。自由视点视频深度信息估计则是利用一个或多个单摄像机多次拍摄的视频序列得到单视点深度线索,利用额外的深度暗示,如来自场景的几何信息,得到并提高由视频帧生成的深度信息。综合四种深度信息获取方式,其根本来源于单视点图像深度信息估计和利用双目立体匹配的深度信息估计。
一、单视点图像深度信息估计
在人的视觉系统中,除了利用双眼感知到深度信息之外,从单眼也能感知到深度,一般称为单眼深度线索,它可以通过生理深度暗示和心理深度暗示得到。单眼深度线索可以通过人眼睫状体肌的张弛程度来在人的大脑中反映物体与人眼的距离,物体在视网膜上成像的相对大小可以作为物体间的前后关系的判断依据。也可以通过运动视差根据观看者与被观看物体之间存在的相对运动,借助时间序列的比较形成深度感。除此之外,单眼深度线索的感知还可以通过平行线随距离的增加渐渐相交的线性透视原理、因空气中微小粒子的影响使物体看起来较模糊的大气透视原理、相同纹理处于远处的视觉效果较为集中的纹理梯度原理、处于地势较高的感觉较远的相对高度原理、物体间的遮挡关系得到的前后位置信息来感知深度线索。
单视点图像深度信息估计就是根据以上的单眼深度线索,从单幅静态图像根据物体在图像中的相对深度而推导得出的,其深度信息常用深度图来表示。深度图是灰度图,深度图的每一个像素用8位表示,如图1.1所不,左图为单幅图像,右图为其对应的深度图。最近的距离Znear对应的深度值为255,最远的距离Zfar对应的深度值为0,介于两者之间的距离Z对应的深度值d可以根据公式1.1得到。
在进行深度信息估计时往往需要应用图像中相关的线索信息来进行。一般情况下,将这些信息分为高、中、低三个层次:其中高层次线索信息指根据视图的语义理解,如将图像中的部分分为天空、大地等等;中层次线索信息指根据对图像内容的基础信息,如结构、纹理、大气透视信息等;低层次线索信息主要包括一些图像的特征,如模糊信息、凸面、边缘等。应用高层次线索信息多数需要通过对与图像相近的数据库进行学习,推导出先验深度信息,从而得到相对深度信息。这种方法要求目标图像和参考图像具有很大的相似性,且需要大量的时间进行学习,限制了算法的实用性;中层次线索信息则是利用图像结构信息,如利用对一组真实视差图像中训练得到的颜色、纹理和形状信息,对目标图像进行过分割,在分割区域应用局部和全局的图像特征,推导出不同点的深度信息。而利用低层次线索信息不需要对图像进行高层次内容的分析,仅需要直接应用局部信息即可从图像中恢复深度信息,但这种方法仅能够实现纹理简单图像的深度信息恢复。
基于单视点图像的深度信息估计主要有散焦、几何透视、阴影与遮挡、图案纹理、统计模式等。模糊信息多是在成像过程中对焦不准或成像区域内存在不同深度的目标而造成的。根据这一特性,传统的单视点深度信息估计通过对图像做散焦处理来估计场景的深度。而由于散焦方法复杂,效率较低,其实用性较差。纹理图案的方法利用图像中物体相同的纹理在图片中反映为近大远小来得出物体的深度信息,但这种方法受光照影响等外界因素影响较为严重。统计模式则是通过机器学习的方法,将事先准备好的大量有代表性的训练图像和其对应的标准深度图输入系统进行有监督地学习,经过一段时间的学习,系统就能对实际待处理的输入图像进行准确分类,找到最适合的深度赋值方法。这种方法虽然准确度较高,但其算法复杂度也会相应提高。
二、双目立体匹配深度信息估计
具体内容见:双目摄像机测深度原理
https://blog.csdn.net/qq_38236355/article/details/88933839