利用二维图像的深度估计

同上一篇,老板安排的调研

================================================================

基于二维图像的深度估计算法


基于图片的三维重建方法可分为双目立体视觉单目立体视觉


双目立体视觉使用两台摄像机从两个视点观测同一物体,获取在物体不同视角下的感知图像,通过三角测量的方法将匹配点的视差信息转换为深度。一般的双目视觉方法都是利用对极几何将问题变换到欧式几何条件下,然后再使用三角测量的方法估计深度信息。双目立体视觉法的优点是方法成熟,能够稳定地获得较好的重建效果,实际应用情况优于其他基于视觉的三维重建方法;不足的是运算量仍然偏大,而且在基线距离较大的情况下重建效果明显降低 。




1. 基于明暗和光照的方法


1.1 基于明暗的方法:shape from shading
最早的基于单张图片的深度估计是由Horn于1970年提出的shape from shading(Horn B K P. Shape from shading: A method for obtaining the shape of a smooth opaque object from one view[J]. 1970.)。该方法基于图像中的明暗信息,借助反射光照模型,通过恢复物体表面的法向量来重建三维形状。在理想条件下,这种算法可以恢复出较精确的三维模型。但是该方法对于光照条件要求比较苛刻,需要精确知道光源的位置及方向等信息,使得其很难应用在室外场景等光线情况复杂的三维重建上。


1.2 多光度立体视觉
1980年,Woodham对shape from shading算法进行了改进,提出多光度立体视觉(photometric stereo)方法(Woodham R J. Photometric method for determining surface orientation from multiple images[J]. Optical engineering, 1980, 19(1): 191139-191139-.)。该方法通过多个不共线的光源获得物体的多幅图像,再将不同图像的亮度方程联立,求解出物体表面法向量的方向,最终实现物体形状的恢复。但是该算法同样基于一些较为苛刻的假设,例如反射率已知,没有相互反射等等。


总结:基于明暗和光照的方法精度较高,但难以用于复杂的自然环境。


2. 基于调焦的方法
1997年提出(Rajagopalan A N, Chaudhuri S. Optimal selection of camera parameters for recovery of depth from defocused images[C]//Computer Vision and Pattern Recognition, 1997. Proceedings., 1997 IEEE Computer Society Conference on. IEEE, 1997: 219-224.)。通过分析摄像机焦距光圈与图像清晰度之间的关系恢复物体深度信息,进而得到三维模型的方法:物体只有位于摄像机焦距处时才会投影出清晰的图像,因此,通过建立物体到投影中心的距离与图像清晰度之间的关系,就可以恢复出深度信息。调焦法可以使用少量图像计算物体表面的稠密深度信息,且对光源条件要求也比较宽松,重建效果比较精细。但不足的是需要不断改变摄像机的焦距光圈等设置,很难实现自动重建。

上述几种做法一般用于近景的深度估计,如人脸等。



3. 基于几何分析的方法
相比基于光照的纯本地(local)的方法,基于几何分析的方法借助了更多关于图像内容的全局信息(例如这篇Battiato S, Curti S, La Cascia M, et al. Depth map generation by image classification[C]//Proceedings of SPIE. 2004, 5302: 95-104.)。在这类方法中,图片内容一般先经过分割,被分为天空、地面、前景等类别;随后估计灭点和灭线,并以此计算画面内各个梯度平面的的深度;最后,将原图贴回深度图就完成了整个重建过程。
这类方法极度依赖对于灭点灭线的估计,在估计有误时恢复效果会大受影响。同时基于几何分析的方法可以恢复场景中的主要结构,但对于细节的描述不够精细(个人感觉,没有找到这方面的评论)。


4. 基于特征学习的方法
这种方法建立在大型的目标数据库基础上, 如人脸数据库、场景数据库. 首先通过学习的方法, 对数据库中的每个目标进行特征提取(包括亮度、深度、纹理、几何形状、相互位置) ; 然后对特征建立概率函数; 最后将重建目标与数据库中相似目标的相似程度表示为概率的大小, 取概率最大的目标深度为重建目标深度, 再结合纹理映射或插值方法进行三维重建。
这一流派最有代表性的工作属于Andrew Ng(Saxena A, Sun M, Ng A Y. Make3d: Learning 3d scene structure from a single still image[J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2009, 31(5): 824-840.)。
在传统特征学习的基础上,有人加入了图像的高层语义(天空、树木、房屋等等)(Liu B, Gould S, Koller D. Single image depth estimation from predicted semantic labels[C]//Computer Vision and Pattern Recognition (CVPR), 2010 IEEE Conference on. IEEE, 2010: 1253-1260.)。利用这些高层信息,可以获得更好的分割效果,同时有针对性的进行深度估计(例如天空与树木可以采取不同的估计方法)。

总结:相比基于几何的方法,基于学习的方法只要数据库足够完备, 任何和数据库目标一致的对象都能进行三维重建, 并且重建质量和效率都很高。


5. 相对深度或者深度排序
在某些情况下,我们可能并不关注场景中每一点的绝对深度,只需要获得图像中物体的相对位置即可。在这类算法中,我们更关心物体的边界上存在的特征(例如边界的凹凸,T型遮挡等等)。利用这些特征,我们可以判断两两物体之间的相对深度。同时,为了防止局部判断错误差错导致的成环现象,还可以加入全局惩罚项,利用如MRF等全局算法进行优化。
代表论文:Jia Z, Gallagher A, Chang Y J, et al. A learning-based framework for depth ordering[C]//Computer Vision and Pattern Recognition (CVPR), 2012 IEEE Conference on. IEEE, 2012: 294-301.
Hoiem D, Stein A N, Efros A A, et al. Recovering occlusion boundaries from a single image[C]//Computer Vision, 2007. ICCV 2007. IEEE 11th International Conference on. IEEE, 2007: 1-8.


你可能感兴趣的:(计算机视觉)