单目深度估计入门(1)

最近准备入门单目深度估计方向啦,做了一些小调研,希望在这里记录学习心得,能够帮助到需要帮助的人哈哈。

深度图像/距离影像:深度图像也被称为距离影像,是指将从图像采集器到场景中各点的距离作为像素值的图像。也就是深度图中的每一个像素值表示场景中某一点与摄像机之间的距离。(ps:纠结了很久的一个点:深度图像和图像深度是完全不同的两个概念,图像深度是指像素深度中实际用于存储图像的灰度或色彩所需要的比特位数,与图像分辨率相关)

获取深度图像方法:主要分为两类,被动测距传感主动测距传感被动测距传感中最常用的方法是双目立体视觉,该方法通过两个相隔一定距离的摄像机同时获取同一场景的两幅图像,通 过立体匹配算法找到两幅图像中对应的像素点,随后根据三角原理计算出视差信息,而视差信息通过转换可用于表征场景中物体的深度信息。通过立体匹配算法得到的视差图虽然可以得到场景的大致三维信息,但是部分像素点的视差存在较大误差。双目立体视觉的局限性在于它获得视差图像的方法受限于基线长度以及左右图像间像素点的匹配精确度;主动测距传感相比较于被动测距传感最明显的特征是:设备本身需要发射能量来完成深度信息的采集。这也就保证了深度图像的获取独立于彩色图像的获取。主动深度传感的方法主要包括了TOFTime of Flight)、结构光、激光扫描等。

深度估计算法分类(按照视点数量分类):基于多视点的深度估计通常对同一场景采用摄像机阵列进行图像采集,并利用多视点图像之间的冗余信息进行深度信息的计算,这类技术通常能够获得较为准确的深度信息,但是由于需要配置摄像机阵列,在大多数实际应用中很少被采用;基于双目图像的深度估计是一种模拟人类利用双目视差感知深度信息的方法,需要配置与人的双眼相对位置相同的两个摄像头,主要通过立体匹配技术计算深度信息。右边的图像就是双目深度估计的原理图;基于单点的深度估计只利用一个视点的视频序列和图像进行深度估计。与前者相比,单视点的情形最贴近实际的应用需求,因为绝大多数应用场景只有一个视点。

单目深度估计优势:价格低廉,获取信息内容丰富,体积小

深度图应用:三维重建场景理解深度感知的图像合成人机交互增强现实导航系统

目前常用数据集:KITTI; Make3D; NYU Depth; Cityscapes

常用评价指标:均方根误差(RMSE),均方根对数误差(RMSE log),绝对相对误差(Abs Rel),平方相对误差(Sq Rel),精度(Accuracies)

欢迎大家批评指正!

你可能感兴趣的:(单目深度估计——基础知识,计算机视觉)