双目视觉的距离探测公式

  双目摄像头可以完成所有单目摄像头能完成的功能,同时能够获得后者永远无法企及的深度信息。
  无论何种状态的驾驶系统,无人的还是有人的,对障碍物的信息最重要的是障碍物与自车之间的距离,其次才是识别障碍物的类型。
  准确判断障碍物与自车间的距离是保证车辆安全的首要信息,只有获得准确的距离信息,才能准确得出有可能发生碰撞的时间,也就是TTC。单纯识别障碍物毫无意义,识别出前方是个小孩,但无法得出准确距离信息,就无法得出准确的TTC,就无法保证小孩的安全。等识别出来,人可能已经被撞死,届时深度学习图像识别毫无意义。
  当然,激光雷达在距离测量上也很精确,同时FOV也很大,覆盖面更广,但是成本高,功能单一,无法识别颜色(刹车灯)。而双目不仅能精确地测量距离,同时还可以识别刹车灯,车道线,路旁的交通标志等。豪华车也不是不计成本的,所以双目摄像头成了豪华车的首选。
  对单目来说,要想获得距离信息,必须先识别目标。
  要提供目标距离信息,首先要对目标进行框图边界分割,而分割和识别是一体的,不识别无法准确分割。
图像识别简单分为两大类:一类是基于词包模型的图像识别,一类是基于深度学习的图像识别。
  欧洲NAVER实验室高级科学家Gabriela Csurka等人首次将“自然语言处理”领域的 BoVM(bag-of-words)模型引入到图像分类领域。就是将图像类比为文档,将图像信息用若干单词表示,最终用单词的频率直方图表示图像。
  首先,将一幅图像待检测的特征点或者特征区域用特征描述算子对其进行描述。将提取的特征算子采用机器学习的方法进行训练获得用特征频率表示的视觉单词组成的视觉词典。
  最后,通过对不同类别的视觉直方图进行学习,便可以获得学习模型。在测试环节,提取待测试图像的特征,获得待测试图像的视觉单词直方图,与上述获得的学习模型与待测试图像的频率直方图进行匹配,获得分类识别结果。
由此可见,将 Bag-of-Word 应用到图像分类模型上通常需要三个步骤:特征检测与描述、视觉词典的构建、分类器。

视觉词包模型(bag-of-words)相对比其他模型最大的优势在于适用于大部分的应用场合,可以简单直观地把图像表示成直方图呈现出来,这样就可以使图像分类识别问题转化成普通模式识别问题,所需运算资源少。
但是,视觉词包模型也有一些缺点:
• 使用特征用视觉单词直方图表示,在这个转化的过程中,丢了特征的位置信息,在一些需要位置信息的研究中,如前方突然掉落的物体,突然出现的行人,这个方法明显是不适合的;
• 在视觉词包模型建立的在单词与单词之间相互独立的基础上,但是有些情况,单词与单词之间是互相有联系的,如连续的视频,因此,视觉词包模型在这种情况下使用,是造成识别结果较差。
  词包模型实际上相当于只包含了一个卷积层和一个汇聚层,且模型采用无监督方式进行特征表达学习,而卷积神经网络则包含了更多层的简单、复杂细胞,可以进行更为复杂的特征变换,并且其学习过程是有监督过程的,滤波器权重可以根据数据与任务不断进行调整,从而学习到更有意义的特征表达。
  从这个角度来看,卷积神经网络具有更为强大的特征表达能力,因此它在图像识别任务中的出色性能就很容易解释了。
分割并识别后是估算距离,单目估算距离主要是根据像素大小,这种方法准确度不高。
  由于距离因素,行人3和行人2的像素大小是非常接近的,但行人2和行人3与车辆距离距离差别很大,但是在单目看来,距离是完全一样的。
双目与单目区别有几点,首先双目是测量距离而非估算。
双目测距原理

双目视觉的距离探测公式_第1张图片


上图为双目的距离计算公式,准确度比单目要高得多。双目与单目区别的第二点是双目可以在不识别目标的情况获得深度(距离)数据。

 

双目典型工作流程图

双目视觉的距离探测公式_第2张图片

上图为双目的典型工作流程图。双目最后输出的是一张深度图。

双目视觉的距离探测公式_第3张图片

用颜色深浅来代表距离。双目虽然不需要识别目标,但是双目需要级化分割(Segmentation),常使用的算法有Belief Propagation和Mean Shift。双目最关键的环节在立体匹配。

双目需要对每一个像素点都做立体匹配,运算量很大,但算法简单,比较适合用FPGA来完成,而FPGA不是特斯拉这种小厂能玩得转的。

转载于:https://www.cnblogs.com/fuhang/p/7855789.html

你可能感兴趣的:(双目视觉的距离探测公式)