伴随着信息时代潮流的推进,3D成像技术的市场前景越来越广阔,并随着机器视觉,自动驾驶等颠覆性的AI人工智能技术逐步发展,采用3D 摄像头进行物体识别,行为识别,场景建模的相关应用越来越多,可以说3D 摄像头赋予AI设备一双看见世界的“眼睛”,成为开启AI时代的感知钥匙。
3D 摄像头称为“3D相机”,也称之为“深度相机”,顾名思义,就是通过该相机能检测出拍摄空间的景深距离,这也是与普通摄像头最大的区别。普通的彩色相机拍摄到的图片能看到相机视角内的所有物体并记录下来,但是其所记录的数据不包含这些物体距离相机的距离。仅仅能通过图像的语义分析来判断哪些物体离我们比较远,哪些比较近,但是并没有确切的数据。而3D相机则恰恰解决了该问题,通过3D相机获取到的数据,我们能准确知道图像中每个点离摄像头距离,这样加上该点在2d 图像中的(x,y)坐标,就能获取图像中每个点的三维空间坐标。通过三维坐标就能还原真实场景,实现场景建模等应用。
从上面描述可以看出,我们的眼睛就是一个天然的3D 深度相机,这主要得益于偏光原理,当人眼在看任何物体时,由于两只眼睛在空间有一定间距约为5cm,即存在两个视角。这样形成左右两眼所看的图像不完全一样,称为视差。这种细微的视差通过视网膜传递到大脑里,就能显示出物体的前后远近,产生强烈的立体感,这是1839 年,英国科学家温特斯顿发现的奇妙现象。自然的人类就想到通过两个一定距离的普通摄像头来模拟人眼来获取3D 数据。这就是最初的双目立体相机,鉴于双目相机的一些缺陷,后来人们又发明了结构光和TOF 的方法来获取3D 数据。目前市场上常有的3D 相机方案就就是这3种。
》结构光(Structure Light)。结构光投射特定的光信息到物体表面后,由摄像头采集。根据物体造成的光信号的变化来计算物体的位置和深度等信息,进而复原整个三维空间。代表公司:奥比中光,苹果(Prime Sense),英特尔RealSense,华捷艾米,韵动体感
》TOF(Time Of Flight,飞行时间)。通过专有传感器,捕捉近红外光从发射到接收的飞行时间,判断物体距离。 代表公司:微软Kinect-2,PMD,SoftKinect;
》双目测距(Stereo System)。利用双摄拍摄物体,再通过三角形原理计算物体距离。代表公司:Leap Motion, ZED, 大疆。
1、结构光
结构光,英文叫做Structured light,通常采用特定波长的不可见的红外激光作为光源,它发射出来的光经过一定的编码投影在物体上,通过一定算法来计算返回的编码图案的畸变来得到物体的位置和深度信息。根据编码图案不同一般有条纹结构光--enshape ,编码结构光--Mantis Vision, Realsense(F200), 散斑结构光--apple(primesense)。举个例子,拿一个手电照射墙壁,站近或站远,墙上的光斑是不同大小的,从不同角度照射墙,光斑也会呈现不同的椭圆。
结构光(散斑)的优点主要有:
1) 方案成熟,相机基线可以做的比较小,方便小型化。
2) 资源消耗较低,单帧IR 图就可计算出深度图,功耗低。
3) 主动光源,夜晚也可使用。
4) 在一定范围内精度高,分辨率高,分辨率可达1280x1024,帧率可60FPS。
散斑结构光的缺点与结构光类似:
1) 容易受环境光干扰,室外体验差。
2) 随检测距离增加,精度会变差。
2、光飞行时间法(TOF)
Time of Flight是一种主动式深度感应技术,是测量光飞行时间来取得距离,具体而言就是通过给目标连续发射激光脉冲,然后用传感器接收从反射光线,通过探测光脉冲的飞行往返时间来得到确切的目标物距离。因为光速激光,通过直接测光飞行时间实际不可行,一般通过检测通过一定手段调制后的光波的相位偏移来实现。
如上图所示,假设脉冲波形的频率为f,接收与发送脉冲波形的相位偏移是Δφ,则Δφ/2πf为脉冲波形往返所经历的时间。用光速c乘以时间则可以得到往返距离。
因为TOF 并非基于特征匹配,这样在测试距离变远时,精度也不会下降很快,目前无人驾驶以及一些高端的消费类Lidar 基本都是采用该方法来实现。
TOF 的优点主要有:
1)检测距离远。在激光能量够的情况下可达几十米。
2)受环境光干扰比较小。
缺点主要有:
1)对设备要求高,特别是时间测量模块。
2)资源消耗大。该方案在检测相位偏移时需要多次采样积分,运算量大。
3)边缘精度低。
4)限于资源消耗和滤波,帧率和分辨率都没办法做到较高。
3、双目测距
双目测距,传统的3D感知方法。类似人的双眼,在自然光下通过两个摄像头抓取图像,通过三角形原理来计算并获得深度信息。目前有主动双目,被动双目之分,被动双目就是采用可见光,好处是不需要额外光源,但是晚上无法使用,主动双目就是主动发射红外激光做补光,这样晚上也能使用。
双目视觉仅仅依靠图像进行特征匹配,对附加设备要求低,在使用双目视觉相机前必须对双目中两个摄像头的位置进行精确标定。当然完整的双目深度计算非常复杂,主要涉及到左右相机的特征匹配,计算会非常消耗资源。
双目相机的主要优点有:
1)硬件要求低,成本也低。普通CMOS 相机即可。
2)室内外都适用。只要光线合适,不要太昏暗。
双目相机的主要缺点有:
1)对环境光照非常敏感。光线变化导致图像偏差大,进而会导致匹配失败或精度低。
2)不适用单调缺乏纹理的场景。双目视觉根据视觉特征进行图像匹配,没有特征会导致匹配失败。
3)计算复杂度高。该方法是纯视觉的方法,对算法要求高,计算量较大。
4)基线限制了测量范围。测量范围和基线(两个摄像头间距)成正比,导致无法小型化。
从上面三种主流的3D 相机成像方案来看,各有优劣,但是从实际应用场景来看,在非无人驾驶领域,结构光,特别是散斑结构光的用途是最广泛。因为从精度,分辨率,还有应用场景的范围来看双目和TOF都没有办法做到最大的平衡。而且对于结构光容易受环境光干扰,特别是太阳光影响问题,鉴于此类相机都有红外激光发射模块,非常容易改造为主动双目来弥补该问题。具体使用哪种方案,要结合当前硬件资源,对性能要求等来确定,但从最广泛的使用角度来看,散斑结构光无疑是目前最佳的方案。
以AI的机器视觉为例,目前主流在2D图像上通过算法实现智能识别,但是由于2D图像本身包含的信息有限,即使算法再先进,输入信息将成为智能化的短板,如果能够有全面的三维信息,每个对象的三维轮廓、物理特征将更为充分识别,提升导航、轨迹、识别等AI应用能力,其将成为AI时代的感知钥匙。