转载自:https://www.zhihu.com/question/46575222/answer/2262325927
前视感知系统(Front Looking Camera System)简称FLC,它前视感知是感知系统的核心组成,主要原因因为汽车95%以上的行驶工况,都是在往前开的。前视感知系统具备丰富的语义信息识别能力,它还能够提供很多前方道路环境信息,我们以Eye Q3的部分感知功能举例:
可以说前向感知为自车提供了丰富的前方道路环境信息,为ADAS/AD系统重建了世界道路模型,能够让自车理解道路拓扑结构,认识道路上的动静态目标,理解交通信号灯和交通标识的意义。车辆有了这些能力,就具备了类人的视觉感知能力,为进一步实现自主驾驶,提供了基础。
比如:
毫米波雷达-毫米波指波长介于1~10mm的电磁波,毫米波雷达则指工作在毫米波波段的雷达。毫米波的波长介于厘米波和光波之间,因此毫米波兼有微波制导和光电制导的优点。使用在汽车上时其抗环境干扰能力强,可以满足车辆对全天气候的适应性的要求。并且毫米波本身的特性,决定了毫米波雷达传感器器件尺寸小、重量轻等特性,弥补了摄像头等传感器的缺点,使得其在车载应用方面有着很大的优势。目前国内外主流汽车毫米波雷达频段为 24GHz(用于短中距离雷达,15-30米) 和 77GHz(用于长距离雷达,100-200米)
毫米波雷达却仍然存在着精度低、可见范围短的特点。而这两个缺陷放在自动驾驶中,却差之毫厘谬以千里,极易引起事故。因此在这样的背景下,升级版就应运而生——激光雷达。
激光雷达是一种利用光波进行测量的主动探测方式。主动探测方式是指探测系统通过接收自身发出的信号回波来进行测量,区别于例如摄像机等通过接收环境光获取信号的被动探测方式。激光雷达通过测量激光从发出经障碍物反射到被传感器接收所经历的时间,来计算障碍物的距离
a、ego motion 自身运动补偿
即考虑传感器在采集过程中的某一时间戳内,由于车辆自身的运动,采集的对象会在该时间戳内发生相对位移变化;
例如:以激光雷达为例,采集一圈需要0.1s,在这0.1s内,车身本身会发生一定的位移,如果不考虑车辆本身位移的情况,检测出来的目标位置就会产生较大误差;
b、motion from others 来自于其他目标的运动补偿
即考虑传感器在采集过程中的某一时间戳内,运动物体由于自身运动会产生相对位移变化;
通过统一的主机给各个传感器提供基准时间,各传感器根据已经校准后的各自时间为各自独立采集的数据加上时间戳信息,以做到所有传感器时间戳同步;但由于各个传感器各自采集周期相互独立,无法保证同一时刻采集相同的信息。在很多自动驾驶车辆的传感器中,大部分支持GPS时间戳的时间同步方法
—— 传感器标定是自动驾驶的基本需求,良好的标定是多传感器融合的基础, 自动驾驶车辆上的多个/多种传感器之间的坐标关系是需要确定的。
—— 外参是决定传感器和外部某个坐标系的转换关系,比如姿态参数。
例如:摄像机和雷达的融合, 需要建立精确的雷达坐标系、三维世界坐标系、摄像机坐标系、图像坐标系和像素坐标系之间的坐标转换关系;
这个工作可分成两部分:内参标定和外参标定。
摄像头的标定曾经是计算机视觉中3-D重建的前提,张正友老师著名的的Zhang氏标定法,利用Absolute Conic不变性得到的平面标定算法简化了控制场。
另外在自动驾驶研发中,GPS/IMU和摄像头或者激光雷达的标定,雷达和摄像头之间的标定也是常见的。不同传感器之间标定最大的问题是如何衡量最佳,因为获取的数据类型不一样:
另外,标定方法分targetless和target两种,前者在自然环境中进行,约束条件少,不需要用专门的target;后者则需要专门的控制场,有ground truth的target,比如典型的棋盘格平面板。
智能车一般会有多个相机, 长焦距的用来检测远处场景(视野小), 短焦距检测近处(视野大).以Apollo的标定方法为例:
基本方法:根据长焦相机投影到短焦相机的融合图像进行判断,绿色通道为短焦相机图像,红色和蓝色通道是长焦投影后的图像,目视判断检验对齐情况。在融合图像中的融合区域,选择场景中距离较远处(50米以外)的景物进行对齐判断,能够重合则精度高,出现粉色或绿色重影(错位),则存在误差,当误差大于一定范围时(范围依据实际使用情况而定),标定失败,需重新标定(正常情况下,近处物体因受视差影响,在水平方向存在错位,且距离越近错位量越大,此为正常现象。垂直方向不受视差影响)。
基本方法:在产生的点云投影图像内,可寻找其中具有明显边缘的物体和标志物,查看其边缘轮廓对齐情况。如果50米以内的目标,点云边缘和图像边缘能够重合,则可以证明标定结果的精度很高。反之,若出现错位现象,则说明标定结果存在误差。当误差大于一定范围时(范围依据实际使用情况而定),该外参不可用。
基本方法:为了更好地验证毫米波雷达与相机间外参的标定结果,引入激光雷达作为桥梁,通过同一系统中毫米波雷达与相机的外参和相机与激光雷达的外参,计算得到毫米波雷达与激光雷达的外参,将毫米波雷达数据投影到激光雷达坐标系中与激光点云进行融合,并画出相应的鸟瞰图进行辅助验证。在融合图像中,白色点为激光雷达点云,绿色实心圆为毫米波雷达目标,通过图中毫米波雷达目标是否与激光雷达检测目标是否重合匹配进行判断,如果大部分目标均能对应匹配,则满足精度要求,否则不满足,需重新标定。
在多传感器信息融合中,按其在融合系统中信息处理的抽象程度可分为三个层次:数据级融合、特征级融合和决策级融合;
—— 也称为像素级融合,属于底层数据融合;将多个传感器的原始观测数据(raw data)直接进行融合,然后再从融合数据中提取特征向量进行判断识别;
—— 数据级融合要求多个传感器是同质的(传感器观测的是同一物理量),否则需要进行尺度校准。
—— 数据级融合不存在数据丢失的问题,得到的结果也作为准确;但是计算量大,对系统通信带宽要求较高;
属于中间层次级融合,先从每个传感器提供的原始观测数据中提取代表性的特征,再把这些特征融合成单一的特征向量;其中选择合适的特征进行融合是关键;特征信息包括边缘、方向、速度、形状等。
特征层融合可划分为两大类:目标状态融合、目标特性融合。
在融合的三个层次中,特征层融合技术发展较为完善,并且由于在特征层已建立了一整套的行之有效的特征关联技术,可以保证融合信息的一致性;此级别融合对计算量和通信带宽要求相对降低,但由于部分数据的舍弃使其准确性也有所下降。
3)决策级融合
—— 属于高层次级融合,是对数据高层次级的抽象,输出是一个联合决策结果,在理论上这个联合决策应比任何单传感器决策更精确或更明确;
—— 决策层融合在信息处理方面具有很高的灵活性,系统对信息传输带宽要求很低,能有效地融合反映环境或目标各个侧面的不同类型信息,而且可以处理非同步信息;
—— 由于环境和目标的时变动态特性、先验知识获取的困难、知识库的巨量特性、面向对象的系统设计要求等,决策层融合理论与技术的发展仍受到一定的限制;
根据对原始数据处理方法的不同,多传感器信息融合系统的体系结构可分为三种:集中式、分布式和混合式。
将各传感器获得的原始数据直接送到中央处理器进行融合处理,可以实现实时融合;
优点:
a、结构简单,其数据处理的精度高,算法灵活,融合速度快;
先对各个独立传感器所获得的原始数据进行局部处理,然后再将结果送入中央处理器进行融合处理来获得最终的结果;
优点:
a、每个传感器都具有估计全局信息的能力,任何一种传感器失效都不会导致系统崩溃,系统可靠性和容错性高;
b、对通信带宽要求低,计算速度快,可靠性和延续性好;
缺点:
a、传感器模块需要具备应用处理器,这样的话自身的体积将更大,功耗也就更高;
b、中央处理器只能获取各个传感器经过处理后的对象数据,而无法访问原始数据;因此,想要“放大”感兴趣的区域将很难实现;
集中式和分布式的混合应用,即部分传感器采用集中式融合方式,剩余的传感器采用分布式融合方式;
特点:
a、兼顾了集中式融合和分布式的优点,稳定性强,且具有较强的使用能力;
b、对通信带宽和计算能力要求较高;
作者:JasonYang
链接:https://www.zhihu.com/question/46575222/answer/2262325927
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
1)毫米波雷达和摄像头数据融合基本思路
—— 这两种传感器相融合,多数情况下都是以摄像头数据为主,毫米波雷达作为辅助;—— 将毫米波雷达返回的目标点投影到图像上,围绕该点并结合先验知识,生成一个矩形的感兴趣区域,然后我们只对该区域内进行目标检测。—— 他们融合的优点是可以迅速地排除大量不会有目标的区域,极大地提高识别速度。
2)摄像头和激光雷达数据融合基本思路
—— 障碍物的检测可以使用激光雷达进行物体聚类,但是对于较远物体过于稀疏的激光线数聚类的效果较差,因此利用视觉图像信息进行目标检测,进而获取障碍物的位置,同时视觉还可以给出障碍物类别信息;
—— 融合的关键是需要将摄像头和激光雷达进行联合标定,获取两者坐标系的空间转换关系;可以通过标定的方式,把激光雷达投射到图像的坐标系中,建立图像的像素点,和激光雷达投影后的点之间做匹配,然后通过某种优化方程,来解决匹配问题;
—— 激光雷达可以得到目标的3D 数据(x, y , z),通过标定参数,以及相机本身的内参,可以把激光雷达的3D点投射到图像上,图像上的某些像素就会获得激光雷达的深度信息,然后便可以做基于图像的分割或者深度学习模型;
—— 融合过程中的时候,因为两者视场角的不同,可能会造成噪点或者漏点;
3)激光雷达和毫米波雷达融合的基本思路
4)相机、毫米波雷达和激光雷达三者融合的基本思路
单目视觉的感知算法,各家算法公司都是采用了深度学习(Deep Learning),因为大家发现rule base 的感知算法检测率远远低于DL的视觉感知。
深度学习算法,需要有海量标注数据,用于训练感知算法模型。一个训练出的感知算法模型可以是只检测一种目标的(车辆/行人/自行车)、也可以是检测多种目标(车辆+行人+自行车)。
另外,深度学习算法模型可以是只用来做2D识别的,也可以是直接输出目标物类型和3D信息的。(*2D是指目标在二维照片上的检测,3D是指目标在物理空间中目标的三维位姿信息。)
—— 单步算法 :不用产生候选区域,直接从图像中获得目标检测结果;特点是速度快,但准确率低一些;
—— 双步算法:需要产生目标物体的候选区域,然后在使用分类器在候选区域上做分类与回归;特点是准确率高,但速度相对较慢一些
——基于反卷积的分割方法:FCN
—— 基于提高特征分辨率的分割方法 - DeepLab
—— 基于区域选择的方法 : Mask R-CNN
YOLO3D,BirdNet, VoxelNet,PointNet,PIXOR等
PointRCNN,PointFusion,RoarNet等
CNN-SLAM,SurfaceNet,3D-R2N2,Perspective Transformer Net等