自动驾驶是高新科技产业发展和智能出行领域的优势行业,其中的各项技术发展迅速,取得了众多关键成就。其中感知和定位模块在自动驾驶系统中起着至关重要的作用,自动驾驶汽车必须首先明确自己在真实世界中的位置,明确车身周围的众多障碍物,包括动态障碍物和静态障碍物。其中动态障碍物包括行人、动物、车辆、其他非机动车等;静态障碍物包括路障、路标、护栏等,可在高精地图中予以标注,而且必须依赖地图更新的频率。而感知部分则充分利用各项传感器感知周围环境,并且实时将数据回传到工业电脑,通过感知模块的相应模型和算法获取障碍物的形态、速度、距离、类别等信息,以便规划和预测模块预测障碍物的轨迹,做出相应的驾驶决策。无人驾驶汽车通过车载传感系统获取道路环境信息后自动规划行驶路线并控制车辆的速度及转向,进而实现车辆在道路上安全可靠地行驶。无人驾驶汽车的关键技术主要包括对道路环境的感知、对行驶路径的规划、对车辆运动行为的智能决策及对车辆实现自适应运动控制。目前环境感知技术发展的不成熟仍旧是阻碍无人驾驶汽车总体性能提高的主要原因,也是无人驾驶汽车进行大规模产品化的最大障碍。
目前应用于自动驾驶感知模块的传感器主要有摄像头、毫米波雷达、超声波雷达、激光雷达等。摄像头有着分辨率高、速度快、传递的信息丰富、成本低等优势,依赖深度学习对复杂数据的强大学习能力能极大提高环境感知的分类能力;毫米波雷达有着反应速度快、操作简单、无视遮挡等优势,并且能在各种条件下的提供目标有效的位置和速度;激光雷达有着精确的 3D 感知能力、对光线变化不敏感、信息丰富等优势,图像数据无法提供准确的空间信息、毫米波雷达拥有极低的分辨率、激光雷达有着十分昂贵的价格。同时,随着各传感器性能的提升,单一传感器带来了更多的信息,在不丢失有效信息的情况下,提取特征的难度十分巨大。因此,如何高效的处理多传感器数据并对其进行高效的融合是一项极具挑战的任务。
近年来,深度学习在摄像头数据上取得了惊人的成就,2D 目标检测速度和精度都得到了极大的提升,证明了深度学习是种有效的特征提取方法。卷积神经网络模型的发展,极大地提高了提取自动驾驶摄像头数据特征的速度和能力。有效利用这些高鲁棒性、高质量、高检测精度的图像特征,基于视觉的无人驾驶汽车也能在 3D 感知任务中获得不错检测结果。深度学习在处理激光雷达数据上也有着不错的效果,随着基于稀疏点云数据的网络的提出,深度学习在点云特性的学习能力上也渐渐超过了一些传统方法。然而,采用深度学习进行多传感器融合的时候,仍然存在着融合低效、数据不匹配以及容易过拟合等问题;将多传感器融合技术应用到自动驾驶障碍物检测的过程中也存在着检测精度不够、漏检错检和实时处理能力不足的情况。由于自动驾驶汽车等级的提高,传统的多传感器目标融合已经无法满足决策对感知的需求,大量感知的冗余信息也对决策带来了极大的困难。并且由于多传感器的原始数据间在信息维度、信息范信息量上有着巨大的差异,有效的融合多传感器信息变得十分困难。
多传感器的数据融合包括多传感器的空间融合以及时间上的同步。传感器安装于汽车车身的不同位置,每个传感器定义了自己的坐标系,为了获得被测对象的一致性描述,需将不同的坐标系转换到统一的坐标系上。点云数据和图像数据的空间融合模型涉及的坐标系包括世界坐标系、激光雷达坐标系、相机坐标系、图像坐标系和像素坐标系。空间融合的主要工作是求取雷达坐标系、摄像头坐标系、图像物理坐标系、图像像素坐标系之间的转换矩阵。然而由于不同传感器的工作频率不同,数据采集无法同步,因此还需要根据工作频率的关系进行多传感器时间上的融合,通常做法是将各传感器数据统一到扫描周期较长的一个传感器数据上。
自动驾驶感知模块信息融合又称数据融合,也可以称为传感器信息融合或多传感器融合,是一个从单个或多个信息源获取的数据和信息进行关联、相关和综合,以获得精确位置和身份估计,同时也是信息处理过程不断自我修正的一个过程,以获得结果的改善。利用多个传感器获取的关于对象和环境更丰富的信息,主要体现在融合算法上。因此,多传感器系统的核心问题是选择合适的融合算法。
多传感器信息融合可以简单的划分为:检测级、位置级(目标跟踪级)、属性级(目标识别级)。对于结构模型,在信息融合的不同层次上有不同的结构模型。检测级的结构模型有:并行结构、分散结构、串行结构、和树状结构。位置级的结构模型有:集中式、分布式、混合式和多级式,主要是通过多个传感器共同协作来进行状态估计。属性级的结构模型有三类:对应决策层、特征层和数据层属性融合。
检测级融合是直接在多传感器分布检测系统中检测判决或信号层上进行的融合,对多个不同传感器的检测结果进行综合,以形成对同一目标更准确的判决,获得任意单个传感器所无法达到的检测效果,是信息融合理论中的一个重要研究内容。位置级融合是直接在传感器的观测报告或测量点迹或传感器的状态估计上进行的融合,包括时间和空间上的融合,是跟踪级的融合,属于中间层次,也是最重要的融合。多传感器检测融合系统主要可以分为集中式和分布式两种方式。集中式融合是先将各个传感器原始数据直接传输到融合中心,然后融合中心对这些所有的数据进行处理,最后生成判决。分布式融合是将各个传感数据进行预处理后,得到独立的检测结果,然后所有传感器的检测结果再传到融合中心进行假设检验,生成最终的判决。属性级融合根据多传感器融合属性层级的不同主要分为三类,分别是数据层、特征层和目标(决策)层上的融合,方法主要有基于估计、分类、推理和人工智能的方法等。
数据层融合是对传感器采集到的原始数据进行融合处理,融合前不会对原始数据进行预处理,而先在数据上进行融合,处理融合后的数据。然后进行特征提取和判断决策,是最低层次的融合。每个传感器只是将其原始数据传输到融合模块,然后融合模块处理来自所有传感器的原始数据。然后将融合的原始数据作为输入提供相应的算法。传统方法中,Pietzsch 等利用低级测量矢量融合用于组合来自不同传感器的数据,用于预碰撞应用。随着深度学习的发展,在数据配准的情况下,也可以利用深度学习对配准后的数据进行学习。此类融合方法要求所融合的各传感器信息具有非常高的配准精度。这种融合处理方法的优点是提供其它两种融合层次所不能提供的细节信息,可以通过融合来自不同来源的原始数据在很早的阶段对数据进行分类但是所要处理的传感器数据量大,处理时间长,需要很高的数据带宽,实时性差,抗干扰能力差,并且在实践中可能很复杂,且数据融合由于原始数据采用不同格式和不同传感器类型,要求传感器是同类的。因此在架构中添加新传感器需要对融合模块进行重大更改。
因此一些研究者开始引入了特征层融合的思想。与直接使用来自不同传感器的原始数据进行融合不同,特征级融合首先分别对各自数据进行特征提取,然后对提取的特征进行融合处理。特征级融合需要对传感器采集到的数据作提取特征处理,抽象出特征向量,然后对特征信息进行处理,最后到融合后的特征,用于决策,属于中间层次的融合。其优点在于有助于提高实时性,降低对通信宽带的要求。特征级融合提供了更多的目标特征信息,增大了特征空间维数。融合性能有所降低的原因是由于损失了一部分有用信息。特征级融合的实现技术主要有:模板匹配法、聚类算法、神经网络和支持向量机(Support Vector Machine, SVM)等。大多数基于深度学习的方法也是利用神经网络提取特征,对不同传感器提出的特征之间做级联或者加权,如 RoarNet、AVOD、MV3D、F-PointNet等。特征级融合的主要优点是它能够减少传感器数据到融合模块的带宽,并且可以通过提升特征的互补性来提升效果。特征级融合保留了低级融合的相同分类和预处理能力,允许相关数据类似地有效地集成到跟踪算法中。
目标(决策)层融合架构与低级融合相反。每个传感器分别进行目标检测算法,并产生跟踪目标列表。然后,融合模型将这些目标与一个目标跟踪序列融合相关联。对每个传感器进行预处理、特征提取、识别或判决,最后得到的初步决策进行融合判断,因此是最高层次的融合。决策级融合可以在同质或异质传感器中进行融合。决策级融合的优点与不足恰好和数据级相反,目标级融合的主要优势在于其模块化和传感器特定细节的封装。并且通信量小,有一定的抗干扰能力,处理代价低,选用适当融合算法,可以将影响降到最低;主要缺点:预处理代价高,数据信息处理效果比较依赖于预处理阶段的性能。常用的方法有:专家系统方法、模糊集合论、贝叶斯推理、D-S 证据理论等。现阶段大多数目标层融合的目标检测方法十分低效,不适用于自动驾驶汽车对检测时间的要求。同时,特征层和数据层的融合也需要更多的考虑各自数据形式。
目前大多数多传感器融合研究集中于图像数据与多线激光雷达,然而,只基于摄像头的自动驾驶感知系统,缺乏空间信息的维度,无法精确的恢复空间信息的位置。摄像头易受到光线、探测距离等因素的影响,当检测远距离目标的时候,只能给出分辨率极低的信息,甚至人的肉眼无法分辨,导致无法标注或错误标注的问题,无法稳定地应对复杂多变的交通环境下车辆检测任务,无法满足无人驾驶汽车稳定性的要求。因此,自动驾驶目标检测需要更多的传感器。而激光雷达具有探测距离远、不受光线影响并且能够准确获得目标距离信息等优点,能够弥补摄像头的缺点。当目标被识别时,可判断此时检测框内有无点云,来决定是否修正相应的识別置信度。雷达点云数据与图像数据的融合不仅能获得准确的目标的深度信息,还能降低图像检测时的漏检的概率,达到了融合数据以提高检测效果的目的,通过这种多视图的编码方案能够获得对稀疏3D点云更有效和紧凑的表达。
由于视觉图像获取较易、处理方法多样,所以视觉技术是现阶段自主车辆研究中的主要获取信息手段。其中视觉技术主要分为单目视觉和双目视觉。单目视觉识别技术多采用基于车辆特征的方法,该方法主要利用车辆与背景有差异的特征,如纹理、边缘和底部阴影等。但这种方法获取的信息量不足,缺乏深度信息,而且易受外部环境的干扰,诸如光照和阴影等因素。双目视觉识别技术虽然可以取得较好的效果,但其计算量较大,算法复杂,难以保证车辆识别的实时性。激光雷达能够获得场景的距离信息,不易受光照等外部条件的影响,但其获取的外部信息不充分,易造成误判。因为图像具有较好的横向纹理特征,点云能够提供可靠的纵向空间特征,故而采用多传感器融合技术可以克服单一传感器获取信息量不足,探测范围小的缺点。随着自动驾驶和深度学习技术的发展,多传感器融合相关技术得到了极大的推动。多传感器融合技术基本可概括为:对于不同时间和空间维度的多传感器信息,依据融合准则,对这些信息进行分析,获得对被测量的目标一致性描述与解释,进而实现后续的决策和估计,使融合结果比单独获取的结果更加丰富与准确。在自动驾驶领域,卡尔曼滤波算法、D-S 证据理论等传统多传感器融合算法仍然发挥着十分重要的作用。但随着深度学习快速发展,端到端的数据融合也成为自动驾驶不可或缺的方法。
现有的融合方案有些仅用于辅助确认目标的存在性,例如在激光雷达返回有目标的大致区域进行相应的视觉检测;有些使用了统一框架进行融合,如在基于卡尔曼滤波框架下,对于不同传感器赋予了不同的协方差,并在任意一个传感器获得目标数据后进行序贯更新。这些方案均可以实现多传感器数据融合,但由于只是将不同传感器等同看待而进行融合,方法虽然直接但低效,因而效果有较大提升空间。在基于纯视觉的 3D 目标估计中,估计的距离属性极其不稳定,而通过多传感器的融合,对视觉信息进行修正,极大的提高自动驾驶的目标检测精度。 在目标层的融合摄像头和激光雷达信息不能满足自动驾驶的要求。
参考:
廖岳鹏(基于多传感器的自动驾驶目标检测) https://wenku.baidu.com/view/93e561a2fbd6195f312b3169a45177232f60e480.html CVPR_2017 : Multi-view 3d object detection network for autonomous driving;