自动驾驶的“天眼”!聊一聊高精地图领域中所有主流的制作方案

1自动驾驶中的高精地图生成技术​​​​​​​

在过去几年中,自动驾驶一直是最受欢迎和最具挑战性的话题之一。在实现完全自主的道路上,研究人员利用了各种传感器,如激光雷达、相机、惯性测量单元(IMU)和GPS,并开发了用于自动驾驶应用的智能算法,如目标检测、目标分割、障碍避免和路径规划。近年来,高清晰度(HD)地图引起了广泛关注。由于高清地图在定位中的高精度和信息水平,它立即成为自动驾驶的关键组成部分。从百度阿波罗(Baidu Apollo)、英伟达(NVIDIA)等大型组织到个人研究人员,已经为自动驾驶的不同场景和目的创建了高清地图。有必要回顾高清地图生成的最新方法,论文主要回顾了利用2D和3D地图生成的最新高清地图生成技术,介绍了高清地图及其在自动驾驶中的用途,并给出了高清地图生成技术的详细概述。除此之外,还讨论了当前高清地图生成技术的局限性,以推动未来的研究。

2什么是高精地图?

高清地图包含自动驾驶所需的道路/环境的所有关键静态属性(例如:道路、建筑物、交通灯和道路标记),包括由于遮挡而无法由传感器适当检测到的目标。近年来,用于自动驾驶的高清地图以其高精度和丰富的几何和语义信息而闻名。它与车辆定位功能紧密连接,并不断与不同传感器(包括激光雷达、雷达和摄像机)交互,以构建自主系统的感知模块,如下图所示:

自动驾驶的“天眼”!聊一聊高精地图领域中所有主流的制作方案_第1张图片

在自动驾驶市场上没有独特的标准高清地图结构。然而,市场上有一些常用的高清地图结构,如导航数据标准(NDS)、动态地图平台(DMP)、高清实时地图和TomTom。大多数结构共享类似的三层数据结,下表显示了由TomTom和Lanelet(Bertha Drive)定义的三层结构化高清地图。

自动驾驶的“天眼”!聊一聊高精地图领域中所有主流的制作方案_第2张图片

第一层“道路模型”定义了道路特征,如拓扑、行驶方向、高程、坡度/坡道、规则、路缘/边界和交叉口。它用于导航。第二层,车道模型,定义车道级别特征,如道路类型、线路、道路宽度、停车区域和速度限制。该层用作自动驾驶的感知模块,根据实时交通或环境做出决策。顾名思义,最后一层定位模型在高清地图中定位自动车辆。该层包含道路设施,如建筑物、交通信号、标志和路面标记。这些功能有助于自动车辆快速定位,尤其是在具有丰富特色的城市区域。

3高精地图的数据采集

数据源/收集是生成高清地图的第一步。使用移动地图系统(MMS)进行数据收集,MMS是一种配备地图传感器的移动车辆,包括GNSS(全球导航卫星系统)、IMU、激光雷达(光探测和测距)、相机和雷达,用于收集地理空间数据。

商业化高清地图提供商采用众包方式收集数据,以构建和维护其高清地图。Level5与Lyft合作,沿加利福尼亚州帕洛阿尔托的固定路线发送了20辆自动驾驶汽车,以收集由170000个场景组成的数据集,一个包含15242个标记元素的高清语义地图,以及一个该区域高清的鸟瞰图。TomTom通过多源方法收集数据,包括调查车辆、GPS跟踪、社区输入、政府来源和车辆传感器数据,这里利用了全球400多辆地图车辆、政府数据、卫星图像和社区输入,不断获得最新的道路信息。通过众包收集数据可以在很短的时间内收集大量最新的道路/交通数据。众包数据还包含不同的环境,包括城市、城镇和农村地区。然而,由于多个移动地图系统的高成本和数据收集的时间消耗,该方法不是单个研究人员的最佳解决方案。个别研究人员还利用MMS收集数据,他们不是收集世界各地不同类型环境的数据,而是关注规模更小的区域,例如城市,大学校园或住宅区。收集的数据出于研究目的,类型也更加具体。

此外,还有大量开源数据,如卫星图像、KITTI数据集、Level5 Lyft数据集[4]和nuScenes数据集,供研究人员进行测试和生成高清地图。这些数据集包含2D和3D真实世界交通数据,包括图像、3D点云和IMU/GPS数据,这些数据已经组织和标记,地图数据的收集方法与优劣如下图所示:

自动驾驶的“天眼”!聊一聊高精地图领域中所有主流的制作方案_第3张图片

4点云高精地图生成

一旦收集到初始传感器数据,通常会对其进行融合和排序,以生成初始地图,主要用于精确定位。初始mapping主要使用3D激光传感器生成;然而,它可以与其他传感器融合,如IMU、GPS、里程计和视觉里程计,以便在高清地图中进行更精确的状态估计。INS和GPS传感器提供方位和位置信息,以在厘米精度范围内更新地图位置。这些点云地图已经非常精确,可以帮助车辆在3D空间厘米级进行精确定位。随后,在mapping获得点云配准之后,从PCL映射创建矢量映射。点云配准被称为对齐多个重叠点云以生成详细和准确地图的多步骤过程(如下图所示)。

自动驾驶的“天眼”!聊一聊高精地图领域中所有主流的制作方案_第4张图片

矢量地图包含与车道、人行道、十字路口、道路、十字路口、交通标志和交通灯相关的信息。这一关键特征后来被用于检测交通标志和信号灯、路线规划、全局规划和局部路径规划。毫无疑问,地图生成是高清晰度地图生成的一个组成部分,它可以定义为HD地图的基本几何图形图层。

建图技术

地图生成技术可分为在线地图和离线地图。离线映射数据全部收集在中心位置,数据使用卫星信息或激光雷达和摄像机存储的数据,然后地图在收集数据后离线构建。

另一方面,在线地图中地图生成使用轻量级模块进行,除了地图制作类型之外,还可以通过使用传感器或如何融合传感器对地图技术进行分类。

以下标测技术需要基于激光的传感器,因为它们在长距离下显示出良好的精度。大多测绘技术目前都使用激光作为主要传感器,用于测绘和完成高清晰度地图。另一方面,有一些方法仅使用视觉传感器来构建点云地图,存在为3D模型生成而开发的点云配准技术,下面是几种常用方法!

1) 基于分割的点云配准

SegMap是一种基于点云中分割特征提取的映射解决方案,该方法通过重构要区分的局部特征来生成点云图。轨迹结果表明,与LOAM(激光测程和测绘)结合使用时,性能比仅使用LOAM框架更高。

2)仅基于激光雷达的点云建图

通过改进现有的点选择方法和LOAM迭代姿态优化方法,小视场和不规则采样的激光雷达方法已经实现了卓越的精度和效率,整体建图结构如下图所示:

自动驾驶的“天眼”!聊一聊高精地图领域中所有主流的制作方案_第5张图片

[19]引入了一种快速环路闭合技术,以修复激光雷达里程测量和测绘中的长期偏移,[20]中的小视场分散式多激光雷达平台使用扩展卡尔曼滤波器进行鲁棒建图。此外,[21]中还有一种技术,在机器人的不同高度安装激光雷达,以生成点云。

3)里程计融合点云配准

当GPS不可用或断开连接时,融合里程计非常方便,主要是在室内。迭代最近点(ICP)方法使用6自由度信息来匹配给定点云中的最近几何体。这种方法的主要缺点是,它停留在局部最小值,需要一个完美的起点,导致误差和与实际环境的偏差增加[22]。NDTMap[23]、[24]生成是从点云[25]、[26]转换而来的连续可微概率密度,NDTMap的概率密度包含一组正态分布。它是一个体素网格,其中每个点基于其坐标分配给体素。将点云划分为体素云,然后对合并的体素进行滤波,以减少地图中的噪声,减少计算量。如果初始猜测中未使用里程计,则从每次NDT更新中得出状态估计,初始猜测来自基于运动模型的速度和加速度更新。当引入里程计时,位置更新基于里程计数据,特别是速度模型和方向更新。

4)GPS融合点云配准

GNSS中的绝对位置作为graph-based建图中的约束,以统一点云数据与坐标系[12]。因此,点云中的体素使用绝对3D坐标信息进行标记,LIO-SAM中也使用了基于激光雷达的里程计,用于精确的姿态估计和地图构建[13]。

5)INS融合点云配准

在不使用任何传感器的情况下,根据每次NDT更新计算车辆状态和偏航。使用速度和加速度导出基于运动模型的初始猜测。IMU为二次模型提供平移更新和方向更新。Autoware的NDT mapping技术[27]还提供了用于标测的IMU和里程融合。类似地,DLIO方法[28]通过使用松耦合融合和姿态图优化实现精确mapping和高速率状态估计,集成IMU以通过馈送IMU偏置来校正随后的线性加速度和角速度值来增强可靠性。FAST-LIO[10]和FAST-LIO2[11]是用于快速和精确测绘的激光雷达惯性里程计系统。该系统使用紧耦合迭代EKF(扩展卡尔曼滤波器)将IMU与激光雷达特征点融合。FAST-LIO2使用了一种新技术,增量kdTree,它提供了一种增量更新和动态再平衡来维持地图。

6)视觉传感器融合点云配准

R2-LIVE[29]和R3-LIVE[30]算法使用激光、惯性导航系统和视觉传感器的融合来进行精确映射和状态估计。R2-LIVE使用基于卡尔曼滤波器的迭代里程计和因子图优化来确认准确的状态估计。

R3-LIVE是两个独立模块的组合:激光雷达IMU里程计和视觉IMU里程测量。Global地图实现了激光雷达和IMU的精确几何测量。与IMU融合的视觉传感器将地图纹理投影到全局地图中。类似的两个子模块LIO和VIO也用于FAST-LIVO[14]中的稳健和精确建图。LVI-SAM使用与R3-LIVE类似的两个子模块进行设计。根据LVI-SAM[31],视觉惯性系统利用激光雷达惯性计算来辅助初始化。视觉传感器提供深度信息以提高视觉惯性系统的精度。

下图展示出了使用现有建图算法生成的地图。有多种技术可以融合多个传感器以创建完整地图。视觉里程计(IMU和摄像机)、GPS和激光雷达数据被组合到一个超级节点中,以获得优化地图[32]。

自动驾驶的“天眼”!聊一聊高精地图领域中所有主流的制作方案_第6张图片

下图展示出了使用不同方法从在线映射获得的轨迹路径,(a)是地图传感器数据的完整路径(安大略科技园区),展示出了来自记录数据的完整里程计数据。(b)和(c)是全轨迹路径的放大版本。该地面真实路径通过RTK-GPS和IMU数据的融合获得。这些分数表明R3-LIVE遵循地面实况路径,即RTK-GPS里程计。

自动驾驶的“天眼”!聊一聊高精地图领域中所有主流的制作方案_第7张图片

5高清地图的特征提取方法

为了使ego车辆定位并遵循运动和任务计划,需要进行特征提取,如道路/车道提取、道路标记提取和杆状物体提取。特征提取传统上由人工完成,成本高、耗时且精度低。近年来,机器学习辅助的高清地图生成技术已经开发并广泛用于提高特征提取精度和减少人工工作量。机器学习辅助高清地图生成利用了人在回路(HITL)技术,该技术涉及人机交互[33]-[35]。人类进行数据标记,并使用监督学习对标记数据进行训练。具有高精度/置信度分数的结果将保存到高清地图,而具有低精度/置信率分数的结果则将由人类检查并发送回算法进行重新训练。机器学习已广泛用于提取道路/车道网络、道路标记和交通灯。

1)道路网络提取

a)基于二维航空图像的道路提取

道路地图/网络对于自动驾驶系统定位自我车辆和规划路线至关重要。从航空图像中提取路线图也很有吸引力,因为航空照片覆盖了广泛的地图,通常是城市地图,并通过卫星不断更新。然而,从航空图像手动创建路线图既费时又费力。由于人为错误,它也不能保证精确的路线图,因此,需要能够自动化路线图提取过程的方法。二维航空图像的自动道路网络提取可分为三种不同的方法:基于分割的方法、迭代图生长方法和图生成方法。

基于分割的方法从航空图像预测分割概率图,并通过后处理细化分割预测和提取图。Mattyus等人提出了一种直接估计道路拓扑并从航空图像中提取道路网络的方法[36]。在他们名为DeepRoadmper的方法中,他们首先使用ResNet的变体[37]将航空图像分割成感兴趣的类别,然后使用softmax激活函数以0.5概率阈值过滤道路类别,并使用发光提取道路中心线[38]。为了缓解道路分割的不连续性问题,他们将不连续道路的端点连接到特定范围内的其他道路端点。连接被视为潜在道路,此处应用A*算法[39]选择最短连接作为不连续道路,如下图所示:

自动驾驶的“天眼”!聊一聊高精地图领域中所有主流的制作方案_第8张图片

为了提高基于分段的道路网络提取性能并解决[36]中的道路网络断开问题,[42]提出了方向学习和连通性细化方法。所提出的方法通过预测道路网络的方向和分割并使用n-堆叠多分支CNN校正分割结果来解决道路网络断开问题。该方法在SpaceNet[43]和DeepGlobe[44]数据集上进行了进一步评估,并与DeepRoadmper和其他最先进的方法[45]-[48]进行了比较,以显示其最先进的结果。

此外,Ghandorh等人通过在基于分割的方法中添加边缘检测算法,从卫星图像中细化了分割的道路网络[49]。所提出的方法使用了编码器-解码器架构以及扩展卷积层[50]和注意机制[51]-[54],使网络能够分割大规模对象并更加关注重要特征。然后,通过将分割的道路网络馈入边缘检测算法,进一步细化这些道路网络,下图为基于分割方法的性能对比!

自动驾驶的“天眼”!聊一聊高精地图领域中所有主流的制作方案_第9张图片

迭代图增长法

迭代图生长方法通过首先选择道路网络的几个顶点从2D航空图像生成道路网络。然后,逐点生成道路,直到创建整个道路网络。Bastani等人从深度路线图中注意到了同样的限制。当道路分割存在不确定性时,启发式算法表现不佳,这可能是由遮挡和复杂拓扑结构(如平行道路)引起的[48]。基于CNN的道路分割在遮挡区域增加时表现不佳,遮挡区域从树木、建筑物和阴影中升起。现有方法[36]、[55]没有解决此类问题的固溶体。Bastani等人提出了一种新方法RoadTracer,以解决上述问题,并从航空图像中自动提取道路网络[48]。RoadTracer采用迭代图构建过程,旨在解决遮挡导致的性能不佳。道路追踪器具有由基于CNNs的决策函数引导的搜索算法。搜索算法从道路网络上的已知单个顶点开始,并随着搜索算法的探索不断向道路网络添加顶点和边。基于CNN的决策函数决定是否应将顶点或边添加到道路网络。这样,通过迭代图生长方法逐点生成道路图,迭代图增长方法如下图可视化所示:

自动驾驶的“天眼”!聊一聊高精地图领域中所有主流的制作方案_第10张图片

在15张城市地图上对道路跟踪方法进行了评估,并将结果与DeepRoadmper和Bastani等人实施的另一种分割方法进行了比较。与最先进的方法DeepRoadmper相比,RoadTracer可以生成更好的地图网络结果。迭代图构建过程的一个缺点是生成大规模道路网络的效率,由于该过程逐点创建道路图,因此随着道路网络规模的增长,该过程将变得耗时。

图生成方法

图生成方法直接从航空图像预测道路网络图,该方法将输入的航空图像编码为向量场,用于神经网络预测。然后通过解码算法将预测解码成图。该方法已用于预测道路网络图,包括线段[56]、线形对象[57]和多边形建筑物[58]。在图形生成方法的基础上,Xu等人将图形生成方法与transformer[59]相结合,提出了一种新的系统,名为csBoundary,用于自动提取道路边界,用于高清地图标注[60]。csBoundary系统首先将4通道空间图像作为输入,它通过特征金字塔网络(FPN)处理图像,以预测道路边界的关键点图和分割图。从关键点图中提取一组长度为M的顶点坐标,将关键点图、分割图和输入空间图像组合起来形成6通道特征张量。对于每个提取的顶点 × 感兴趣区域(ROI)被裁剪并放置在关键点地图的中心。Xu等人还提出了对邻接网(AfANet)的关注[60],AfA编码器利用ROI计算局部和全局特征向量,这些特征向量将由AfA解码器处理以预测提取顶点的邻接矩阵,以生成道路边界图。所有获得的图形将用于拼接到最终的城市规模道路边界图中。csBoundary的结构如下图所示。

自动驾驶的“天眼”!聊一聊高精地图领域中所有主流的制作方案_第11张图片

基于分割的方法可以使用CNN在很短的时间内从航空图像中自动提取大规模道路网络。然而,该方法的性能在很大程度上取决于航空图像的质量。如果道路上存在遮挡,这可能是由阴影或大型构建引起的,分割性能将下降。即使使用深度路线图中辅助的A*路径规划算法,该方法仍然不能保证高性能的道路网络提取,因为最短路径并不总是现实生活中的实际路径。另一方面,迭代图增长方法利用基于CNN的决策函数支持的搜索算法来提高提取具有遮挡的道路的性能。然而,迭代图增长法提取整个道路网络需要很长时间,因为该方法逐点构建道路网络。该方法的提取时间也将随着路线图的大小增加而增加。由于该方法以迭代方式提取道路网络,因此由于累积误差,它还存在漂移问题,这使得该方法提取大规模道路网络具有挑战性。用于提取道路网络的图生成方法仍然局限于对象的特定形状,因为它们严重依赖于解码算法,这限制了它们的泛化能力。

b)基于3D点云的道路提取

基于3D点云的道路或车道提取已广泛用于生成高清地图的过程中。激光雷达点云具有高精度,通常在毫米级精度,并包含扫描对象的几何信息。使用3D点云的道路提取是使用分割完成的。Ibrahim等人指出,2D道路网络不提供物体相对位置的任何深度线索,并且2D道路网络中的微小基础设施变化也不是最新的[64]。Ibrahim等人没有在航空图像上构建道路网络,而是展示了澳大利亚珀斯中央商务区(CBD)的高清激光雷达地图[64]。在他们的工作中,3D点云数据是通过在SUV顶部放置一个驱逐激光雷达并驾驶SUV通过CBD收集的。以闭环方式收集点云数据[64],以避免累积配准误差引起的漂移问题,如下图所示:

自动驾驶的“天眼”!聊一聊高精地图领域中所有主流的制作方案_第12张图片

环路检测算法用于提取形成环路的点云,其中仅提取属于特定环路的帧。然后对提取的环路点云进行预处理,包括下采样,分割地面点,并去除自我车辆和附近的无关点。使用3D正态分布变换(NDT)对预处理的回路点云进行配准和合并,对合并后的原始点云进行后处理,包括空间子采样、噪声去除、重复点去除和平滑,以生成最终提取的道路。

Ding等人提出了另一种生成3D地图的方法,为特定场景创建高清地图[67]。他们的提案将特定场景定义为自动驾驶应用的安全和操作环境。本文以大学校园的一部分作为构建三维高清地图的具体场景。Ding等人划分了他们的高清地图架构分为四个不同的层,包括定位层、道路矢量和语义层、动态对象层和实时交通层,见下表:

自动驾驶的“天眼”!聊一聊高精地图领域中所有主流的制作方案_第13张图片

定位层存储点云和图像,用于定位,道路矢量和语义层存储道路行驶方向、道路类型和道路对象,在该层中,使用OpenDRIVE文件格式。顾名思义,动态对象层存储关于对象(如行人、障碍物和车辆)的高度动态感知信息。该层以更高的频率更新,以提供来自周围环境的反馈。实时交通层存储实时交通数据,如车速和位置以及交通信号灯状态。使用NDT算法以实际场景的数字3D场景作为参考来创建3D HD地图。

c)基于传感器融合方法的道路/边界提取

基于2D航空图像和3D点云的道路提取都有局限性。由于照明条件差、路边设施造成的遮挡以及各种地形因素,从卫星和航空图像中提取的道路网络通常不准确和不完整。3D点云上的特征提取也面临遮挡和点密度变化问题,这导致道路提取不准确和不完整。在提取道路或道路边界时,使用单一数据源的局限性是显而易见的。因此,研究人员一直在使用多源数据来提取和完成道路或道路边界。Gu等人[68]采用了激光雷达图像和相机透视图,并构建了一个映射层,将激光雷达图像视图的特征转换为相机透视图像视图。这种方法增强了摄像机透视图中的道路提取性能。Gu等人[69]还提出了一种条件随机森林(CRF)框架,用于融合激光雷达点云和摄像机图像,以提取道路网络的距离和颜色信息。在[70]中,设计了一个全卷积网络(FCN),用于基于道路检测的残差融合策略,合并从激光雷达摄像机数据中学习的特征图。Li等人[71]采用了一种不同的方法,通过融合GPS轨迹和遥感图像来构建路线图。该方法使用基于转移学习的神经网络从图像中提取道路特征,并使用U网络提取道路中心线。此外,在[72]中设计了一个紧密耦合的感知规划框架,通过使用GPScamera激光雷达传感器融合来检测道路边界。

Ma等人还提出了一种新的深度学习框架,名为BoundaryNet,用于提取道路边界,并利用激光扫描点云和卫星图像填补道路边界数据中因遮挡造成的现有空白[73]。该方法使用基于路缘的提取方法提取道路边界,并采用改进的U-net[74]模型从道路边界点云中去除噪声点云。然后,将基于CNN的道路边界完成模型应用于提取的道路边界,以填充一些间隙。受图像到图像转换方法生成对抗性网络(GAN)[75]的启发,设计了一种条件深度卷积生成对抗网络(c-DCGAN),以在从卫星图像提取的道路中心线的帮助下,提取更准确和完整的道路边界。

2)道路标线提取

道路标记是高清地图上的基本特征,可为ego车辆提供有关交通方向、转弯车道、可行驶和不可行驶车道、人行横道等的信息。与道路提取方法类似,也可以使用2D图像或3D点云进行道路标记提取。

a)基于二维图像的道路标线提取

传统上,2D图像上的道路标记提取是通过图像处理和计算机视觉实现的。包含道路标记的图像首先被去噪和增强,以使道路标记清晰和明显,并突出目标和背景区域之间的对比度。然后,使用图像处理和计算机视觉方法提取目标道路标记,如基于边缘的检测(如Roberts、Sobel、Prewitt、Log和Canny)、阈值分割(如Otsu法和迭代法)、k均值聚类和区域增长法[83]。传统方法在从路面或混凝土道路提取道路标记方面取得了显著的性能。然而,没有正确识别不同道路标记的简单提取对于ego车辆理解道路规则来说不够有效。随着CNN的引入和快速发展,涉及CNN的方法已被广泛开发并用于检测和识别道路标记。2D图像上的道路标记提取和识别通常采用两种不同的方法进行。一种是利用由车载摄像机捕获的前视图图像。另一种是从航空图像中提取道路标记。两者的示例如下图所示:

自动驾驶的“天眼”!聊一聊高精地图领域中所有主流的制作方案_第14张图片

前视图图像由于其成本效益和便利性而被广泛用于道路标记提取,已经提出了几种方法来检测车道线标记。Zhang等人[84]提出了Ripple 车道线检测网络(RiLLD网络),用于检测普通车道线标记,Ripple GAN用于检测复杂或闭塞的车道线标记。使用Sobel边缘检测滤波器将包含车道线标记的原始图像预处理为梯度图,原始图像和梯度图都被馈入RiLLD网络,以去除冗余干扰信息并突出车道线标记。提出的Ripple GAN是Wasserstein GAN(WGAN)[86]和RiLLDNet的组合。将添加了高斯白噪声的原始车道线标记图像发送到WGAN,以产生分割车道线标记结果。分割结果与梯度图一起发送到RiLLD网络,以进一步增强车道线标记检测结果。此外,[87]提出了一种具有双卷积门控递归单元(CONVGRU)的时空网络,用于车道线检测。网络不是一次拍摄一张图像,而是将由连续时间戳的车道线标记组成的多个捕获作为输入。两个convgru都有自己的功能,第一个ConvGRU,也称为前端ConvGlu(FCGRU),位于编码器阶段,用于学习并过滤掉可能影响模型学习过程的干扰信息。第二个ConvGRU,也称为中间ConvGRU,包含多个ConvGRU。它位于编码器和解码器阶段之间,用于彻底学习FCGRU产生的连续驱动图像的空间和时间驱动信息。此外,还提出了其他方法来解决车道线检测和提取问题,如图形嵌入车道检测[90]、基于渐进概率霍夫变换的车道跟踪[91]、SALMNet[92]、基于分割的车道检测[93]和Mask R-CNN实例分割模型[94]。下表汇总了当前车道线检测主流方法及性能:

自动驾驶的“天眼”!聊一聊高精地图领域中所有主流的制作方案_第15张图片

b)航空图像中的道路标线提取

卫星和航空图像不仅可用于道路网络提取,还可用于道路标记提取。Azimi等人[99]提出了航空LaneNet,以直接从航空图像中提取道路标记。所提出的网络包含对称全卷积神经网络(FCNN)。原始航空图像在发送到航空网络之前被切割成多个块。空中LaneNet预测每个输入块的语义分割,并为每个块生成二值图像,表示哪个像素来自车道标记,哪个像素来自背景。将所有二值图像/块拼接在一起以构建具有与输入图像相同分辨率的最终道路标记图像。该模型还利用离散小波变换(DWT)实现多尺度和全谱域分析。同样,Kurz等人[100]设计了一种小波增强FCNN,用于分割多视图高分辨率航空图像。imagery2D片段还用于基于最小二乘线拟合创建道路标记的3D重建。

Yu等人还提出了一种称为MarkCapsNet[101]的自注意力引导胶囊网络,用于从航空图像中提取道路标记。所提出的网络结合了胶囊公式和HRNet[102]架构,通过涉及三个具有不同分辨率的并行分支,可以在不同尺度上提取特征语义。还设计了基于胶囊的自关注(SA)模块,并将其集成到MarkCapsNet的每个分支中,以进一步提高生成的用于道路标记提取的特征地图的表示质量。此外,Yu等人还为道路标记提取应用创建了一个称为AerialLanes18的大型航空图像数据集,该数据集可作为未来测试道路标记提取不同方法的基准。MarkCapsNet和其他道路标记提取模型[99]、[102]–[105]在两个数据集(UAVMark20和AerialLanes18)上进行了实验和比较。表VIII中的结果表明,MarkCapsNet实现了最先进的性能。与航空图像相比,前视图图像上的道路标记提取方法具有更小的视场,并且检测/处理时间也比在航空图像上使用现有提取的道路标记更长。然而,由于检测是基于实时摄像机图像的,因此对于道路标记的变化(如磨损和遮挡)是灵活的。相比之下,航空图像上的道路标记提取可以提取更大比例的道路标记,并将提取的道路标记存储在高清地图中,以减少检测时间。然而,它对由照明条件、遮挡和路标磨损引起的数据缺陷非常敏感。

c)基于三维点云的道路标线提取

3D点云上的道路标线提取通常采用两种不同的方法,自下而上方法和自上而下方法[81]。自底向上方法通过区分道路标记点云和背景点云直接提取道路标记。相反,自上而下的方法使用CNN检测预定义的几何模型,并基于检测重建道路标记。

自底向上方法使用深度学习算法,基于对象检测和分割从原始3D点云中直接提取道路标记。阈值相关方法及其扩展,包括多阈值和结合几何特征的多阈值过滤广泛用于道路标记提取[106]-[109]。[103]、[110]在提取道路标记之前,将3D点云转换为2D地理参考强度图像,以显著降低计算复杂度,但丢失姿态(位置和方向)或空间信息。为了填补从提取的道路标记中缺失的姿态或空间信息的空白,Ma等人提出了一种基于胶囊的道路标记提取和分类网络[111]。所提出的方法通过过滤掉非地面特征点云(如杆、交通灯和树)来处理数据,以降低计算复杂度。使用反距离加权(IDW)算法将处理后的3D点云转换为2D地理参考强度光栅图像。受[112]中提出的胶囊网络的启发,Ma等人提出了一种基于U形胶囊的网络,该网络不仅可以从光栅图像中学习强度方差,还可以学习道路标记的姿态和形状。

自顶向下方法使用现有的目标检测算法来检测和定位道路标记几何模型。它基于检测和定位在3D点云上重建道路标记。Prochazka等人[114]使用生成树使用方法自动将点云中的车道标记提取到多边形地图图层中。所提出的方法在原始点云上进行地面点检测[115],并使用生成树识别检测。在检测和识别之后,将车道标记重建为矢量形式。该方法可以检测车道标线,但不能检测其他类型的道路标线,如道路方向标线和人行横道标线。Mi等人提出了一种使用MLS点云进行道路标记提取和建模的两阶段方法[81],方法利用YOLOv3[116]算法来检测道路标记,并在每次检测时提供语义标签。

3)杆状物体提取

在高清地图中,杆状对象(如交通灯、交通标志、路灯、树木和电话线杆)对道路环境至关重要。它们可以帮助定位(不同于其他道路设施的形状)和运动规划(交通信号灯提供交通流条件)。杆状物体提取通常通过MLS 3D点云的分割和分类完成。前几年已经开发了各种用于杆状物体提取的方法。Lehtomäki等人[117]提出使用MLS 3D点云结合分割、聚类和分类方法检测垂直杆状物体。El Halawany等人[118]采用了基于协方差的程序,对地面激光扫描点云进行杆状物体分割,并找到它们的尺寸。Yokoyama等人[119]使用k近邻图应用拉普拉斯平滑,并使用主成分分析识别具有不同半径和倾角的杆状物体上的点。Pu等人[120]提出了一个从MLS 3D点云中识别结构的框架,并基于点云片段的特征(如大小、形状、方向和拓扑关系)提取了杆状对象。Cabo等人[121]提出了一种通过使用规则体素化对点云进行空间离散化并分析和分割水平体素化点云来检测杆状物体的方法。Ordóñez等人[122]在[121]的基础上增加了一个分类模块,以区分点云中不同类型的极点。Yu等人[123]提出了一种半自动提取路灯杆的方法,将MLS 3D点云分割为道路和非道路表面点,并使用成对3D形状上下文从非道路段提取路灯杆。Zheng等人[124]提出了一种新的基于图割集的分割方法,用于从MLS 3D点云中提取路灯杆,然后采用基于高斯混合模型的方法识别路灯杆。

Plachetka等人[125]最近提出了一种基于深度神经网络(DNN)的方法,用于识别(检测和分类)激光雷达点云中的杆状物体。受[126]的启发,提出的DNN体系结构由三个阶段组成:编码器、主干、分类和回归头。原始3D点云被预处理为单元特征向量,单元特征向量是编码器级的输入。Plachetka等人在[128]之后增加了另一个编码器级,以提高单元特征向量的代表性,而不是[127]中仅有一个编码器。编码器将单元特征向量编码成空间网格,作为主干网的输入。主干阶段采用并修改了特征金字塔架构[61],以包含更多上下文,提高了检测小对象的模型性能[129]。主干级将来自下游路径的低级特征和来自上游路径的高级特征连接起来,以进一步增强输入网格的代表性。下游路径使用卷积层,而上游路径使用转置卷积层,输出特征网格成为分类和回归头阶段输入。该架构采用SSD[130]方法来计算最后阶段的预测。该方法的平均召回率、准确率和分类准确率分别为0.85、0.85和0.93。检测类别包括保护杆、交通标志杆、交通灯杆、广告牌杆、灯柱和树木,总之,高清地图中的杆状对象由于其特殊形状而成为定位的重要特征。杆状对象提取主要在3D点云上进行,提取的性能还取决于点云的质量。因此,需要进一步研究如何提高不完美数据下的类极点目标提取性能。

6高清地图框架

随着高清地图越来越复杂,需要提取的环境特征越来越多,有必要使用框架形式的良好软件,以便在地图中充分存储相关信息,并确保地图的一致视图。本节介绍了三种用于创建高清地图的流行开源框架,包括Lanelet2、OpenDRIVE和Apollo地图。

Lanelet2地图包含三层:物理层、关系层和拓扑层,如下图所示。这三层的特征与此处定义的特征相似。第一个物理层由两个元素组成,点和线串,点是地图的基本元素,它可以将垂直结构表示为单点的杆、车道或一组点的区域。线串被构造为两个或多个点的有序阵列,其中每两点之间使用线性插值。物理层,顾名思义,定义了可检测元素,如交通灯、标志、路缘石等第二个关系层由三个元素组成,lanelets、AREA和调控元素。车道定义了不同的道路类型,如常规车道、人行横道和轨道。lanelet还与在lanelet内不改变的交通规则相关联。它由一个左右线字符串定义为两个方向相反的边界。通过将左边框更改为右边框(反之亦然),一对线串中的方向可以互换。区域由一条或多条线串构成,以形成封闭屏障,通常表示静态结构,如建筑物、停车场、游乐场和草地空间。顾名思义,监管要素定义了交通规则,以监管ego车辆。车道和区域可以有一个或多个监管要素,如速度限制和限制。还可以添加动态规则,例如基于一天时间的转向限制,作为监管元素。

Lanelet2是一个支持高清地图的简单而强大的框架。它还经常与Autoware Auto一起使用,为高清地图创建矢量地图。

自动驾驶的“天眼”!聊一聊高精地图领域中所有主流的制作方案_第16张图片

OpenDRIVE是由自动化和测量系统标准化协会(ASAM)开发的用于描述道路网络和创建高清地图的开源框架。它还使用XML文件格式存储地图信息。在ASAM OpenDRIVE地图中,有三个元素/层,参考线/道路、车道和特征。与Lanelet2地图不同,OpenDRIVE使用点来描述和构造地图特征,使用几何图元,包括直线、螺旋线、圆弧、三次多项式和描述道路形状和行驶方向的参数三次多项式。这些几何图元称为参考线。参考线是每个OpenDRIVE道路网络的关键组成部分,因为所有车道和特征都沿着参考线构建。第二个元素,车道,连接到参考线并表示地图上的可驾驶路径。每条道路至少包含一条宽度大于0的车道。每条道路上的车道数取决于实际交通车道,没有限制。沿道路修建车道时,需要宽度为0的中心车道作为车道编号的参考。中心车道根据道路类型定义两侧的行驶方向,可以是相反方向,也可以是相同方向。由于中心车道和基准线之间没有偏移,因此中心车道与基准线重合。最后一个元素“要素”包含与交通规则相关的对象,如信号和标志。然而,与Lanelet2不同,ASAM OpenDRIVE不包含动态内容。在[135]中还可以找到由ASAM提供的OpenDRIVE用户指南。

阿波罗地图是由中国领先的自动驾驶平台百度阿波罗创建的高清地图。阿波罗高清地图也使用OpenDRIVE格式,但是专为阿波罗设计的修改版。阿波罗只是使用点,不像OpenDRIVE,使用线、螺旋线和圆弧等几何图元定义道路。与Lanelet2中的点类似,每个点存储纬度和经度值,这些点的列表定义道路边界。在阿波罗高清地图中,通常有五个不同的元素:

  1. 道路元素包含道路边界、车道类型和车道行驶方向等特征;

  2. 相交元素具有相交边界;

  3. 交通信号元素包括交通信号灯和标志;

  4. 逻辑关系元素包含交通规则;

  5. 其他要素包括人行横道、路灯和建筑物[133]。

为了构建高清地图,百度阿波罗将生成过程分为五个步骤:数据源、数据处理、对象检测、手动验证和地图制作,如下图所示:

自动驾驶的“天眼”!聊一聊高精地图领域中所有主流的制作方案_第17张图片

阿波罗地图是OpenDRIVE的更高级和更复杂的版本,阿波罗地图包含最初不在OpenDRIVE中的元素,如无停车区和人行横道。阿波罗地图也需要比OpenDRIVE更多的数据来定义车道。OpenDRIVE只需要指定车道宽度,而Apollo需要点来描述车道边界。为了在阿波罗中使用OpenDRIVE地图,可以使用此处提供的方法[136]将OpenDRIVE格式转换为阿波罗格式。Lanelet2地图也可以转换为OpenDRIVE地图格式。Carla是一个用于自动驾驶的开源模拟器,它提供了一个用于将OSM映射转换为OpenDRIVE映射的PythonAPI[137]。

7参考文献

[1] High-Definition Map Generation Technologies for Autonomous Driving

往期回顾

聊一聊基于激光雷达、Camera和跨模态数据的地图定位!

你可能感兴趣的:(大数据,计算机视觉,机器学习,人工智能,深度学习)