本文总结小鹏汽车HD Map算法专家刘德浩于11月3号在深蓝学院关于高精地图技术的公开课。在本次公开课程中,刘德浩博士围绕自动驾驶中高精地图的必要性,高精地图的定义,生产过程以及主要产商这几个话题展开扩展介绍。
自动驾驶是一个很老的概念,而它的发展和人工智能有着非常紧密的关系。尤其是随着2014年AlexNet的发布,因为当时它几乎打败了所有传统的感知方案。自此,很多基于视觉感知的自动驾驶方案如雨后春笋。比如,特斯拉在两年后(2016年)推出了首款辅助驾驶产品Autopilot,而小鹏公司也是在2014开始经历了快速的发展。目前,单车智能已经具备了很高的水平,但是还远远没有达到人的智能水平,而关于自动驾驶另一个方向的努力是通过车的网联来提升智能服务的水平。
自动驾驶所定义的等级包括从Level 1 到 Level5。L1的辅助驾驶只关注当前车道的横向或者纵向的辅助能力(比如自适应巡航);L2要兼顾车道的横向和纵向的辅助能力;L3是“条件自动驾驶”。要求车辆自主的从给定的A点开到B点,这就需要车辆能够自主的完成变道等操作,相对于L2,这是一个很大的跨度,不过L3不要求在所有路段和所有时间都能够有效工作;而L4则要求在在指定路段的任何时间都可以有效工作;L5则需要实现任何时间任何路段的自动驾驶。
要实现自动驾驶需要实现感知,定位,规划和控制这几个步骤。感知就是需要车辆去知道周围的环境是什么样,定位就是要去知道“我在哪里”,感知和定位的结合就可以让车辆理解周围的环境,并建立一个车路模型。规划需要在建好的车路模型规划路线,控制则就是让车直接走起。
L2的感知只需要关注当前车道,而L3要求车完成变道等操作,这就要求车辆具备360度全方位的感知能力,并对周围的车辆路径进行预测,进行路权谈判。在高速场景中,我们主要需要关注车的运动,相对容易,而在城市环境,由于人,自行车,动物等移动物体的运动存在很大的随机性,这就让对它们运动的预测难度增加。
图一:L2和L3级别车辆行驶的感知要求不同
首先,人在开车的时候是不需要高精地图的,比如在熟悉的道路上,人眼感知就足够了,而面对不熟悉的道路,我们需要的道路级的导航地图和人眼感知。理论上来说,车载的感知系统能够获得所有的道路信息,包括车道的优先级,可行驶区域的范围,这是否意味着高精地图是没有必要的呢?
其实目前而言,感知所涉及的传感器往往还具有很大的局限性,比如单目视觉的尺度丢失问题,Lidar在雨雾天气的效果以及反射等问题,以及之后可能面对大量Lidar传感器共存时的相互干扰问题。除此之外,现有的AI模型虽然具有很强的归纳能力,但是演绎能力还是不够强,这就意味着对于一些特殊场景,感知的模型有可能失效或者发生误识别。
整体来说,在目前AI能力仍然不足的情况下,将短期不变的先验信息进行保存,生成高精地图将有利于确保自动驾驶系统的稳定性。
而哪些短期不变的先验信息是需要高精地图进行存储的呢?这些信息又需要怎么组织和表达呢?这些信息可能包括车道线,剪头,停止线,让行标志等路面元素,也可能包括高出路面的元素,比如交通信号灯,标志牌,龙门架,杆子等。储存这些信息,点云是一种方式,点云的优势在于有助于定位,为了降低点云的存储大小,我们可以采用体素化的操作。如果还希望进一步压缩,可以只存储语义级别的信息。因为不同地图厂商服务的应用场景不同,比如在园区,可能会更倾向于使用点云地图等方式,而对于较大范围的建图,那么模型化的处理就显得更有必要了。整体来说,业内对于建图还没有统一的标准。
对于自动驾驶,高精地图还是不可或缺的一个模块。而针对L2和L3级别的自动驾驶,对于定位的要求也不一样。对于L2级别的自动驾驶,可能基于DR (Dead Reckoning)的定位就已经足够,而对于L3级别的自动驾驶,(横向)厘米级的定位则是必要的。在L3中,还有一个要求比较高的模块就是行为预测,如果行为预测足够准确,规划和控制就比较好实现,反之,规划和控制将会遇到很大的麻烦。
而具体而言,高精地图的核心作用体现在哪些地方呢?第一,高精地图可以实现定位的辅助。通过存储道路上的特征信息,比如与摄像头实时检测到的信息进行匹配,我们可以利用损失函数对于位置进行优化。此外,高精地图还可以提供感知的辅助,比如在光线较暗的时候,对于减速带等路标不能清晰的分辨,但是基于地图的已有信息,匹配识别成功率就会大大增高,还比如在城市场景,利用地图的已有信息可以帮助感知流程分辨出红绿灯和车灯的不同。最后,在决策方面,高精地图也能提供辅助的作用。这体现在,某些场景,感知是面临一定的信息缺失的,而利用地图,我们可以提前进行规划控制。
我们可以首先对比一下SD MAP(导航地图)和HD MAP(高精地图)的区别,SD MAP存储的主要是道路级别的元素,分辨率要求通常在5m-10m左右,地图的内容包括道路的形状,兴趣点(Points of interest )。而高精地图存储的主体则是车道,数据精度通常是分米级别,储存的地图信息也更丰富,包括车道线的几何信息,道路设施,比如道路是否在施工等信息。
具体而言,高精地图存储的信息包括几何信息和逻辑信息,几何信息包括物体间的空间位置,然后还有逻辑信息,其中包括语义信息和拓扑关系。而高精地图的数据模型主要包括三类信息,第一是空间信息,包括车道模型和道路设施;第二个是语义信息,包括环境和物体;第三类是时间信息,包括早晚时间要求不一样的潮汐街道,红绿灯和电子标识盘等;此外,高精地图中的道路也会有一些数学相关的属性,比如曲率,航向角,横纵坡度的数字化表达等。
而关于高精地图中的定位图层,定位层的作用是在地图中提供车辆一些绝对或者相对位置定位的信息。
高精地图的生产可以分为集中制图或者众包制图。集中制图会使用专用采集车进行数据采集,因为采集设备非常昂贵,采集数据,生产地图的时间周期较长,但得到的地图也非常精准。目前google,Here等图商就采用这种方式。第二种方式是众包采集,Tesla,MobileEye等公司目前就采用这种方式,这种方式地图的生产速度快,周期短,但是因为采集数据的车辆都是量产级别,性能一般,所以数据精度也较低,这样对于算法的要求就较高。
图二:高精地图实例
在集中制图进行数据采集时,采集车一般装备的传感器包括Lidar,摄像头,GNSS和IMU。Lidar所采集的点云通常可以提供精准的几何信息,摄像头可以提供丰富的像素信息,适合提取语义信息,GNSS可以提供比较精准的位置信息,在比较开阔的场景可以提供厘米级别精度的信息,而它的缺点在于在城市峡谷等路段,性能不够稳定,所以还会使用IMU设备,IMU设备的优点在于积分估计出的位置较准确,但是一定时间后会出现明显的累计误差。数据的处理通常包括数据的清理,去除不必要的物体,接着需要进行数据的拼接和对齐,然后再进行语义信息的提取和建模,之后,通过在线编辑,我们就可以标记地图的逻辑信息,接下来通过质量验证,我们就可以发布地图产品。而众包式的地图采集以mobileEye为例,首先需要进行数据采集以及对齐,并通过建模输出地图的几何和逻辑信息。
接下来我们来介绍一下高精地图在自动化制作过程中的一些常用技术。首先是基于视觉的SLAM技术,按照优化方式,可以分为基于EKF和基于非线性优化的SLAM,根据跟踪的特征的类型可以分为直接法和特征点法。而目前,深度学习被更广泛的应用于SLAM的各个模块,比如用于特征提取和匹配,单帧图像的深度估计,以及进行重定位和提取语义信息等。
图三:视觉SLAM的相关框架
此外,还有基于Lidar的SLAM,其中单Lidar的经典方案包括LOAM,还有添加了IMU以及相机等传感器的方案。
第三个是关于信息融合的技术。融合可以分为很多层次,比如基于原始数据的数据级别的融合,提取特征后进行的特征级别的融合以及决策级别的融合。不管哪一级别的融合都涉及一些共同的问题,首先是数据对准,包括空间和时间两个维度;第二个是数据关联,不同传感器获取的数据如果没有关联,将对后面的处理造成很大的困难;第三个是关于融合的方法,比如采用EKF做实时定位时要考虑到不同传感器的时延;第四个是传感器的不确定度,这需要我们在融合时对于各种传感器合理地估计权重。建图数据融合的常见方法包括基于非线性优化的方法,比如位姿图优化,BA,还有基于深度学习的匹配和几何生成,信息补全等。
接下来介绍一些高精地图的主要产商,Here的目标是为公司和个人提供地图的相关服务,主要财团来自德国,在海外的发展不错;另一家公司来自以色列,叫MobileEye,它在视觉领域有很大的话语权,技术积累也非常雄厚,目前有2500万车装载了MobileEye的系统;TomTom这家公司提供了基于点云匹配的定位功能;DeepMap这家公司利用激光+视觉的方案提供了厘米级别的高精地图,并利用激光实现了实时定位。Continental这家公司利用视觉生成路面的几何信息,然后压缩到云端生成地图。
*感谢深蓝学员何常鑫同学的整理,非常感谢刘德浩博士对本文的审核。
欢迎关注公众号:深蓝学院,里面有超多的干货文章,涉及自动驾驶、CV、智能语音多个方向。欢迎添加我们的自动驾驶行业交流群,记得备注【行业】哦!(shenlanflying)