当前,汽车产业正向智能化、网联化、电动化、共享化的“新四化”趋势不断深入发展。安全作为智能网联汽车持续健康发展的前提,智能网联汽车安全体系的内涵和外延也在不断发生变化,功能安全、预期功能安全和信息安全构成了自动驾驶体系的安全要素。
在过去二十年里,汽车创新主要集中于硬件方面,比如内燃机效率、感应雷达升级等等。随着汽车的电动、联网和自动化飞速发展,自动驾驶也有了清晰的规划。然而,目前全球的自动驾驶尚未完全落地,其中安全性未达到“完美”是最关键的因素。
对于自动驾驶而言,提升安全性的核心就是感知和决策。感知是使用多种融合的传感器来感知路面、车辆和行人,如果车辆对环境没有三维定量感知,那么就像人失去双眼;决策是使用感知到的信息来判断如何行动。为此,感知和决策缺一不可。
目前,解决感知问题最主要的方式是“数据训练”,自动驾驶制造厂商通过监督学习的方式将大量不同情况的训练数据提供给算法,让生成的模型具备普适的感知能力,从而帮助自动驾驶车辆更好地感知实际道路、车辆位置和障碍物信息、疲劳检测等等。
那么,如何更好地提升感知能力,达到准确决策的需求呢?今日,我们将以某家主要以人工智能为核心的商用车安全及信息化解决方案提供商(以下简称:提供商)为案例,通过深度解析该提供商基于人工智能技术技术的两个功能,分析如何利用数据和技术提升自动驾驶安全性。
现今,该提供商主要基于人工智能技术实现了两大功能:FCW 前车碰撞报警系统和 LDW 车道偏离报警系统。
FCW 前车碰撞报警系统,主要通过目标检测和回归算法,精准定位行驶区域中的车辆位置信息,搭配测距和建模体系以及车道线感知信息,可以实时监控驾驶中的碰撞风险,实现在危险发生前 2.7s,及时发出报警信号,有效避免车辆追尾等交通事故的发生,纠正司机跟车较近和超速驾驶等危险行为。
具体实现方式是通过扫街的方式从真实的交通场景中采集数据做模拟仿真测试,因此该系统对于静态道路、交通标识牌、各种交通参与者(行人、自行车、摩托车、施工牌等等)、车辆交通流情况、红绿灯设置、天气状况、路面光照等各种复杂的情况和路况数据量要求极高。
LDW 车道偏离报警系统,通过通过语义分割算法,识别当前行驶区域的车道标识线,再利用计算机视觉技术处理,当车速大于 50km/h,驾驶员无意识偏离车道时(司机未打转向灯),系统发出报警,提示驾驶员注意安全驾驶。采集回来的道路数据,通过高性能存储有效帮助自动驾驶企业提升算法、效率、质量的方案,进一步升级车辆报警系统。
从技术角度来看,两个系统主要采用了人工智能对数据的处理和计算,而深度学习想要完成复杂的学习过程还需要完成两个过程:
大量的数据训练:深度学习极度依赖数据挖掘技术,消耗产生大量、有效的训练数据;
优化算法:深度学习需要通过复杂的神经网络找到最好的模型,用于分析新的数据。
而完成深度学习的过程中,整个全场景业务,包括回放、标注、训练、测试等,对于底层存储的要求很高:
目前,基于 GPU 的高性能计算业务蓬勃发展,高性能成为不少企业追求的目标,这主要是由于高性能直接决定了业务效率。
假使一个业务的需要从 1 周缩短到 1 天完成,这主要需要依靠整体 IT 支撑架构的高性能,以及存储内数据流转效率。其中,如果 GPU 计算和高性能存储的连接,主要依靠高性能网络的支持,那么只有兼容全栈网络,或者为数不多的高性能网络,才能在 IT 建设中有更多选择。
基于 GPU 的高性能业务在数据访问和处理以混合形态为特点的数据如下:
以读为主,小文件顺序读,或大文件随机读;
每个训练集由数千万小文件组成,数据量在几百 GB 到 TB 级别;
每次训练由多个 epoch 组成,每个 epoch 会将文件加载顺序打乱,但读取的数据没有变化。
存储支持计算服务器的并发数不是一个定值,而是根据不同的存储系统决定。行业常规存储并发是几十台的规模,在小任务情况下,可能看不出效率高低,但是在大业务压力,或者紧急任务情况下,原先的并发量就难以支撑当前情况,快速完成任务要求。
存储可靠性解决了数据“不丢”的问题,在“不丢”的基础上想要更上一层楼,那就要做到业务不中断。
在一定的时间内,业务不关心底层 IT 架构是否故障,业务不能中断,这直接表现在业务上就是任务在计划限期内完成,不延期。
基于该提供商对底层存储需求,焱融科技从 2021 年下半年开始,就技术应用方案和落地措施进行了多次的交流和实际场景测试。客户全面调研焱融产品后,表示满足客户需求。
针对训练模型的 IO 特点,焱融科技开发出多级智能客户端缓存,极大地提高了整个 IO 训练过程的性能。多级客户端缓存特点如下:
主要通过“内存 + GPU 服务器 SSD”的方式进行缓存;
在 GPU 服务器上,可配置一定容量的 SSD 缓存;
不同环节的加载位置不同。比如训练程序从客户端内存缓存中加载,未命中部分从客户端服务器 SSD 加载,不命中部分从文件系统集群中加载;
对训练框架、应用程序完全透明;
在整个训练中,数据集加载速度提升幅度超过 500%;
随着大数据平台和 AI 的业务系统出现,对后端存储高并发、海量非结构化文件处理能力的要求越来越高。在连接计算和存储的网络上,YRCloudFile 支持全栈网络,不固定于某一型号网络设备和协议,支持以太网和 InfiniBand,从千兆环境到 200Gb,支持全部主流网络硬件型号,可全面覆盖现有行业所有网络要求。数据传输的网络带宽也是由 1Gb、10Gb,逐步升级为 400Gb。YRCloudFile 的性能也是通过 RDMA 协议在 InfiniBand 网络中得到了更好的发挥。
在海量的文件场景下,YRCloudFile 能很好地支撑业务运行,依托于分布式元数据横向扩展架构、虚拟目录、静态子树和目录 Hash 等技术,在 0-100 亿级别的海量文件背景下,文件操作性能以及文件的读写性能非常平稳,这决定了在海量的场景下,YRCloudFile 依然能够支撑上层应用,远远优于其他开源产品和商业存储产品。
YRCloudFile 采用了分布式架构,存储挂载至计算集群,实现统一路径挂载,存储节点均摊压力和数据落点,在存储节点故障后,不影响数据逻辑路径,业务无感知底层存储变化,依旧正常工作,满足存储节点故障业务不中断要求,最大化保障业务排期正常运行。
通过推进自动驾驶存储架构升级,该提供商获得全面兼容的网络,支持双网络业务,实现 InfiniBand 网络对接训练业务,万兆网络对接标注业务,以及支持高并发业务,让千人在线业务标注无忧愁。该提供商存储系统升级的成功,为类似自动驾驶厂商在面临相同存储问题时,给出了解决问题的参考方式。焱融科技也通过不懈努力,加快了自动驾驶行业的基础设施建设步伐,在保证训练效率提升 100% 的基础上,让自动驾驶车辆安全性从训练过程中逐渐提高。