本文深入分析了大模型技术在自动驾驶领域的应用和影响,万字长文,慢慢观看~
目录
一、本文概述
1.1 大模型技术发展历程
1.2 自动驾驶模型迭代路径
1.3 大模型对自动驾驶行业的赋能与影响
二、大模型技术发展历程
2.1 大模型基本定义与基础功能
2.2 大模型的基础——Transformer注意力机制
2.3 大模型的预训练-微调范式
2.4 探索大模型:任务适配性、模型变革与应用前景
三、自动驾驶技术迭代路径
3.1 自动驾驶算法核心模块概览
3.2 CNN
3.3 RNN、GAN
3.4 BEV
3.5 Transformer+BEV
3.6 占用网络模型
四、大模型对自动驾驶行业的赋能
4.1 自动驾驶的大模型
4.2 车端赋能主要作用于感知和预测环节,逐渐向决策层渗透
大模型泛指具有数十亿甚至上百亿参数的深度学习模型,而大语言模型是大模型的一个典型分支(以ChatGPT为代表)
Transformer架构的提出引入了注意力机制,突破了RNN和CNN处理长序列的固有局限,使语言模型能在大规模语料上得
到丰富的语言知识预训练:
复杂性、高维度、多样性和个性化要求使得大型模型在自动驾驶、量化交易、医疗诊断和图像分析、自然语言处理和智能对
话任务上更易获得出色的建模能力。
自动驾驶算法模块可分为感知、决策和规划控制三个环节。其中感知模块为关键的组成部分,经历了多样化的模型迭代:
CNN(2011-2016)—— RNN+GAN(2016-2018)—— BEV(2018-2020)—— Transformer+BEV(2020至
今)—— 占用网络(2022至今)
可以看一下特斯拉智能驾驶迭代历程:
自动驾驶领域的大模型发展相对大语言模型滞后,大约始于2019年,吸取了GPT等模型成功经验。
大模型的应用加速模型端的成熟,为L3/L4级别的自动驾驶技术落地提供了更加明确的预期。
可从成本、技术、监管与安全四个层面对于L3及以上级别自动驾驶落地的展望,其中:
各主机厂自2021年开始加速对L2+自动驾驶的布局,且预计在2024年左右实现L2++(接近L3)或者更高级别的自动驾驶功能的落地,其中政策有望成为主要催化。
大模型基本定义:由大语言模型到泛在的大模型大模型主要指具有数十亿甚至上百亿参数的深度学习模型,比较有代表性的是大型语言模型( Large Language Models,比如最近大热的ChatGPT)。
大型语言模型是一种深度学习算法,可以使用非常大的数据集来识别、总结、翻译、预测和生成内容。
大语言模型在很大程度上代表了一类称为Transformer网络的深度学习架构。Transformer模型是一个神经网络,通过跟
踪序列数据中的关系(像这句话中的词语)来学习上下文和含义。
Transformer架构的提出,开启了大语言模型快速发展的新时代:
下图是大模型的发展历程:
注意力机制:Transformer的核心创新
创新点1:Transformer模型最大的创新在于提出了注意力机制,这一机制极大地改进了模型学习远距离依赖关系的能力,突破了传统RNN和CNN在处理长序列数据时的局限。
创新点2: 在Transformer出现之前,自然语言处理一般使用RNN或CNN来建模语义信息。但RNN和CNN均面临学习远距离依赖关系的困难:
创新点3:Transformer注意力机制突破了RNN和CNN处理长序列的固有局限,使语言模型能在大规模语料上得到丰富的语言知识预训练。该模块化、可扩展的模型结构也便于通过增加模块数量来扩大模型规模和表达能力,为实现超大参数量提供了可行路径。
Transformer解决了传统模型的长序列处理难题,并给出了可无限扩展的结构,奠定了大模型技术实现的双重基础。
下面是Transformer结构图:
大模型代表了一种新的预训练-微调范式,其核心是先用大规模数据集预训练一个极大的参数模型,然后微调应用到具体任务。
这与传统的单任务训练形成了对比,标志着方法论的重大变革。
参数量的倍数增长是大模型最根本的特点,从早期模型的百万量级,发展到现在的十亿甚至百亿量级,实现了与以往数量级的突破。
Transformer架构的提出开启了NLP模型设计的新纪元,它引入了自注意力机制和并行计算思想,极大地提高了模型处理长距离依赖关系的能力,为后续大模型的发展奠定了基础。
正是由于Transformer架构的成功,研究者们意识到模型的架构设计在处理复杂任务和大规模数据中发挥着举足轻重的作用。这一认识激发了研究者进一步扩大模型参数量的兴趣。虽然之前也曾有过扩大参数量的尝试,但因受限于当时模型本身的记忆力等能力,提高参数数量后模型的改进并不明显。
GPT-3的成功充分验证了适度增大参数量能显著提升模型的泛化能力和适应性,由此掀起了大模型研究的热潮。
它凭借过千亿参数量和强大的语言生成能力,成为参数化模型的典范。GPT-3在许多NLP任务上表现亮眼,甚至在少样本或零样本学习中也能取得惊人的效果。
增大参数量的优点:
与早期的人工智能模型相比,大型模型在参数量上取得了质的飞跃,导致了在复杂任务的建模能力整体上的提升:
复杂性、高维度、多样性和个性化要求使得大型模型在某些任务上更易获得出色的建模能力:
自动驾驶算法模块可分为感知、决策和规划控制三个环节,其中感知模块为关键的组成部分
感知模块:感知模块负责解析并理解自动驾驶所处车辆周边的交通环境,是实现自动驾驶的基础和前提,感知模块的精准程度,直接影响并制约着自动驾驶系统的整体安全性和可靠性。
感知模块主要通过摄像头、激光雷达、毫米波雷达等各类传感器获取输入数据,然后通过深度学习等算法,准确解析出道路标线、其他车辆、行人、交通灯、路标等场景元素,以供后续流程使用。
决策和规划控制:与感知模块相比,决策和规划控制等模块的作用更为单一和被动。
这些模块主要依据感知模块输出的环境理解结果,通过算法决策生成驾驶策略,并实时规划车辆的运动轨迹和速度,最终转换为控制命令,以实现自动驾驶。
但是,大模型在车端赋能主要作用于感知和预测环节,逐渐向决策层渗透。
2011-2016:CNN引发自动驾驶领域的首次革新浪潮
随着深度学习和计算能力的提升,卷积神经网络(CNN)在图像识别任务上的出色表现引发了自动驾驶领域的首次革新浪潮。
这是一个两阶段的卷积神经网络架构,输入通过两个卷积和子采样阶段进行前馈处理,最终通过线性分类器进行分类。
CNN极大提升了自动驾驶车辆的环境感知能力
但CNN自动驾驶也存在一定局限性:
2016-2018:RNN和GAN被广泛应用到自动驾驶相关的研究,推动自动驾驶在对应时间区间内快速发展
RNN相较于CNN更适合处理时间序列数据:RNN的循环结构可以建模时间上的动态变化,这对处理自动驾驶中的轨迹预测、行为
分析等时序任务非常有用。例如在目标跟踪、多智能体互动建模等领域,RNN和LSTM(RNN的改进版本)带来了巨大突破,可以
预测车辆未来的运动轨迹,为决策和规划提供支持。
GAN的生成能力缓解自动驾驶系统训练数据不足的问题:GAN可以学习复杂分布,生成高质量的合成数据,为自动驾驶领域带来
了新思路,用于缓解自动驾驶系统训练数据不足的问题。例如GAN可以生成模拟的传感器数据、场景信息,测试自动驾驶算法的
鲁棒性,也可以用于交互式模拟场景生成。
RNN+GAN,可以实现端到端的行为预测和运动规划:RNN负责时序建模,GAN负责数据生成,两者相互协同,可以为自动驾驶系统提供更全面和可靠的环境感知、状态预测和决策支持。
这是融合了LSTM和GAN的模型架构示例。
RNN和GAN仍未解决的问题:
RNN和GAN在自动驾驶领域应用趋冷的原因:
2018-2020:基于鸟瞰视角(BEV)的模型在自动驾驶领域获得了广泛的研究和应用
BEV模型的核心思想是将车辆周围的三维环境数据(如来自激光雷达和摄像头的点云、图像等数据)投影到俯视平面上生成二维的鸟瞰图。这种将三维信息“压平”成二维表示的方式,为自动驾驶系统的环境感知和理解带来了重要优势:
这是BirdNet 3D 对象检测框架,网络的三个输出是:类别(绿色)、2d 边界框(蓝色)和偏航角(红色)。
但是,BEV模型也存在一些问题亟待解决:
2020年以来, Transformer+BEV结合正在成为自动驾驶领域的重要共识,推动自动驾驶技术进入崭新发展阶段
将Transformer模型与BEV(鸟瞰视角)表示相结合的方法,正在成为自动驾驶领域的重要共识,推动完全自主驾驶的实现
特斯拉率先引入BEV+Tranformer大模型,与传统2D+CNN小模型相比,大模型的优势主要在于:
下面是Transformer+BEV的示例框图:
(a) 对象对齐时间融合:首先根据车辆自身的移动情况,把 当前时刻(t时刻)的鸟瞰视角地图变形调整成上一时刻(t-1 时刻)的样子。这样就可以根据对象在上一时刻的位置, 结合速度预测出它当前的位置,从而实现对象在不同时刻 地图上的融合。
(b) 对象聚焦多视图采样:首先在三维空间预设一些点,然后把这些点投影到图像上的特征上。这样不仅可以在整个高度范围采样,还可以对某些主要对象按照自适应和聚焦的方式,在它们所处的局部空间区域采样更多点。
(c) 对象通知查询增强:在编码器处理图像特征后,添加热图的监督信息。同时用检测到对象高置信度位置对应的点 来替换掉原本预设要查询的一些点。
下面是Transformer+BEV的示例框图2:
GPT的出现对Transformer+BEV模型的产生起到了重要影响
当前Transformer+BEV模型受关注,主要基于它综合了Transformer和BEV各自的优势
2022年,自动驾驶系统中使用了占用网络模型,实现了对道路场景的高效建模
占用网络模型
特斯拉在2023年AI Day公开了occupancy network(占用网络)模型,基于学习进行三维重建,意图为更精准地还原自动驾 驶汽车行驶周围3D环境,可视作BEV视图的升华迭代:
华为ADS 2.0进一步升级GOD 网络,道路拓扑推理网络进一步增强,类似于特斯拉的占用网络。
对比BEV效果,下面BEV鸟瞰视图
下面是占用网络3D视图:
以GPT为代表的大模型通常包含亿级甚至百亿级参数,采用Transformer结构进行分布式训练,以提升模型能力。
GPT的成功激发了:自动驾驶研究者利用类似架构进行端到端学习,甚至涌现出专为自动驾驶设计的预训练模型。这些努力为自动驾驶行业带来新思路,大模型通过强大的数据分析和模式识别能力,增强了自动驾驶系统的安全性、效率和用户体验,实现了更准确的环境感知、 智能决策。
大模型的应用加速模型端的成熟,为L3/L4级别的自动驾驶技术落地提供了更加明确的预期
模型的成熟使得自动驾驶系统更加稳定和可靠,为商业化应用奠定了基础。随着深度学习和神经网络技术的迅速发展,模型在
感知、决策和控制等方面取得了显著进展,向着高效地处理大量传感器数据,准确识别交通标志、行人、车辆等、实现环境感 知的方向发展。此外,模型也能够辅助实时路径规划和决策制定,使车辆能够在复杂的交通环境中安全行驶。
大模型的应用为L3/L4级别的自动驾驶技术落地提供了更加明确的预期,尤其特斯拉在前沿技术领域的探索,正在成为实现
L3/L4级别自动驾驶落地的风向标。特斯拉提出的Transformer+BEV+占用网络算法让车辆能够更精准地理解复杂的交通环境, 为L3/L4级别的自动驾驶系统提供更强的环境感知能力,从而在城市道路和高速公路等特定场景中更自信地行驶。
安全性自动驾驶汽车实现商业化落地必不可少的重要因素
为保证自动驾驶系统的安全可靠,按照国家监管要求,自动驾驶车辆必须经过5000公里以上的封闭场地训练评估,且测试
驾驶员须通过不少于50小时培训,并通过车辆安全技术检验后方可申请上路测试资格。目前我国智能网联汽车道路测试总里 程已超7000万公里,我们预计L3级及以上自动驾驶汽车开放个人使用上路试点区域仍需一定的时间才能实现。
汽车通信安全和数据安全也需达到国标或相关条例要求。我们预计未来中国会参考欧美国家实践,进一步细化安全要求,加强相关法规制度建设,如制定自动驾驶汽车安全评估标准、明确自动驾驶系统开发生命周期各阶段的安全保障要求、建立自 动驾驶汽车事故责任认定机制等。
部分自动驾驶汽车安全标准:
大模型在自动驾驶中的应用简单来说,就是把整车采集到的数据回传到云端,通过云端部署的大模型,对数据进行相近的训练。
大模型主要作用于自动驾驶的感知和预测环节。
未来将驱动驾驶策略生成逐渐从规则驱动向数据驱动转变。规划决策层的驾驶策略的生成有两种方式:
1)基于数据驱动的深度学习算法;
2)基于规则驱动(出于安全考虑,目前普遍采取基于规则生成驾驶策略,但随着自动驾驶等级的提升及应用场景的不断拓展,基于规则 的规控算法存在较多Corner Case处理局限性)。
结合车辆动力学,可利用Transformer模型生成合适的驾驶策略:
将动态环境、路况信息、 车辆状态等数据整合到模型中,Transformer多头注意力机制有效平衡不同信息源之间的权重,以便快速在复杂环境中做出合理决策。
本文内容来以下资料:
分享完成,本文只供大家参考与学习,谢谢~