端到端自动驾驶VLM模型:LMDrive: Closed-Loop End-to-End Driving with Large Language Models

论文地址:https://arxiv.org/pdf/2312.07488

代码地址:https://github.com/opendilab/LMDrive

1. 摘要

一方面,目前自动驾驶领域取得了显著进展,但在遇到长尾场景或复杂城市路况时,当前的自动驾驶方法仍容易失效甚至导致严重事故。另一方面,大语言模型(LLMs)展现出了接近“通用人工智能”的推理能力。因此,利用大语言模型所具备的“人类知识”帮助自动驾驶应对长尾问题,提升端到端模型的可解释性,并与导航和驾驶员进行互动成为端到端自动驾驶研究的热点。论文提出 LMDrive —— 一个新颖的、语言引导的、端到端、闭环自动驾驶框架。LMDrive 能够融合处理多模态传感器数据和自然语言指令,从而实现与人类乘客或导航系统的交互,在真实指令场景下进行驾驶。主要创新点:

  • 使用冻结的预训练 LLM 保持强推理能力;
  • 为其引入多视角的相机和 LiDAR 编码器,以及可学习的输入/输出适配器;

你可能感兴趣的:(端到端自动驾驶,自动驾驶,语言模型,人工智能,VLM,端到端)