S4-Driver: Scalable Self-Supervised Driving Multimodal Large Language Model with Spatio-Temporal
文章主要内容总结本文提出了一种基于多模态大语言模型(MLLM)的可扩展自监督自动驾驶运动规划框架S4-Driver,旨在解决端到端自动驾驶中依赖人工标注和3D空间推理能力不足的问题。核心方法包括:稀疏体表示(SparseVolumeRepresentation):将多视图、多帧图像的视觉信息聚合到3D空间,通过轻量级投影和门控机制动态选择关键区域,增强模型的3D时空推理能力,且无需微调预训练的视觉