21、LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding

简介

官网
21、LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding_第1张图片
 将原始LiDAR数据作为输入,利用LLMs卓越的推理能力,来获得对室外3D场景的全面了解,将3D户外场景认知重构为语言建模问题,如3D captioning, 3D grounding, 3D question answering。

实现流程

21、LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding_第2张图片
 给定LiDAR输入 L ∈ R n × 3 L \in \R^{n \times 3} LRn×3,n 是点的数量,使用 VoxelNet 获取 LiDAR Feature,考虑到计算成本,沿着 z轴展平特征以生成鸟瞰图(BEV) Feature F v ∈ R c × h × w F_v \in \R^{c \times h \times w} FvRc×h×w,对于最大 m 个字符的文本输入 T,使用 LLaMA 进行文本特征提取 F t ∈ R m × d F_t \in \R^{m \times d} FtRm×d,d 是特征的维数。只微调 LLaMA 和 VAT 模块中注入的 Adapter,同时冻结主要参数。

VAT

21、LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding_第3张图片
 设计 K=576 个可学习的 query Embeddings,VAT生成一个包含 K 个编码视觉向量的输出,向量通过多层感知器(MLP)进行处理,然后输入到冻结的LLM中。

 由于户外LiDAR数据,如nuScenes,需要全面了解不同对象与汽车之间的方向关系,为BEV特征引入视图位置嵌入,以提高模型学习方向和几何关系的能力,构建初始参数为 0 的视图位置嵌入 V p ∈ R c × 6 V_p\in \R^{c×6} VpRc×6,根据6个视图划分BEV特征,包括前视图、前右视图、前左视图、后视图、后右视图和后左视图,在训练过程中,当处理与特定视图相关的问题时,将相应的位置嵌入注入到BEV特征和 queries 中。

在训练与左前视图相关的标题样本时,只将嵌入 V p ∈ R c × 1 V_p \in \R^{c×1} VpRc×1 的左前位置注入到BEV特征和queries的左前视图部分。如果训练样本涉及到关于整个全景场景的问题,在训练期间注入所有六个视图位置嵌入。

Training

通过三阶段训练策略,LiDAR-LLM开发了初步的规划能力。可以刺激模型对3D LiDAR数据的推理能力。
21、LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding_第4张图片

Cross-Modal Alignment (3D Captioning)

 通过将整个3D场景集成到LLMs中,使模型能够捕捉LiDAR数据中的基本信息和细节。利用nuScenes中与LiDAR数据对齐的现有多视图图像来创建文本描述,利用强大的现成2D多模态LLMs (MLLMs),为每个视图生成标题,创建与LiDAR场景相对应的文本描述。然而,由于2D MLLM可能为2D图像提供与天气或颜色相关的描述,而这些描述并不适用于LiDAR数据,因此LiDAR数据的描述与2D多视图的描述并不是完全对齐的。为了解决这种不一致性,进一步使用GPT-4来过滤出更相关、更适合LiDAR数据的标题。

 LiDAR数据的文本说明往往由于其复杂的几何结构而过于详细和冗长。联合学习整体标题可能会导致LLM推理中的纠缠。训练模型来描述单个视图,以降低复杂性,输出标题由相应视图的基本事实答案使用交叉熵损失进行监督,然后指导模型理解整个全景场景并生成全局描述,将3D特征表示与LLM的文本特征空间对齐,使模型能够理解LiDAR数据中的上下文。

Perception

 赋予模型实例级的感知能力,因为它们是规划等高级教学任务的基础。采用以对象为中心的学习策略,确保模型认识到各种对象细节,如数量、定位和空间关系。学习单个3D对象的表示和与对象相关的LLM相应的文本嵌入之间的对齐。

 对象首先表示为离散标记序列,其中提取每个对象的标签和边界框。给定一个带有注释的3D对象,使用预训练的LLM的标记器将类别名称位置编码为词嵌入,在整个3D场景中实现对象感知。模型学习生成位置标记,根据LiDAR输入和指令指定区域位置(x1, y1, z1, x2, y2, z2, θ),其中θ是盒子角。通过利用输入的LiDAR数据和带有位置信息的文本,训练模型生成描述性文本。两个任务的输出都通过交叉熵损失进行监督,解锁LLM的3D感知能力。

High-level Instruction

 利用高级指令数据集(如nuScenes-QA)进一步增强模型在3D空间中的推理能力。通过使用该数据集对LiDAR-LLM进行微调,不仅提高了其理解各种指令数组的熟练程度,还使其能够生成既具有创造性又符合上下文的响应。此外,这种细化过程使LiDAR-LLM具备了进行复杂空间推理的能力,并将外部知识整合到其生成的响应中。这些任务还通过交叉熵损失进行监督,确保模型的输出与所需的高级指令有效对齐。探索了LiDAR-LLM在nuScenes数据集上的自动驾驶规划能力。直接利用训练好的模型来推断与规划相关的问题,而不是生成任何规划QA数据。

details

 采用了标准的预训练3D检测器提取激光雷达特征,CenterPoint-Voxel遵循其默认设置。点云范围为[-54.0m, 54.0m, -5.0m, 54.0m, 54.0m, 3.0m], BEV网格尺寸为[0.6m, 0.6m]。对于VAT,将可学习queries的令牌数量设置为576,令牌的维度为768。在LLM方面,采用了LLaMA-7B,兼顾效率和功效。在整个三个阶段的训练阶段,使用Adam优化器(β1, β2) =(0.9, 0.999),初始学习率为1e-4,每两个epochs将其减半。对LLaMA2中的VAT和adapter进行了6个epoch的微调。所有实验均在NVIDIA Tesla A100 gpu上进行。

你可能感兴趣的:(#,NLP,语言模型,3d,人工智能)