基于Transformer的自动驾驶传感器融合研究综述

基于Transformer的自动驾驶传感器融合研究综述

论文地址和代码:

https://arxiv.org/pdf/2302.11481.pdf
https://github.com/ApoorvRoboticist/Transformers-SensorFusion

摘要:

传感器融合是感知系统中的一个重要课题,如自动驾驶和机器人。根据数据集上的排行榜,基于transformer的检测头和基于CNN的特征编码器(从原始传感器数据中提取特征),已成为性能最高的3D检测多传感器融合框架之一。本文提供了基于transformer的3D目标检测任务的文献综述,主要集中传感器融合,介绍了视觉transformer(ViT)的基础知识,还论述了用于自动驾驶的传感器融合的几种非transformer式较少占主导地位的方法。最后总结了transformer在传感器融合领域中的作用,提出了该领域的未来研究方向。
传感器融合是将来自不同信息源的传感数据进行集成的过程。利用不同传感器捕获的互补信息,融合有助于降低状态估计的不确定性,使3D目标检测任务更具鲁棒性。对象属性在不同模态下的可识别性不同,因此需要充分利用不同模态的信息,从中提取互补信息。例如,激光雷达可以更好地定位潜在的物体; 雷达可以更好地估计场景中目标的速度; 最后但并非最不重要的是,相机可以通过其密集的像素信息对物体进行分类。

为什么传感器融合困难?

不同模态的传感器数据通常在数据分布上存在较大差异;除了每个传感器在坐标空间上的差异。激光雷达在笛卡尔坐标空间;雷达在极坐标空间,图像在透视空间。不同坐标系引起的空间错位使得这些模态难以融合在一起。多模态输入的另一个问题是,当相机和LiDAR馈电可用于ML网络时,将存在异步时间线。

基于Transformer的自动驾驶传感器融合研究综述_第1张图片

虽然deep - cnn可用于在单一模态中捕获全局上下文,但将其扩展到多种模态并准确模拟特征对之间的交互并非易事。为了克服这一限制,使用transformer的注意机制将二维场景的全局上下文推理直接集成到模态的特征提取层中。序列建模和视听融合的最新进展表明,基于Transformer的体系结构在序列或跨模态数据的信息交互建模方面非常有效。

领域背景

近年来,多传感器融合技术在3d检测领域引起了越来越多的关注。现有的方法可以分为检测级、提议级和点级融合方法,这取决于我们在过程的早期或晚期融合不同的模式,即摄像头、雷达,激光雷达等。
检测级也就是后期融合已经成为最简单的融合形式,因为每种模式都可以单独处理自己的BEV检测,这些BEV检测可以稍后处理,使用匈牙利成本匹配算法和卡尔曼滤波来聚合和删除重复检测。然而,这种方法不能利用这样一个事实,即每个传感器也可以在单个边界框预测中贡献不同的属性。CLOCS可以融合基于lidar的3D目标检测和2D检测任务的结果,它在非最大值抑制之前对两个输出候选进行操作,并使用两组预测之间的几何一致性来消除假阳性(FP),因为在不同的模式下很可能同时检测到相同的FP。
点级(也称为早期融合)正在用相机特征增强LiDAR点云[3,4]。在这种方法中,我们利用变换矩阵找到激光雷达点和图像之间的硬关联。然而,由于融合质量受到点稀疏性的限制,相机到激光雷达的投影在语义上是有损耗的。当两个传感器的校准参数存在微小误差时,这种方法就会受到影响。
提案级,又称深度融合,是目前文献中研究最多的方法。transformer的研究进展[5,6,7]已经解锁了中间特征如何在来自不同传感器的跨域情况下相互作用的可能性。代表性作品如MV3D[8]从LiDAR特征中提出初始边界框,并使用相机特征迭代优化。BEVFusion[9]生成基于摄像头的BEV特征,如[10,11,12,13]中突出显示的那样。Camera和激光雷达模态在BEV空间中连接,BEV解码器用于预测3D box作为最终输出。在TransFuser中,单视图图像和LiDAR的BEV表示由编码器中的transformer在各种中间特征图上融合。这导致编码器的512维特征向量输出,其构成局部和全局上下文的紧凑表示。此外,本文将输出反馈给GRU(门控递归单元),并使用L1回归损失预测可微自车路线点。4D网络[16]除了是多模态的,还将时间维度作为第四维度添加到问题中。首先单独提取相机和激光雷达的时间特征[17],添加图像表示的不同上下文,论文收集了三个层次的图像特征,即高分辨率图像、低分辨率图像和视频。然后,使用变换矩阵融合交叉模态信息,以获取给定3D pillar中心的2D上下文,该中心由BEV网格单元的中心点(xo,yo,zo)定义!

基于transformer的融合网络背景

该方法可分为三个步骤:
1.应用基于神经网络的主干从所有模态中单独提取空间特征;
2.在transformer模块中迭代细化一小组学习嵌入(目标Query/proposal),以生成一组3D box的预测;
3.计算loss,基于设定的损失是根据预测和实际情况计算的;

(1)Backbone

Camera:多camera图像被馈送到backbone(例如,ResNet-101)和FPN,并获得特征;
LiDAR:通常使用0.1m体素大小的voxelnet或0.2m pillar大小的PointPill对点进行编码,在3D主干和FPN之后,获得了多尺度BEV特征图;
Radar:通过MLP将位置、强度、速度转换为特征!

(2) Query Initialization

在开创性工作[5]中,稀疏Query 被学习为一个网络参数,并且是整个训练数据的代表。这种类型的Query 需要更长的时间,即更多的顺序解码器层(通常为6个)来迭代收敛到场景中的实际3d目标。然而,最近依赖于输入的Query [20]被认为是一种更好的初始化策略。这种策略可以将6层转换器解码器降到甚至单层解码器层, Transfusion使用中心热图作为Query,BEVFormer引入了密集Query作为等距BEV网格!

(3)Transformers Decoder

为了细化目标proposal,在ViT模型中顺序使用Transformer解码器的重复模块,其中每个块由自注意层和交叉注意层组成。目标Query 之间的自关注在不同的目标候选之间进行成对推理。基于学习注意力机制,目标Query和特征图之间的交叉注意力将相关上下文聚合到目标Query中。由于巨大的特征尺寸,交叉注意力是链条中最慢的一步,但已经提出了减少注意力窗口的技术[24]。

(4)损失计算

采用匈牙利算法进行基于集的预测与真实的匹配,匹配代价定义为:

在这里插入图片描述

基于transformer的传感器融合

TransFusion :[21]通过特征的软关联解决了模态错位问题。第一个解码器层由LiDAR BEV特征生成稀疏查询。第二解码器层通过利用局部性归纳偏差和仅在从查询中解码的边界框周围的交叉注意来丰富带有软关联的图像特征的LiDAR查询。它们还具有图像引导的查询初始化层。
FUTR3D:与[6]密切相关,它对任何数量的传感器模态都是鲁棒的。MAFS(模态不可知特征采样器)接受3D Query,并从多视图相机、高分辨率激光雷达、低分辨率激光雷达和雷达收集特征。首先对Query进行解码以获得3D coordinate,然后将其用作锚点,以迭代方式从所有模态中收集特征。BEV特征用于激光雷达和相机,但对于雷达,在MAFS中选择了前k个最近的雷达点。对于每个Query i,所有这些特征F都连接如下,其中Φ是MLP层:

在这里插入图片描述

CMT:跨模态transformer[22]通过坐标编码将3D坐标编码为多模态标记。来自位置引导查询生成器的查询用于与transformer解码器中的多模态token交互,然后预测对象参数。进一步引入基于点的查询去噪,通过引入局部先验来加速训练收敛.
UVTR:使用Transformer[23]统一基于体素的表示,在体素空间中统一多模态表示,用于精确和鲁棒的单模态或跨模态3D检测。首先设计了模态特定空间,在体素空间中表示不同的输入,不进行高度压缩,以缓解语义歧义,实现空间连接。与其他BEV方法相比,这是一种更复杂、包含更多信息的表示。对于图像-体素空间,使用viewtransform将透视视图特征转换为预定义的空间,遵循[10]。提出了一种基于cnn的体素编码器用于多视图特征交互。对于点-体素空间,3d点可以自然地转换为体素。在这些体素特征上使用稀疏卷积来聚合空间信息。在点云中定位准确后,z方向的语义模糊度与图像相比大大降低。
LIFT: LiDAR Image Fustin Transformer[26]能够对齐4D时空跨传感器信息。与[16]相比,它利用了连续多模态数据的集成利用。对于时序数据的处理,他们利用车辆姿态的先验来消除时序数据之间自我运动的影响。他们将激光雷达帧和摄像机图像编码为稀疏定位的BEV网格特征,并提出了一个传感器时间4D注意力模块来捕获相互相关性。
DeepInteraction:[27],遵循与其他同行相比略有不同的方法。它声称,先前的方法在结构上受到限制,这是由于其内在的局限性,即[3,9]由于信息融合到统一表征中存在很大的不完善性,可能会降低很大一部分特定于模态的表征强度。它们不是派生一个融合的单一bev表示,而是始终学习和维护两个特定于模态的表示,以支持跨模态交互,以便能够自发地实现信息交换和特定于模态的优势。作者将其称为多输入多输出(MIMO)结构,将其作为输入,并产生两个细化的表示作为输出。本文包括从LiDAR和视觉特征中顺序更新的类似DETR3D的Query,在基于transformer的解码器层中具有顺序交叉关注层。
Autoalign:论文使用可学习的对齐图来建模图像和点云之间的映射关系,而不是像其它方法那样为传感器投影矩阵建立确定性对应关系。该映射使模型能够以动态数据驱动的方式自动对齐非均匀特征,它们利用交叉关注模块自适应地聚合每个体素的像素级图像特征。

定量分析

在这里,本文比较了之前讨论的nuScenes方法,这是一个大型多模态数据集,由表1中的6台摄像机、1台激光雷达和5台雷达的数据组成。该数据集共有1000个场景,训练/验证/测试集分为700/150/150个场景。
摄像机:每个场景有20帧视频,12帧/秒。0.5s标注3D包围框。每个样品包含6个摄像头。
激光雷达:一个32束激光雷达,每秒20帧,每0.5秒注释一次。
参数:我们遵循nuScenes的官方参数。关键是:nuScenes检测分数(NDS)、平均平均精度(mAP)、平均平均平移误差(mATE)、平均平均尺度误差(mASE)、平均平均方向误差(mAOE)、平均平均速度误差(mAVE)和平均平均属性误差(mAAE)。

基于Transformer的自动驾驶传感器融合研究综述_第2张图片

结论

对于自动驾驶汽车的感知可靠性,准确的3d物体检测是我们需要解决的关键挑战之一。通过利用平台上所有传感器的优点,传感器融合有助于使这些预测更加准确。transformer已经成为建模这些跨模态相互作用的顶级方法之一,特别是当传感器在不同的坐标空间中工作时,这使得不可能完美对齐.

你可能感兴趣的:(自动驾驶,论文解读,transformer,自动驾驶,计算机视觉)