<论文阅读>DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection

文章目录

  • 摘要
  • 1.引言
  • 2.相关工作
  • 3.DeepFusion
    • 3.1深度特征融合方案
    • 3.2.对齐质量的影响
    • 3.3. 提高对齐质量
  • 4.实验
  • 5.总结

摘要

  激光雷达和摄像头是为自动驾驶中的 3D 检测提供补充信息的关键传感器。虽然流行的多模态方法 [34, 36] 只是简单地用相机特征装饰原始激光雷达点云并将它们直接输入到现有的 3D 检测模型中,但我们的研究表明,融合相机特征与深度激光雷达特征而不是原始激光雷达特征点,可以带来更好的性能。然而,由于这些特征经常被增强和聚合,融合的一个关键挑战是如何有效地对齐来自两种模态的转换特征。在本文中,我们提出了两种新技术:InverseAug 逆几何相关增强,例如旋转,以实现激光雷达点和图像像素之间的精确几何对齐,以及利用交叉注意力动态捕获相关性的 LearnableAlign融合过程中图像和激光雷达特征之间的关系。基于 InverseAug 和 LearnableAlign,我们开发了一个名为 DeepFusion 的通用多模态 3D 检测模型系列,比以前的方法更准确。例如,DeepFusion 分别在 6.7、8.9 和 6.2 LEVEL 2 APH 的行人检测中改进了 PointPillars、CenterPoint 和 3D-MAN 基线。值得注意的是,我们的模型在 Waymo 开放数据集上实现了最先进的性能,并显示出强大的模型对输入损坏和分布外数据的鲁棒性。

1.引言

  激光雷达和摄像头是用于自动驾驶的两种互补传感器。对于 3D 物体检测,激光雷达提供低分辨率的形状和深度信息,而相机提供高分辨率的形状和纹理信息。虽然人们期望这两种传感器的组合能够提供最好的 3D 物体检测器,但事实证明,大多数最先进的 3D 物体检测器仅使用激光雷达作为输入(Waymo Challenge 排行榜,2021 年 10 月 14 日访问 )。这表明如何有效融合来自这两个传感器的信号仍然具有挑战性。在本文中,我们努力为这个问题提供一个通用且有效的解决方案。文献中用于融合激光雷达和相机的现有方法大致遵循两种方法(图 1):它们要么在早期阶段融合特征,例如通过用相应的相机特征装饰激光雷达点云中的点 [34, 36],或者他们使用中级融合,在特征提取后组合特征[13, 17]。这两种方法的最大挑战之一是找出激光雷达和摄像头特征之间的对应关系。为了解决这个问题,我们提出了两种方法:InverseAug 和 LearnableAlign 来实现有效的中级融合。 InverseAug 反转与几何相关的数据增强(例如,RandomRotation [46]),然后使用原始相机和激光雷达参数来关联两种模态。 LearnableAlign利用交叉注意力来动态学习激光雷达特征与其相应相机特征之间的相关性。这两种提议的技术简单、通用且高效。给定流行的 3D 点云检测框架,例如 Point Pillars [16] 和 CenterPoint [44],InverseAug 和 LearnableAlign 可帮助相机图像有效地与激光雷达点云对齐,同时具有边际计算成本(即,仅一个交叉注意力层)。在融合对齐的多模态特征时,相机信号具有更高的分辨率,显着提高了模型的识别和定位能力。这些优点对于远程目标检测特别有益。
<论文阅读>DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection_第1张图片

图 1. 我们的方法在深度特征级别融合了两种模式,而之前最先进的方法(PointPainting [34] 和 PointAugmenting [36] 作为示例)在输入级别使用相机特征装饰激光雷达点。为了解决深度特征融合的模态对齐问题(参见第 1 节),我们提出了两种技术 InverseAug(参见图 2 和图 3)和LearnableAlign,一种基于交叉注意的特征级对齐技术。
  我们开发了一系列名为 DeepFusions 的多模态 3D 检测模型,它们具有以下优势:(1) 可以进行端到端训练,(2) 是与许多现有的基于体素的通用构建块兼容 3D检测方法。 DeepFusion 作为一个插件,可以轻松应用于大多数基于体素的 3D 检测方法,例如 PointPillars [16] 和 CenterPoint [44]。
  我们广泛的实验表明(1)有效的深度特征对齐是多模态 3D 对象检测的关键,(2)通过使用我们提出的 InverseAug 和 LearnableAlign 提高对齐质量,DeepFusion 显着提高了检测精度,并且(3) 与其单模态基线相比,DeepFusion 对输入损坏和分布外数据的鲁棒性更强。
  在 Waymo 开放数据集上,DeepFusion 将 PointPillars [16]、CenterPoints [44] 和 3D-MAN [43] 等几种流行的 3D 检测模型分别提高了 6.7、8.9 和 6.2 LEVEL 2 APH。我们在 Waymo Open Dataset 上取得了最先进的结果,DeepFusion 在验证集上比之前最好的多模态方法 PointAugmenting [36] 提高了 7.4 Pedestrian LEVEL 2 APH。 这一结果表明,我们的方法能够有效地结合激光雷达和相机模式,其中最大的改进来自远程物体的识别和定位。
  我们的贡献可以概括为三个方面:

  • 据我们所知,我们是第一个系统研究深度特征对齐对 3D 多模态检测器的影响的人;
  • 我们提出 InverseAug 和 LearnableAlign 来实现深度特征级别的对齐,从而实现准确且稳健的 3D 对象检测器;
  • 我们提出的模型 DeepFusions 在 Waymo 开放数据集上实现了最先进的性能。

2.相关工作

  点云上的 3D 对象检测。激光雷达点云通常表示为无序集,许多 3D 对象检测方法倾向于直接处理这种原始无序点。 PointNet [25] 和 PointNet++ [26] 是直接将神经网络应用于点云的早期开创性作品。紧随其后,[22,24,31,42] 也学习了类似 PointNet 的 [25] 层的特征。激光雷达点云也可以表示为密集范围图像,其中每个像素都包含额外的深度信息。[1, 18] 直接在范围图像上工作以预测 3D 边界框。
  另一组 3D 检测方法将激光雷达点转换为体素或柱子,导致两种更常用的 3D 检测方法:基于体素和基于柱子的方法。VoxelNet [46] 提出了一种基于体素的方法,将点云离散化每个子空间的 3D 网格称为体素。然后可以将密集的 3D 卷积网络应用于该网格以学习检测特征。 SEC OND [40] 建立在 VoxelNet 之上,并建议使用稀疏 3D 卷积来提高效率。由于 3D 体素的处理成本通常很高,PointPillars [16] 和 PIXOR [41] 进一步将 3D 体素简化为鸟瞰 2D 柱,其中具有相同 z 轴的所有体素都折叠为单个柱。然后可以使用现有的 2D 卷积检测网络处理这些 2D 柱子,以生成鸟瞰边界框。由于 2D 柱子通常易于快速处理,因此许多最近的 3D 检测方法 [34、38、43、44] 都是基于 PointPillars 构建的。在本文中,我们还选择 PointPillar 作为我们处理激光雷达点云的基线方法。
  激光雷达相机融合。单目检测方法不依赖激光雷达点云,而是直接从 2D 图像中预测 3D 框 [3,15,27]。这些方法的一个关键挑战是 2D 图像没有深度信息,因此大多数单目检测器需要隐式或显式地预测每个 2D 图像像素的深度,这通常是另一项非常困难的任务。最近,有一种趋势是结合激光雷达和相机数据来改进 3D 检测。一些方法 [24, 39] 首先检测 2D 图像中的对象,然后使用该信息进一步处理点云。以前的论文 [4, 14] 也使用两阶段框架来执行以对象为中心的模态融合。与这些方法相比,我们的方法更容易插入到大多数现有的基于体素的 3D 检测方法中。
  点装饰融合。PointPainting [34] 建议使用相机图像的语义分数来增强每个激光雷达点,这些图像是通过预先训练的语义分割网络提取的。PointAugmenting [36] 指出了语义分数的局限性,并提出利用从 2D 对象检测网络中提取的深度特征在相机图像之上增强激光雷达点。如图 1 (a) 所示,这些方法依赖于预训练模块(例如,2D 检测或分割模型)从相机图像中提取特征,这些特征用于对原始点云进行装饰,然后输入到激光雷达特征体素化器构建鸟瞰图伪图像。
  中级融合。Deep Continuous Fusion [17]、EP Net [13] 和 4D-Net [23] 试图通过在 2D 和 3D 骨干之间共享信息来融合这两种模式。然而,这些方法中一个重要的缺失是相机和激光雷达特征之间的有效对齐机制,这在我们的实验中被证实是构建有效的端到端多模态 3D 物体检测器的关键。即使知道有效对齐的重要性,我们也指出这样做具有挑战性,原因如下。首先,为了在现有基准(例如 Waymo Open Dataset)上获得最佳性能,在融合阶段之前,将各种数据增强策略应用于激光雷达点和相机图像。例如,沿z轴旋转3D世界的Ran domRotation [46]通常应用于激光雷达点,但不适用于相机图像,这使得后续的特征对齐变得困难。其次,由于多个激光雷达点聚合成同一个3D立方体,即体素,在场景中,一个体素对应多个摄像头特征,而这些摄像头特征对于3D检测并不是同等重要的。

3.DeepFusion

  3.1 节中,我们首先介绍我们的深度特征融合方案。然后,我们在第 3.2 节进行了一组初步实验,以定量说明对齐对深度特征融合的重要性。最后,我们在第 3.3 节中提出了两种技术,InverseAug 和 LearnableAlign,以提高对齐质量。

3.1深度特征融合方案

  如图 1 (a) 所示,以前的方法,例如 PointPainting [34] 和 PointAugmenting [36],通常使用训练有素的检测或分割模型作为相机特征提取器。例如,PointPainting 使用 Deeplabv3+1 生成每像素分割标签作为相机特征 [34]。然后,使用提取的相机特征对原始激光雷达点进行修饰。最后,将相机特征修饰的激光雷达点输入到 3D 点云对象检测框架中。
  由于以下原因,上述方案是可改进的。首先,将相机特征输入几个专门为处理点云数据而设计的模块。例如,如果采用 PointPillars [16] 作为 3D 检测框架,则需要将相机特征与原始点云一起进行体素化,以构建鸟瞰伪图像。但是,体素化模块不是为处理相机信息而设计的。其次,相机特征提取器是从其他独立任务(即 2D 检测或分割)中学习的,这可能会导致(1)领域差距,(2)注释工作,(3)额外的计算成本,更重要的是,(4)次优提取特征,因为这些特征是启发式选择的,而不是以端到端的方式学习的。
  为了解决上述两个问题,我们提出了一个深度特征融合方案。为了解决第一个问题,我们融合了深度相机和激光雷达特征,而不是在输入级别装饰原始激光雷达点,这样相机信号就不会通过为点云设计的模块。对于第二个问题,我们使用卷积层来提取相机特征,并以端到端的方式将这些卷积层与网络的其他组件一起训练。总而言之,我们提出的深度特征融合管道方案1 (b) 所示:将激光雷达点云输入现有的激光雷达特征提取器(例如,来自 PointPillars [16] 的 Pillar Feature Net)以获得激光雷达特征(例如,来自 PointPillars [16] 的伪图像);将相机图像输入 2D 图像特征提取器(例如,ResNet [10])以获得相机特征;然后,将相机特征融合到激光雷达特征;最后,融合特征由所选激光雷达检测框架的其余组件(例如,来自点柱[16]的主干和检测头)进行处理,以获得检测结果。
  与之前的设计相比,我们的方法有两个好处:(1)具有丰富上下文信息的高分辨率相机特征不需要被错误地体素化,然后从透视图转换为鸟瞰图;(2)域差距和标注问题得到缓解,由于端到端训练可以获得更好的相机特征。然而,缺点也很明显:与输入级装饰相比,将相机特征与激光雷达信号对齐在深度特征级别变得不那么简单。例如,两种模态的异构数据增强导致的不准确对齐可能对融合阶段构成潜在挑战。在第 3.2 节中,我们验证错位确实会损害检测模型,并在第3.3节中提供我们的解决方案。

3.2.对齐质量的影响

  为了定量评估对齐对深度特征融合的影响,我们禁用了所有其他数据增强,但仅在训练期间将 RandomRotation [46]的大小扭曲到我们深度融合管道的激光雷达点云。实验设置的更多细节可以在补充材料中找到。
由于我们只增强激光雷达点云但保持相机图像不变,更强的几何相关数据增强会导致更差的对齐。如表 1 所示,多模态融合的好处随着旋转角度的增大而减小。例如,当不应用增强时(最大旋转 = 0°),改进最显着(+2.6 AP);当最大旋转为 45° 时,仅观察到 +0.4 AP 增益。 基于这些观察,我们得出结论,对齐对于深度特征融合至关重要,如果对齐不准确,相机输入的好处就会变得微不足道。

3.3. 提高对齐质量

  鉴于对齐深度特征的重要性,我们提出了两种技术,InverseAug 和 LearnableAlign,以有效地对齐来自两种模态的深度特征。

表1. 多模态融合的性能增益随着 RandomRotation [46] 幅度的增加而减少,这表明准确对齐的重要性。 此处不使用 InverseAug。 在 Waymo Open Dataset 行人检测任务上,报告了 LEVEL 1 AP 从单模态到多模态的改进。 有关详细信息,请参阅第 3.2 节
<论文阅读>DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection_第2张图片
  InverseAug 为了在现有基准上获得最佳性能,大多数方法都需要强大的数据增强,因为训练通常会陷入过度拟合的情况。 从表 1 中可以看出数据增强的重要性,其中单模态模型的准确性可以提高多达 5.0。 此外,Cheng 等人。[5]还提出了数据增强对于训练 3D 对象检测模型的重要性。然而,数据增强的必要性给我们的 DeepFusion 方案带来了不小的挑战。具体来说,来自两种模态的数据通常使用不同的增强策略进行增强(例如,沿z轴旋转3D点云结合随机翻转2D图像),使得对齐具有挑战性。
为了解决几何相关数据增强引起的对齐问题,我们提出了 InverseAug。 如图 2 所示,对点云应用数据增强后,给定增强空间中的 3D 关键点(可以是任意 3D 坐标,如激光雷达点、体素中心等),仅使用原始激光雷达和相机参数,无法将相应的相机特征定位在二维空间中。 为了使定位可行,InverseAug 在应用几何相关数据增强时首先保存增强参数(例如,RandomRotate [46] 的旋转度)。在融合阶段,它反转所有这些数据增强以获得 3D 关键点的原始坐标(图 2(c)),然后在相机空间中找到其对应的 2D 坐标。 请注意,我们的方法是通用的,因为它可以对齐不同类型的关键点(例如,体素中心),尽管为了简单起见,我们仅在图 2 中采用激光雷达点,并且它还可以处理两种模态都增强的情况。 相比之下,现有的融合方法,如 PointAugmenting [36] 只能在增强之前处理数据。 最后,我们在图 3 (b) 中展示了通过 InverseAug 改进对齐质量的示例。
  LearnableAlign 对于 PointPainting [34] 和 PointAugmenting [36] 等输入级装饰方法,给定一个 3D 激光雷达点,由于存在一对一映射,因此唯一对应的相机像素可以准确定位。相比之下,在我们的 DeepFusion 方案中融合深度特征时,每个激光雷达特征代表一个包含点子集的体素,因此其对应的相机像素位于多边形中。所以对齐变成了一个体素对多像素的问题。一种简单的方法是对与给定体素对应的所有像素进行平均。然而,直观地说,并且正如我们的可视化结果所支持的那样,这些像素并不同样重要,因为来自激光雷达深度特征的信息与每个摄像头像素不均等地对齐。例如,一些像素可能包含用于检测的关键信息,例如要检测的目标对象,而其他像素可能信息量较少,包括道路、植物、遮挡物等背景。为了更好地将来自激光雷达特征的信息与最相关的相机特征对齐,我们引入了LearnableAlign,它利用交叉注意机制来动态捕获两种模态之间的相关性,如图 1 所示,具体来说,输入包含一个体素单元及其所有对应的N个相机特征。

4.实验

具体实验看论文吧
<论文阅读>DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection_第3张图片

图2. InverseAug 的方法。提出的 InverseAug 的目标是将数据增强阶段之后获得的关键点,即 (a) → (b) 投影到 2D 相机坐标系。关键点是一个通用概念,可以是任何 3D 坐标,例如激光雷达点或体素中心。为简单起见,我们在这里使用激光雷达点来说明这个想法。通过使用相机和激光雷达参数直接将关键点从增强的 3D 坐标系投影到 2D 相机坐标系,即直接从 (b) 到 (d),精度较低。 在这里,我们建议首先通过将所有数据增强反向应用到 3D 关键点来找到原始坐标中的所有关键点,即 (b) → (c)。 然后,可以使用激光雷达和相机参数将 3D 关键点投影到相机特征,即 (c) → (d)。 InverseAug 显着提高了对齐质量,如图 3 所示。

5.总结

  本文研究如何有效融合激光雷达和摄像头数据以进行多模态 3D 目标检测。 我们的研究表明,当它们对齐良好时,后期的深度特征融合会更有效,但是对齐来自不同模态的两个深度特征是具有挑战性的。为了应对这一挑战,我们提出了两种技术,InverseAug 和 LearnableAlign,以获得多模态特征之间的有效对齐。 基于这些技术,我们开发了一系列简单、通用但有效的多模态 3D 检测器,名为 DeepFusions,它在 Waymo 开放数据集上实现了最先进的性能。

你可能感兴趣的:(Fusion,人工智能)