Keli Huang Botian Shi Xiang Li Xin Li Siyuan Huang Yikang Li
多模态融合是自动驾驶系统感知的一项基本任务,最近引起了许多研究人员的兴趣。然而,由于原始数据噪声大、信息利用率低以及多模传感器未经过校准,要获得相当好的性能并非易事。在本文中,我们对现有的基于多模态的自动驾驶感知任务方法进行了文献综述。总的来说,我们进行了详细的分析,包括50多篇利用感知传感器(包括激光雷达和相机)解决目标检测和语义分割任务的论文。与传统的融合模型分类方法不同,我们提出了一种创新的方法,从融合阶段的角度出发,通过更合理的分类法将融合模型分为两大类、四小类。此外,我们深入研究了当前的融合方法,重点关注尚未解决的问题,并就潜在的研究方向展开讨论。总之,我们希望在本文中为自动驾驶感知任务提出一种新的多模式融合方法分类,并引发对未来基于融合技术的思考。
感知是自动驾驶的一个重要领域。这些任务包括但不限于2D/3D目标检测、语义分割、深度补全和预测,这些任务依赖于安装在车辆上的传感器从环境中采集原始数据。大多数现有方法在激光雷达采集的点云和相机采集的图像数据上执行感知任务,展示了一些有发展性的成果。
然而,单模态数据的感知存在固有缺陷。例如,相机数据主要在前视图的下部位置拍摄。在更复杂的场景中,目标可能会被遮挡,这给目标检测和语义分割带来了严峻的挑战。此外,受限于机械结构,激光雷达在不同距离处具有不同的分辨率,并且容易受到大雾和暴雨等极端天气的影响。虽然单独使用时,两种模式的数据在各个领域都表现出色,但激光雷达和相机的互补性使得组合在感知上的表现更好。
最近,用于自动驾驶感知任务的多模式融合方法取得了快速发展,从更先进的跨模态特征表示和不同模态下可靠的传感器,到更复杂、更稳健的多模态融合深度学习模型和技术。然而,只有少数文献综述集中于多模式融合方法本身的方法,其中大多数遵循将其分为早期融合、深度融合和晚期融合三大类的传统规则,重点关注深度学习模型中融合特征的阶段,无论是数据级、特征级还是proposal级。首先,这种分类法并没有明确定义每个级别的特征表示。其次,它表明激光雷达和相机这两个分支在处理过程中始终是对称的,从而掩盖了激光雷达分支中的proposal级特征和相机分支中的数据级特征融合的情况。总之,传统的分类法可能是直观的,但对于最近越来越多的新兴多模态融合方法进行总结是原始的,这阻碍了研究人员从系统的角度对其进行研究和分析。
在本文中,我们将简要回顾最近关于自动驾驶感知的多模态传感器融合的论文。我们提出了一种创新的方法,从融合阶段的角度,通过更合理的分类法,将50多篇相关论文分为两大类和四小类。这项工作的主要贡献可以总结如下:
我们提出了一种用于自动驾驶感知任务的多模式融合方法的创新分类,包括强融合和弱融合两大类,以及强融合中的四个小类,即早期融合、深度融合、晚期融合和不对称融合,这是由激光雷达分支和相机分支的特征表示明确定义的。
我们对激光雷达和相机分支的数据格式和表示进行了深入调查,并讨论了它们的不同特点。
本文对目前存在的问题进行了详细的分析,并介绍了多模态传感器融合方法的几个潜在研究方向,以期对今后的研究工作有所启发。
本文的结构如下:在第2节中,我们简要介绍了自动驾驶中的感知任务,包括但不限于目标检测、语义分割以及几种广泛使用的开放数据集和基准测试。在第3节中,我们总结了作为下游模型输入的所有数据格式。与“图像”分支不同,激光雷达分支的输入格式多种多样,包括不同的手动设计特征和表示。然后,我们在第4节中详细描述了融合方法,它是一种创新而清晰的分类法,与传统方法相比,它将当前的所有工作分为两大类和四小类。在第5节中,我们深入分析了自动驾驶多模态传感器融合的一些遗留问题、研究方向和可能的未来工作,我们可以很容易地看到一些有见地的尝试,但仍有待解决。在第6节中,我们最后总结了本文的内容。
本节首先介绍自动驾驶中常见的感知任务。此外,还有一些广泛使用的开放基准数据集,我们将在这里简要介绍一下。
一般来说,一些任务可以被视为驱动感知任务,包括目标检测、语义分割、深度完成和预测等。在这里,我们主要将前两项任务作为最集中的研究领域之一。此外,它们还包括障碍物、交通信号灯、交通标志的检测以及车道或自由空间的分割等任务。我们还简要介绍了一些未解决的任务。自动驾驶中感知任务的概述如图1所示。
目标检测
对于自动驾驶汽车来说,了解周围环境至关重要。无人驾驶车辆需要检测道路上的静止和移动障碍物,以确保安全驾驶。目标检测是一项传统的计算机视觉任务,广泛应用于自动驾驶系统中。研究人员为障碍物检测(汽车、行人、自行车等)、交通灯检测、交通标志检测等构建了这样的框架。
一般来说,目标检测使用由参数表示的矩形或长方体来紧密绑定预定义类别的实例,例如汽车或行人,这需要在定位和分类方面都表现出色。由于缺乏深度通道,二维目标检测通常简单地表示为,而三维目标检测边界框通常表示为。
语义分割
除目标检测外,许多自动驾驶感知任务都可以表示为语义分割。例如,自由空间检测是许多自动驾驶系统的基本模块,这些系统将地面像素分为可行驶区域和不可形式区域。一些车道检测方法还使用多类语义分割MASK来表示道路上的不同车道。
语义分割的实质是将输入数据的基本组成部分(如像素和三维点)聚类到包含特定语义信息的多个区域。具体而言,语义分割是指给定一组数据,例如图像像素或激光雷达三维点云,以及一组预定义的候选标签,我们使用一个模型为每个像素或点Di指定k个语义标签中的一个或所有语义标签的概率。
其他感知任务
除了上述的目标检测和语义分割之外,自动驾驶中的感知任务还包括目标分类、深度补全和预测。目标主分类主要解决通过模型确定给定点云和图像的类别问题。深度补全和预测任务侧重于从给定的LiDAR点云和图像数据中预测图像中每个像素的距离。虽然这些任务可能受益于多模态信息,但这些领域中并未广泛讨论融合模块。因此,本文选择省略这两项任务。
虽然本文没有涉及许多其他感知任务,但大多数都可以看作是目标检测或语义分割的变体。因此,本文主要围绕这两项研究工作展开。
超过10个数据集与自动驾驶感知相关。然而,通常只使用三个数据集,包括KITTI、Waymo和nuScenes。这里,我们在表1中总结了这些数据集的详细特征。
KITTI开放基准数据集是自动驾驶中最常用的目标检测数据集之一,包含2D、3D和鸟瞰图检测任务。KITTI配备了四台高分辨率摄像机、一台Velodyne激光扫描仪和最先进的定位系统,收集了7481张训练图像、7518张测试图像以及相应的点云。只有三个目标被标记为汽车、行人和骑自行车的人,其超过200k的3D目标注释分为三类:简单、中等和难以检测。对于KITTI目标检测任务,通常使用平均精度进行比较。此外,还使用平均方向相似度来评估联合检测目标和估计其三维方向的性能。
Waymo开放数据集是自动驾驶基准测试中常用的最大开放数据集之一,由五个激光雷达传感器和五个高分辨率针孔相机收集。具体来说,有798个用于训练的场景,202个用于验证,150个用于测试的场景。每个场景的跨度为20秒,并在车辆、自行车和行人中添加标注。为了评估3D目标检测任务,Waymo由四个指标组成:AP\L1、APH\L1、AP\L2、APH\L2。更具体地说,AP和APH代表两种不同的性能度量,而L1和L2包含具有不同检测困难的目标。对于APH,其计算方法与AP类似,但通过航向精度进行加权。
NuScenes开放数据集包含1000个驾驶场景,其中700个用于训练,150个用于验证,150个用于测试。nuScenes配备了摄像头、激光雷达和毫米波雷达传感器,在每个关键帧中标注23个目标类别,包括不同类型的车辆、行人和其他目标。NuScenes使用AP、TP进行检测性能评估。此外,本文还提出了一个创新的标量分数作为由AP、TP计算的nuScenes检测分数(NDS),以区分不同的错误类型。
深度学习模型仅限于输入的表达形式。为了实现该模型,我们需要在将数据输入模型之前,通过一个复杂的特征提取器对原始数据进行预处理。因此,我们首先介绍了激光雷达和图像数据的表达形式,并将在后面讨论融合方法和模型。
对于图像分支,大多数现有方法保持与下游模块输入的原始数据相同的格式。然而,激光雷达分支高度依赖于数据格式,数据格式强调不同的特性,并对下游模型设计产生巨大影响。因此,我们将其总结为基于点、基于体素和基于2D映射的点云数据格式,以适应不同的深度学习模型。
作为2D或3D目标检测和语义分割任务中最常用的数据采集传感器,单目摄像头提供了丰富纹理信息的RGB图像。具体而言,对于每个图像像素as(u,v),其具有多通道特征向量F(u,v)={R,G,B,…},其中通常包含摄像机捕获颜色分解的红、蓝、绿通道或其他手动设计的特征作为灰度通道。
然而,由于深度信息有限,单目摄像机难以提取,因此在三维空间中直接检测目标相对具有挑战性。因此,许多工作通过时空空间使用双目或立体相机系统来利用额外的信息进行三维物体检测,如深度估计、光流等。对于夜间或迷雾等极端驾驶环境,一些工作还使用门控或红外摄像头来提高鲁棒性。
至于3D感知传感器,激光雷达使用激光系统扫描环境并生成点云。它对世界坐标系中的点进行采样,该坐标系表示激光光线与不透明度曲面的交点。一般来说,大多数激光雷达的原始数据都是四元数(x、y、z、r),其中r表示每个点的反射率。不同的纹理会导致不同的反射率,这在多个任务中提供了额外的信息。
为了整合激光雷达数据,一些方法通过基于点的特征提取主干网络直接使用点的信息。然而,点的四元数表示存在冗余或速度缺陷。因此,许多研究人员试图在将点云输入下游模块之前,将其转换为体素或2D投影。
一些工作利用三维卷积神经网络,将三维空间离散为三维体素,表示为Xv={x1, x2, x3 … xn},其中每个xi表示为xi={si, vi}的特征向量。si代表体素化长方体的质心,vi代表一些基于统计的局部信息。
局部密度是由局部体素中3D点的数量定义的常用特征。局部偏移通常定义为点实词坐标和局部体素质心之间的偏移。其他可能包含局部线性和局部曲率。最近的工作可能会考虑一种更合理的离散化方法,即基于圆柱体的体素化,但与上面提到的基于点云的表示不同,基于体素的点云表示大大减少了非结构化点云的冗余度。此外,由于能够利用3D稀疏卷积技术,感知任务不仅可以实现更快的训练速度,还可以实现更高的准确性。
一些作品没有提出新的网络结构,而是利用复杂的2D CNN主干对点云进行编码。具体来说,他们试图将激光雷达数据作为两种常见类型投影到图像空间,包括相机平面图(CPM)和鸟瞰图(BEV)。通过将每个3D点(x, y, z)投影到相机坐标系(u, v)中,可以通过外部校准获得CPM。由于CPM具有与相机图像相同的格式,因此可以通过使用CPM作为附加通道来自然融合。然而,由于激光雷达投影后分辨率较低,CPM中许多像素的特征被破坏。因此,有人提出了一些方法来对特征图进行上采样,而其他方法则将其留空。
与直接将激光雷达信息投影到前视图像空间的CPM不同,BEV映射提供了从上方视角的场景视图。检测和定位任务使用它有两个原因。首先,与安装在挡风玻璃后面的摄像头不同,大多数激光雷达位于车辆顶部,遮挡较少。其次,所有目标都放置在BEV的地平面上,模型可以生成预测,而不会在长度和宽度上发生扭曲。BEV组件可能会有所不同。一些是直接从高度、密度或强度转换为基于点或基于体素的特征,而另一些是通过特征提取模块学习激光雷达信息的特征。
在本节中,我们将回顾激光雷达相机数据的不同融合方法。从传统分类的角度来看,所有多模态数据融合方法都可以方便地分为三种范式,包括数据级融合(早期融合)、特征级融合(深度融合)和目标级融合(后期融合)。
数据级融合或早期融合方法通过空间对齐直接将不同模式的原始传感器数据进行融合。特征级融合或深度融合方法通过串联或元素乘法在特征空间中混合跨模态数据。目标级融合方法将各模态模型的预测结果结合起来,做出最终决策。
然而,最近的工作不能轻易地分为这三类。因此,在本文中,我们提出了一种新的分类法,将所有融合方法分为强融合和弱融合,我们将对此进行详细阐述。我们在图2中显示了它们之间的关系。
为了进行性能比较,我们主要关注KITTI benchmark中的两个主要任务,即3D检测和鸟瞰目标检测。表2和表3分别给出了BEV和3D设置的KITTI测试数据集上最近的多模态融合方法的实验结果。
根据激光雷达和相机数据表示的不同组合阶段,将强融合分为早期融合、深度融合、晚期融合和不对称融合四类。作为研究最多的融合方法,强融合近年来取得了许多杰出的成果。从图3的概述中,很容易注意到强融合中的每个小模块都高度依赖于激光雷达点云,而不是相机数据。然后,我们将详细讨论其中的每一项。
早期融合: 与传统的数据级融合定义不同,后者是一种在原始数据级通过空间对齐和投影直接融合每种模态数据的方法,早期融合在数据级融合激光雷达数据数据级融合,相机数据在级别或特征级别。 早期融合的一个例子如图 4所示。
对于上述LiDAR分支,点云可以以具有反射的3D点、体素化张量、前视图\全距视图(range-view)\鸟瞰视图以及伪点云的形式使用。尽管所有这些数据都具有不同的固有特征,这与之后的激光雷达主干网络相关,但除伪点云外,大多数数据都是通过基于规则的处理生成的。此外,与特征空间中的嵌入相比,该阶段的数据仍然具有可解释性,因此所有这些数据表示都可以直观地可视化。
对于图像分支,严格的数据级定义只能包含RGB或灰度等数据,缺乏通用性和合理性。与传统的早期融合定义相比,我们将相机数据放松到数据级和特征级数据。特别是,由于这些“目标级”特征不同于整个任务的最终目标级proposals,因此我们将有利于3D目标检测的图像分支中的语义分割任务结果视为特征级表示。
[76] and [90] 将图像分支中的语义特征和原始激光雷达点云融合在一起,可以在目标检测任务中获得更好的性能。[68]和[20]还利用语义特征,但与上述方法不同,它将原始激光雷达点云预处理为体素化张量,以进一步利用更先进的激光雷达主干。[54]利用成熟的CNN技术,将3D激光雷达点云转换为2D图像,并在图像分支中融合特征级表示,以实现更好的性能。[87]将原始RGB像素与体素化张量融合,而[79]将图像分支生成的伪点云与激光雷达分支生成的原始点云直接组合在一起,以完成目标检测任务。
基于VoxelNet [108],[69]提出了一种融合方法,即点融合,它将对应像素的图像特征向量直接附加到体素化向量上。[92]提出了将每个原始点与图像分支的全局特征相结合的密集融合。[53]重点介绍使用CNN的2D行人检测。
作为早期融合,它在输入到CNN之前直接融合不同的分支。[105]提出了一种称为点注意融合的融合方法,该方法将图像特征融合到激光雷达点云中的体素化张量。
深度融合。深度融合方法在LiDAR分支的特征级融合跨模态数据,但在图像分支的数据级和特征级融合跨模态数据。例如,一些方法使用特征提取器分别获取激光雷达点云和相机图像的嵌入表示,并通过一系列下游模块将特征融合到两种模式中。然而,与其他强融合方法不同,深度融合有时以级联方式融合特征,这两种方法都利用原始和高级语义信息。深度融合的一个例子是图5中的模型。
[92]提出了基于全局融合的全局激光雷达特征与来自图像分支的全局特征。[69]提出了其他融合方法,如体素融合,将ROI池图像特征向量附加到激光雷达点云中每个体素的密集特征向量。[105]提出了另一种称为密集注意融合的方法,该方法融合了来自多个分支的伪图像。[45,49]分别提出两种深度融合方法。EPNet[32]一种深度激光雷达图像融合,估计相应图像特征的重要性,以减少噪声影响。[4]提出了一种极端天气下的多模态数据集,并对每个分支进行了深度融合,大大提高了自动驾驶模型的鲁棒性。其他深度融合工作包括[9,14, 16,22,37,46,73,78,85,102],它们似乎拥有相同的融合模块。
后期融合, 也称为目标级融合,表示融合每个模态中管道结果的方法。例如,一些后期融合方法利用激光雷达点云分支和相机图像分支的输出,并基于两种模式的结果进行最终预测。请注意,两个分支proposals的数据格式应与最终结果相同,但在质量、数量和精度上有所不同。后期融合是一种利用多模态信息对最终方案进行优化的集成方法。图6中的模型可以是后期融合的一个例子。
如上所述,[55]利用后期融合对每个3D区域proposal的得分组合进行二次优化图像分支中的2D proposal和激光雷达分支中的3D proposal。此外,对于每个重叠区域,它利用了置信度、距离和IoU等统计特征。[1] 侧重于目标检测,它将来自两个分支的建议与置信度评分等特征相结合,并输出最终的IoU评分。[29]、[28]通过将分割结果组合在一起解决了道路检测问题。正如[53]中的后期融合一样,它将相同的3D检测方案的不同分支的得分汇总为一个最终得分。
不对称融合,除了早期融合、深度融合和后期融合外,一些方法还处理具有不同权限的跨模态分支,因此我们将一个分支的目标级信息融合,而其他分支的数据级或特征级信息融合定义为非对称融合。与强融合中的其他方法不同,非对称融合将两个分支视为似乎相等的状态,非对称融合至少有一个分支占主导地位,而其他分支提供辅助信息来执行最终任务。图7中的模型可以是延迟融合的一个例子。特别是与后期融合相比,虽然它们可能使用proposal具有相同的提取特征[55],但不对称融合只有来自一个分支的一个proposal,而后期融合有来自所有分支的proposal。
这种融合方法是合理的,因为在相机数据上使用卷积神经网络具有优异的性能,它可以过滤点云中语义上无用的点,并从平截头体的角度提升3D激光雷达主干的性能。它提取原始点云中的截头体以及相应像素的RGB信息,以输出三维边界框的参数。然而,一些作品不拘一格,使用激光雷达主干网络来引导2D多视图样式的主干网络,实现更高的精度。[40]重点关注基于3D检测方案提取的多视图图像对行人的检测,该方案进一步利用CNN完善了之前的方案。[12] [17]利用其他分支的ROI特性,细化了仅由激光雷达分支预测的3D方案。[5] 重点是2D检测,利用激光雷达分支的3D区域建议,并将其重新投影到2D建议以及图像特征,以进一步细化。[11]提出了一种基于统计信息和规则信息的三维潜在边界框。结合图像特征,输出最终的3D方案。[70]专注于通过专门收集的数据集完成的小目标检测,这本质上是一项2D语义分割任务,将激光雷达的建议与原始RGB图像相结合,以输出最终结果。
与强融合不同,弱融合方法不直接从多模式分支融合数据/特征/目标,而是以其他方式操作数据。基于弱融合的方法通常使用基于规则的方法来利用一种模态中的数据作为监控信号,以指导另一种模态的交互。图8展示了弱融合模式的基本框架。例如,图像分支中CNN的2D建议可能会导致原始激光雷达点云中出现截锥。然而,与上面提到的将图像特征组合为不对称融合不同,弱融合将选择的原始激光雷达点云直接输入到激光雷达主干中,以输出最终方案[60]。
[83]通过使用固定的选定步幅将每个圆台分成几个部分,进一步提高了3D检测精度,从而改进了技术。[104]专注于远程稀疏点云目标检测。[99]从图像的语义分割结果中过滤掉平截头体中激光雷达点云的所有背景点。[72]侧重于半监督学习和转移学习,其中根据2D图像目标来引导平截头体。
其他弱融合强调了2D目标的实时检测性能,每次只选择两个分支中的一个模型,使用强化学习策略预测最终方案。在[21]中,通过图像分支中的2D检测建议生成多个3D长方体建议,然后模型输出最终的3D检测长方体及其检测分数。[67]用的图像来预测2D边界框和3D姿势参数,并利用相应区域中的激光雷达点云对其进行进一步细化。
有些工作不能简单地定义为上述任何类型的融合,因为它们在整个模型框架中拥有不止一种融合方法,例如深度融合和晚期融合的组合[39],而[77]将早期融合和深度融合结合在一起。这些方法在模型设计视图中存在冗余,这不是融合模块的主流。
近年来,用于自动驾驶感知任务的多模式融合方法取得了快速的进展,从更高级的特征表示到更复杂的深度学习模型。然而,仍有一些尚未解决的问题需要解决。在此,我们将未来需要做的一些关键和必要的工作总结为以下几个方面。
当前的融合模型面临着错位和信息丢失的问题。此外,平面融合操作也阻碍了感知任务性能的进一步提高。我们将其归纳为两个方面:错位和信息丢失,更合理的融合操作。
错位和信息丢失
相机和激光雷达的内在和外在都有很大的不同。两种模式的数据都需要在新的坐标系下重新组织。传统的早期和深度融合方法利用外部校准矩阵将所有激光雷达点直接投影到相应的像素,反之亦然。然而,由于感官噪声的影响,这种逐点对齐不够精确。因此,我们可以看到,除了这种严格的通信之外,一些工作还利用周围的信息作为补充,从而获得更好的性能。
此外,在输入空间和特征空间的转换过程中,还存在其他一些信息损失。通常情况下,降维操作的投影将不可避免地导致大量信息丢失,例如,将三维激光雷达点云映射到二维BEV图像。因此,通过将两个模态数据映射到另一个专门为融合设计的高维表示中,未来的工作可以有效地利用原始数据,同时减少信息损失。
更合理的融合操作
当前的研究工作使用直观的方法来融合跨模态数据,如级联和元素级相乘。这些简单的操作可能无法融合分布差异较大的数据,因此难以弥合两种模式之间的语义差距。一些工作试图使用更精细的级联结构来融合数据并提高性能。在未来的研究中,诸如双线性映射等机制可以融合具有不同特征的特征。
前视图的单帧是自动驾驶感知任务的典型场景。然而,大多数框架利用有限的信息,没有详细设计的辅助任务来进一步理解驾驶场景。我们将其总结为提供更多潜在有用信息和自监督的表征学习。
提供更多潜在有用信息
现有方法缺乏对来自多个维度和来源的信息的有效利用。大多数都集中在前视图的多模态数据的单个帧上。因此,语义、空间和场景上下文信息等其他有意义的信息利用不足。
一些模型试图使用从图像语义分割任务中获得的结果作为附加特征,而其他模型可能利用神经网络主干中间层的特征,无论是否由特定下游任务训练。在自动驾驶场景中,许多具有明确语义信息的下游任务可能会极大地提高目标检测任务的性能。例如,车道检测可以直观地为检测车道之间的车辆提供额外的帮助,语义分割结果可以提高目标检测性能。因此,未来的研究可以通过检测车道、红绿灯和标志等下游任务,共同构建城市景观场景的完整语义理解框架,以帮助感知任务的执行。
此外,当前的感知任务主要依赖于忽略时间信息的单一框架。最近基于激光雷达的方法结合了一系列帧来提高性能。时间序列信息包含序列化的监控信号,与使用单个帧的方法相比,它可以提供更可靠的结果。
因此,未来的工作可能会更深入地利用时间、上下文和空间信息进行创新模型设计的连续框架。
自监督的表征学习
相互监督的信号自然地存在于从相同的真实场景但不同角度采样的跨模态数据中。然而,目前的方法无法挖掘每个模态之间的相互关系,对数据缺乏深入了解。未来的研究可以集中在如何利用多模态数据进行自我监督学习,包括预训练、微调或对比学习。通过实施这些最先进的机制,融合模型将加深对数据的理解并取得更好的结果,这在其他领域已经显示出一些有希望的迹象,同时为自动驾驶感知留下了空白。
数据域偏差和分辨率与真实场景和传感器高度相关[26]。这些意想不到的缺陷阻碍了自动驾驶深度学习模型的大规模训练和实施,这需要在未来的工作中加以解决。
数据域偏差
在自动驾驶感知场景中,不同传感器提取的原始数据具有严重的领域相关特征。不同的相机系统有其光学特性,而激光雷达可能会因机械激光雷达和固态激光雷达而异。更重要的是,数据本身可能会偏向于领域,例如天气、季节或位置,即使它是由相同的传感器捕获的。因此,检测模型无法顺利适应新的场景。由于泛化失败,这些缺陷阻碍了大规模数据集的收集和原始训练数据的重用。因此,在未来的工作中,找到一种消除领域偏差并自适应集成不同数据源的方法至关重要。
数据分辨率冲突
来自不同模式的传感器通常具有不同的分辨率。例如,激光雷达的空间密度明显低于图像的空间密度。无论采用何种投影方法,都会因为找不到对应关系而消除一些信息。这可能导致模型由一个特定模态的数据控制,无论是由于特征向量的分辨率不同还是由于原始信息的不平衡。因此,未来的工作可以探索一种与不同空间分辨率的传感器兼容的新数据表示系统。
在本文中,我们回顾了50多篇关于自动驾驶感知任务的多模态传感器融合的相关论文。具体来说,我们首先提出了一种创新的方法,从融合的角度,通过更合理的分类法将这些论文分为三类。然后,我们对激光雷达和相机的数据格式和表示进行了深入的调查,并描述了它们的不同特点。最后,对多模态传感器融合中存在的问题进行了详细的分析,并介绍了几个可能的新方向,这可能会对未来的研究工作有所启发