@article{Wang2020MultiSensorFI,
title={Multi-Sensor Fusion in Automated Driving: A Survey},
author={Zhangjing Wang and Yu Wu and Qingqing Niu},
journal={IEEE Access},
year={2020},
volume={8},
pages={2847-2868}
}
多模态融合是自动驾驶系统感知的一项基本任务,最近吸引了许多研究人员。然而,由于嘈杂的原始数据、未被充分利用的信息以及未对齐的多模态传感器数据,实现相当好的性能并不是一件容易的事。在本文中,我们对现有的基于多模态的自动驾驶感知任务方法进行了文献回顾。一般来说,我们做了详细的分析,包括50多篇利用感知传感器(包括LiDAR和相机)试图解决物体检测和语义分割任务的论文。与传统的融合方法不同的是融合模型的分类方法,我们提出了一种创新的方法,从融合阶段的角度出发,通过更合理的分类法将其分为两个大类,四个小类。此外,我们深入研究了当前的融合方法,重点关注剩余可能存在的一些问题,并就潜在的研究机会展开讨论。最后,我们希望在本文中提出一个用于自动驾驶感知任务的多模态融合方法的新分类法,并引发对未来基于融合技术的思考。
感知是自动驾驶汽车的一个重要模块。这些任务包括但不限于二维/三维物体检测、语义分割、深度完成和预测,它们依赖于安装在车辆上的传感器对环境采样的原始数据。多数已有的方法,分别对LiDAR和相机采集的点云和图像数据进行了感知任务,显示出一些有希望的成果。
然而,单模态数据的感知存在着固有的缺陷。例如,摄像机数据主要是在前视图的较低位置采集的。在更复杂的场景中,物体可能会被遮挡住。 给物体检测和语义分割带来严重的挑战。此外,受限于机械结构,LiDAR在不同的距离上有不同的分辨率,而且容易受到极端天气的影响,如青蛙和暴雨。虽然这两种方式的数据在单独使用时在各个领域都很出色,但LiDAR和相机的互补性使两者的结合 在感知方面有更好的表现。
最近,用于自动驾驶中感知任务的多模态融合方法取得了快速进展,从更先进的跨模态特征表示和不同模态中更可靠的传感器,到更复杂和强大的深度学习模型和多模态融合技术。然而,只有少数文献评论集中于 然而,只有少数文献评论集中于多模态融合方法论本身,而且大多数文献遵循传统规则,将其分为早期融合、深度融合和后期融合三大类,重点关注深度学习模型中的融合特征阶段,无论是数据级、特征级还是提议级。首先,这样的分类法并没有对每个层次的特征表示做出明确的定义。其次,它表明LiDAR和相机这两个分支在处理过程中总是对称的,掩盖了在LiDAR分支融合提议级特征和在相机分支融合数据级特征的情况。总之,传统的分类法可能是直观的,但对于总结最近越来越多的新兴多模态融合方法来说是原始的,这使得研究人员无法从系统的角度来研究和分析它们。
在本文中,我们将对最近关于自动驾驶感知的多模态传感器融合的论文做一个简要的回顾。我们提出了一种创新的方法,从融合阶段的角度出发,用一种更合理的分类法将50多篇相关论文分为两大类和四小类。
这项工作的主要贡献可以归纳为以下几点:
- 我们提出了用于自动驾驶感知任务的多模态融合方法的创新分类法,包括强融合和弱融合两大类,以及强融合中的四个小类,即早期融合、深度融合、后期融合、不对称融合,这是由LiDAR分支和相机分支的特征表示所明确定义的。
- 我们对LiDAR和相机分支的数据格式和表示方法进行了深入调查,并讨论了它们的不同特点。
- 我们对剩下的问题进行了详细的分析,并介绍了几个关于多模态传感器融合方法的潜在研究方向。 这可能对未来的研究工作有所启发。
本文的组织结构如下。在第二节中,我们简要介绍了自动驾驶中的感知任务,包括但不限于物体检测、语义分割,以及几个广泛使用的开放数据集和基准。在第3节,我们总结了作为下游模型输入的所有数据格式。与图像分支不同,LiDAR分支在输入格式上有很多不同,包括不同的手工设计的特征和表示。然后,我们在第4节中详细描述了融合方法,与传统方法相比,该方法是一个创新的、清晰的分类法,将目前所有的工作分为两个大类和四个小类。在第5节中,我们深入分析了关于自动驾驶的多模式传感器融合的一些遗留问题、研究机会和可能的未来工作,我们可以很容易地察觉到一些有见地的尝试,但仍有待于解决。在第6节,我们最后总结了本文的内容。
在本节中,我们将首先介绍自动驾驶中常见的感知任务。此外。也有一些广泛使用的开放基准数据集,我们将在这里对它们进行介绍。我们将在这里对其进行介绍。
一般来说,有几个任务可以算作是驾驶感知任务,包含物体检测、语义分割、深度完成和预测等等。在这里,我们主要关注前两个任务,因为它们是最集中的研究领域之一。同时,它们涵盖了诸如障碍物、交通灯、交通标志的检测,以及车道或自由空间的分割等任务。我们还简要介绍了一些其余的任务。图1显示了自动驾驶中感知任务的概况。
对于自动驾驶汽车来说,了解周围的环境是至关重要的。为了安全驾驶,无人驾驶汽车需要检测道路上的静止和移动障碍物。物体检测是一项传统的计算机视觉任务,在自动驾驶系统中被广泛使用。研究人员为障碍物检测(汽车、行人、自行车手等)、交通灯检测、交通标志检测等建立了这样的框架。
一般来说,物体检测使用由参数表示的矩形或立方体来严格约束预定类别的实例,如汽车或行人,这需要在定位和分类方面都很出色。由于缺乏深度通道,二维物体检测通常简单地表示为(x;y;h;w;c),而三维物体检测的边界盒通常表示为(x;y;z;h;w;l;θ;c)。
除了物体检测,许多自主驾驶的感知任务都可以被表述为语义分割。例如,自由空间检测是许多自主驾驶系统的基本模块,它将地面像素划分为可驾驶和不可驾驶部分。一些车道检测方法也使用多类语义分割掩码来表示道路上的不同车道。
语义分割的本质是将输入数据的基本组成部分,如像素和三维点,集中到含有特定语义信息的多个区域。具体来说,语义分割是,给定一组数据,如图像像素DI = {d1; d2; ...; dn}或LiDAR三维点云DL = {d1; d2; ...; dn},以及预定义的一组候选标签Y = {y1; y2; y3; ...; yk},我们使用一个模型来给每个像素或点di分配k个语义标签中选定的一个或所有概率。
除了上面提到的物体检测和语义分割,自主驾驶中的感知任务还包括物体分类、深度完成和预测。物体分类主要解决的是通过模型确定给定的点云和图像的类别。深度完成和预测任务主要是预测给定LiDAR点云和图像数据的图像中每个像素与观察者的距离。尽管这些任务可能受益于多模态信息,但融合模块在这些领域没有得到广泛讨论。因此,我们选择在本文中省略这样两个任务。
虽然本文没有涉及许多其他的感知任务,但大多数可以被视为物体检测或语义分割的变体。因此,我们在本文中重点讨论这两项研究工作。
超过10个数据集与自动驾驶感知相关。然而,只有三个数据集是常用的,包括KITTI、Waymo和nuScenes。这里我们在表1中总结了这些数据集的详细特征。
KITTI开放基准数据集,作为自动驾驶中最常用的物体检测数据集之一,包含二维、三维和鸟瞰检测任务。KITTI配备了四个高分辨率摄像机、一个Velodyne激光扫描仪和一个最先进的定位系统,收集了7481张训练图像和7518张测试图像,以及相应的点云。只有三个物体被标记为汽车、行人和骑自行车的人,有超过20万个3D物体注释,按检测难度分为三类:容易、中等和困难。对于KITTI物体检测任务,通常使用平均精度进行比较。此外,平均方向相似度也被用来评估联合检测物体和估计其三维方向的性能。
作为通常用于自动驾驶基准的最大的开放数据集之一,Waymo开放数据集由五个激光雷达传感器和五个高分辨率针孔摄像机收集。具体来说,有798个场景用于训练,202个用于验证,还有150个场景用于测试。每个场景跨度为20秒,有车辆、骑车人和行人的标注。为了评估三维物体检测任务,Waymo由四个指标组成。AP/L1, APH/L1, AP/L2, APH/L2。更具体地说,AP和APH代表两种不同的性能测量,而L1和L2则包含具有不同检测难度的物体。至于APH,它的计算方法与AP类似,但由航向精度加权。
NuScenes开放数据集包含1000个驾驶场景,其中700个用于训练,150个用于验证,还有150个用于测试。NuScenes配备了摄像头、LiDAR和雷达传感器,在每个关键帧中注释了23个物体类别,包括不同类型的车辆、行人和其他。NuScenes使用AP、TP进行检测性能评估。此外,它还提出了一个创新的标量分数,作为nuScenes检测分数(NDS),由AP、TP计算,以隔离不同的错误类型。
深度学习模型仅限于对输入的表示。为了实现该模型,我们需要在将数据输入模型之前,通过一个精心设计的特征提取器对原始数据进行预处理。因此,我们首先介绍LiDAR和图像数据的表示方法,我们将在后面的部分讨论融合方法和模型。
至于图像分支,大多数现有的方法都保持与原始数据相同的格式,用于下游模块的输入。然而,LiDAR分支高度依赖数据格式,强调不同的特性,并大量影响下游的模型设计。因此,我们将其总结为基于点、基于体素和基于二维映射的点云数据格式,适合于异质性的深度学习模型。
作为二维或三维物体检测和语义分割任务中最常用的数据采集传感器,单眼相机提供富含纹理信息的RGB图像。具体来说,对于每个图像像素为(u;v),它有一个多通道特征向量为F(u;v)={R,G,B,...},它通常包含相机捕获颜色分解的红、蓝、绿通道或其他手动设计的特征作为灰度通道。
然而,直接检测三维空间中的物体是相对具有挑战性的,因为深度信息有限,单眼相机很难提取到。因此,许多工作通过空间和时间空间使用双目或立体相机系统,利用额外的信息进行三维物体检测,如深度估计、光流等。对于极端的驾驶环境,如夜间或青蛙,一些工作还使用门控或红外相机来提高鲁棒性。
至于3D感知传感器,LiDAR使用激光系统来扫描环境并生成点云。它对世界坐标系中的点进行采样,表示激光射线和不透明表面的交点。一般来说,大多数LiDAR的原始数据是四元数(x;y;z;r),其中r代表每个点的反射率。不同的纹理导致了不同的反射率,这在一些任务中提供了额外的信息。
为了纳入LiDAR数据,一些方法通过基于点的特征提取骨干直接使用点。然而,点的四元数表示法存在冗余或速度方面的缺陷。因此,许多研究人员试图将点云转化为体素或二维投影,然后再将其送入下游模块。
一些工作利用三维CNN将三维空间离散为三维体素,表示为Xv = {x1, x2, x3,...xn},其中每个xi代表一个特征向量,即xi = {si; vi}。si代表体素化立方体的中心点,而vi代表一些基于统计的局部信息。
局部密度是一个常用的特征,由局部体素中的三维点的数量定义。局部偏移通常定义为点实词坐标与局部体素中心点之间的偏移。其他可能包含局部线性和局部曲率。
最近的工作可能会考虑一种更合理的离散化方式,即基于圆柱体的体素化,但基于体素的点云表示法,与上面提到的基于点的点云表示法不同,大大减少了非结构化点云的冗余。此外,由于能够利用三维稀疏卷积技术,感知任务不仅实现了更快的训练速度,而且实现了更高的准确性。
一些工作没有提出新的网络结构,而是利用复杂的二维CNN backbone对点云进行编码。具体来说,他们试图将LiDAR数据投射到图像空间,作为两种常见类型,包括相机平面图(CPM)和鸟瞰图(BEV)。
CPM可以通过外在校准获得,将每个三维点(x, y, z)投影到相机坐标系(u, v)。由于CPM具有与摄像机图像相同的格式,它们可以通过使用CPM作为一个额外的通道自然融合。然而,由于LiDAR投影后的分辨率较低,CPM中许多像素的特征被破坏了。因此,一些方法被提出来对特征图进行上采样,而另一些方法则将其留为空白。
与直接将LiDAR信息投射到前视图像空间的CPM不同,BEV映射提供了一个来自上方的场景的仰视视角。它被检测和定位任务所利用的原因有两个。首先,与安装在挡风玻璃后面的相机不同,大多数LiDAR都在车辆的顶部,遮挡物较少。其次,所有物体都被放置在BEV的地平面上,模型可以产生预测,而不会出现长度和宽度的失真。BEV的组成部分可能有所不同。有些是直接从高度、密度或强度转换为基于点或体素的特征,而有些则是通过特征提取器模块学习支柱中LiDAR信息的特征。
在本节中,我们将回顾LiDAR-摄像机数据的不同融合方法。从传统的分类学角度来看,所有的多模态数据融合方法都可以方便地分为三种范式,包括数据级融合(早期融合)、特征级融合(深度融合)和对象级融合(后期融合)。
数据级融合或早期融合方法通过空间对齐直接融合不同模式的原始传感器数据。特征级融合或深度融合方法通过连接或元素相乘来混合特征空间中的跨模态数据。对象级融合方法结合各模态模型的预测结果并做出最终决定。
然而,最近的工作不能简单地归入这三类。因此在本文中,我们提出了一个新的分类法,将所有的融合方法分为强融合和弱融合,我们将详细阐述。我们在图2中显示了它们的关系。
为了进行性能比较,我们把重点放在KITTI基准的两个主要任务上,即三维检测和鸟瞰物体检测。表2和表3分别列出了最近的多模态融合方法在KITTI测试数据集中的BEV和3D设置的实验结果。
按照LiDAR和相机数据表示的不同组合阶段,我们将强融合分为四类,即早期融合、深度融合、后期融合和不对称融合。作为研究最多的融合方法,强融合在近年来显示了很多突出的成就。从图3的概述中不难发现,强融合中的每个小类都高度依赖于LiDAR点云而不是相机数据。接下来我们将具体讨论它们中的每一个。
早期融合。 与传统的数据级融合的定义不同,早期融合是通过在原始数据级的空间排列和投影直接融合每种模式的数据,在数据级融合LiDAR数据,在数据级或特征级融合相机数据。早期融合的一个例子可以是图4中的模型。
至于上面提到的LiDAR分支,点云可以用反射率的三维点、体素化张量、前视/测距/鸟瞰以及伪点云等形式。尽管所有这些数据都有不同的内在特征,与后者的LiDAR骨架高度相关,但除了伪点云之外,这些数据大多是以基于规则的游行方式产生的[79]。此外,LiDAR的这些数据表示都可以直接可视化,因为与特征空间的嵌入相比,这个阶段的数据仍然具有可解释性。
至于图像路径,严格的数据级定义应该只包含RGB或Gray的数据,这缺乏通用性和合理性。与传统的早期融合的定义相比,我们在这里将相机数据放宽到数据级和特征级数据。特别是,在这里我们将有利于三维物体检测的图像分支中的语义分割任务结果视为特征级表示,因为这些种类的 "物体级 "特征与整个任务的最终物体级建议不同。
并将图像分支中的语义特征和原始激光雷达点云融合在一起,从而在物体检测任务中获得更好的性能。[68]和[20]也利用了语义特征,但与上述方法不同的是,它将原始激光雷达点云预处理为体素化张量,以进一步利用更先进的激光雷达骨干。[54]将三维激光雷达点云转化为二维图像,并利用成熟的CNN技术在图像分支中融合特征级表示,以获得更好的性能。[87]将原始RGB像素与体素化张量相融合,而[79]直接将图像分支生成的伪点云和激光雷达分支的原始点云结合在一起,以完成物体检测任务。
基于VoxelNet[108],[69]提出的融合方法之一是点融合,即直接将相应像素的图像特征向量附加到体素化向量上。[92]提出了密集融合法,将每个原始点与图像分支的全局特征联系起来。[53]关注于使用CNN的二维行人检测。
作为早期融合,它在输入到CNN之前直接融合了不同的分支。[105]提出了一种名为点注意融合的融合方法,它将图像特征与LiDAR点云的体素化张量相融合。
深度融合。深度融合方法在LiDAR分支的特征水平上融合跨模式数据,但在图像分支的数据水平和特征水平上融合。例如,一些方法使用特征提取器分别获取LiDAR点云和相机图像的嵌入表示,并通过一系列的下游模块融合两种模式的特征[32,102]。然而,与其他强融合方法不同,深度融合有时以级联方式融合特征[4,32,46],这既是对原始信息的利用,也是对高层次语义信息的利用。深度融合的一个例子可以是图5中的模型。
[92]提出了将全局LiDAR特征与图像分支的全局特征相融合。[69]提出了其他的融合方法,如体素融合,将ROI集合图像特征向量与LiDAR点云中每个体素的密集特征向量相连。[105]提出了另一种名为密集注意融合的方法,融合了来自多个分支的伪图像。[45,49],分别提出两种深度融合方法。EPNet[32]一种深度激光雷达-图像融合,估计相应图像特征的重要性,以减少噪声的影响。[4]提出了一个极端天气下的多模态数据集,并以深度融合的方式融合了各个分支,极大地提高了自主驾驶模型的鲁棒性。其他的深度融合工作包括[9, 14, 16, 22, 37, 46, 73,78,85,102],它们的融合模块貌似相同。
后期融合。晚期融合,也被称为对象级融合,指的是融合每种模式下的管道结果的方法。例如,一些后期融合方法利用LiDAR点云分支和相机图像分支的输出,根据两种模式的结果进行最终预测[55]。请注意,这两个分支的建议应具有与最终结果相同的数据格式,但在质量、数量和精度上有所不同。Latefusion可以被视为一种集合方法,利用多模态信息来优化最终提议。晚期融合的一个例子可以是图6中的模型。
如上所述,[55]利用Late-fusion对每个三维区域提案的得分进行二次精炼,将图像分支的二维提案与LiDAR分支的三维提案相结合。此外,对于每个重叠的区域,它利用了统计学特征,如置信度分数、距离和IoU。[1]专注于二维物体检测,它将两个分支的提议与置信度得分等特征结合起来,模型输出最终的物联网得分。[29], [28]通过将分割结果组合在一起解决了道路检测问题。如[53]中的后期融合,它将不同分支对同一三维检测建议的得分汇总为一个最终得分。
这种融合方法是合理的,因为在相机数据上使用卷积神经网络有很好的性能,它可以过滤点云中语义上无用的点,促进三维LiDAR骨干网在地壳角度的性能,如[106]。它在原始点云中提取地壳以及相应像素的RGB信息,以输出三维边界盒的参数。然而,一些工作跳出框框,用LiDAR骨架来引导多视角风格的二维骨架,并取得更高的精度。[40]在三维检测建议的基础上,重点研究了通过提取的多视图图像进行行人检测,该建议进一步利用CNN来完善之前的建议。[12]和[17]用其他分支的ROI特征细化了仅由LiDAR分支预测的三维建议。[5]专注于二维检测,利用LiDAR分支的三维区域提议,并与图像特征一起重新投射到二维提议,以进一步完善。[11]通过统计和基于规则的信息提出了一个三维潜在边界框。与图像特征相结合,输出最终的三维建议。[70]专注于通过专门收集的数据集完成的小物体检测,这基本上是一个二维语义分割任务,将LiDAR的建议与原始RGB图像相结合,输出最终结果。
与强融合不同,弱融合方法不是直接从多模态的分支中融合数据/特征/对象,而是以其他方式操作数据。基于弱融合的方法通常使用基于规则的方法,利用一种模态中的数据作为监督信号,指导另一种模态的交互。图8展示了弱融合模式的基本框架。例如,图像分支中来自CNN的二维建议可能会导致原始激光雷达点云中的一个地壳。然而,与上面提到的结合图像特征的不对称融合不同,弱融合直接将那些原始激光雷达点云选入激光雷达主干,以输出最终建议[60]。
[83]通过固定选择的步幅将每个地壳划分为若干部分,进一步提高了三维检测的准确性,从而推进了技术的发展。[104]专注于远程稀疏点云物体检测。[99]从图像的语义分割结果中过滤掉LiDAR点云的所有背景点。[72]专注于半监督和转移学习,其中地壳是根据二维图像的提议提出的。
其他弱融合如[19]强调了二维物体的实时检测性能,每次只选择两个分支中的一个模型,使用强化学习策略预测最终提议。在[21]中,通过图像分支中的2D检测提案产生多个3D盒子提案,然后模型输出最终的3D检测盒子及其检测分数。[67]使用一幅图像预测二维边界框和三维姿势参数,并利用相应区域的LiDAR点云进一步完善它。
有些工作不能简单地定义为上述的任何一种融合,因为它们在整个模型框架中拥有不止一种融合方法,例如深度融合和晚期融合的结合[39],而[77]将早期融合和深度融合结合在一起。这些方法在模型设计视图中存在冗余,而这并不是融合模块的主流。
近年来,用于自主驾驶中感知任务的多模态融合方法取得了快速的进展,从更先进的特征表示到更复杂的深度学习模型,不一而足[15, 81]。然而,仍有一些有待解决的问题。我们在此总结了一些未来需要完成的关键和必要的工作,分为以下几个方面。
目前的融合模型存在错位和信息损失的问题[13, 67, 98]。此外,扁平化的融合操作[20, 76]也阻碍了感知任务性能的进一步提高。我们把它们总结为两个方面。错位和信息损失,更合理的融合操作。
相机和LiDAR的内在和外在都有很大的不同。两种模式的数据都需要在新的坐标系下重新组织。传统的早期和深度融合方法利用一个外在的校准矩阵,将所有的LiDAR点直接投射到相应的像素上,或者反之[54, 69, 76]。然而,由于感觉噪声的存在,这种逐点校准不够准确。因此,我们可以看到,除了这种严格的对应关系外,一些利用周围信息作为补充的工作[90]会带来更好的性能。
此外,在输入和特征空间的转换过程中,还存在一些其他的信息损失。一般来说,降维的投影操作将不可避免地导致大量的信息损失,例如,将三维LiDAR点云映射到二维BEV图像。因此,通过将两种模式的数据映射到另一个专门为融合而设计的高维表示中,未来的工作可以有效地利用原始数据,减少信息损失。
目前的研究工作使用直观的方法来融合跨模式的数据,如串联和元素智慧乘法[69, 77]。这些简单的操作可能无法融合分布差异较大的数据,因此,很难缩小两种模式之间的语义差距。一些工作试图使用一个更精细的级联结构来融合数据并提高性能[12,46]。在未来的研究中,诸如双线性映射[3,25,38]等机制可以融合具有不同类型的特征。
前景的单帧是自主驾驶感知任务的典型场景[26]。然而,大多数框架利用有限的信息,没有精心设计的辅助任务来进一步理解驾驶场景。我们把它们总结为 "有更多潜在的有用信息和自我监督的表征学习"。
现有的方法[81]缺乏对多个维度和来源的信息的有效利用。他们中的大多数都集中在前视图的单帧多模态数据上。因此,其他有意义的信息没有得到充分的利用,如语义、空间和场景背景信息。
一些模型[20, 76, 90]试图使用从图像语义分割任务中获得的结果作为额外的特征,而另一些模型可能利用神经网络主干的中间层的特征,无论是否由特定的下游任务训练[46]。在自主驾驶场景中,许多具有明确语义信息的下游任务可能会大大有利于物体检测任务的性能。例如,车道检测可以直观地提供检测车道间车辆的额外帮助,而语义分割结果可以提高物体检测性能[20,76,90]。
因此,未来的研究可以通过各种下游任务,如检测车道,来共同建立一个完整的城市景观场景的语义理解框架。通过各种下游任务,如检测车道。交通灯和标志,以协助感知任务的表现。
此外,目前的感知任务主要依赖于单一的框架,忽略了时间信息。最近 基于LiDAR的方法[63]结合了一系列的帧来提高性能。提高性能。时间序列信息包含序列化的监督信号,它可以提供比使用单一的 比使用单一帧的方法更稳健的结果。因此,未来的工作可以更深入地挖掘利用 时间、背景和空间信息的连续帧的创新模型设计。
相互监督的信号自然存在于从相同的真实世界场景但不同角度采样的跨模式数据之间。然而,目前的方法无法挖掘每个模态之间的共同关系,因为缺乏对数据的深入理解。在未来,研究可以集中在如何利用多模态数据进行自我监督学习,包括预训练、微调或对比性学习。通过实施这些最先进的机制,融合模型将导致对数据的深入理解,并取得更好的结果,这在其他领域已经显示出一些有希望的迹象,同时为自主驾驶感知留下了空白[48]。
领域偏差和分辨率与现实世界的场景和传感器有很大关系。现实世界中的场景和传感器[26]。这些意想不到的缺陷阻碍了自动驾驶深度学习模型的大规模训练和实施,这需要在未来的工作中加以解决。
在自主驾驶的感知场景中,不同传感器提取的原始数据都伴随着严重的领域相关特征。不同的相机系统有其光学特性,而激光雷达可能从机械激光雷达到固态激光雷达不等。更重要的是,数据本身可能有领域偏见,如天气、季节或位置[6,71],即使它是由相同的传感器捕获的。因此,检测模型不能顺利地适应新的场景。这种缺陷阻碍了大规模数据集的收集和原始训练数据的再利用,因为泛化失败了。因此,在未来的工作中,找到一种方法来消除领域偏见并自适应地整合不同的数据源是至关重要的。
来自不同模式的传感器往往具有不同的分辨率[42, 100]。例如,LiDAR的空间密度明显低于图像的空间密度。无论采用何种投影方法,由于无法找到相应的关系,一些信息会被消除。这可能导致模型被某一特定模式的数据所主导,无论是由于特征向量的不同分辨率还是原始信息的不平衡。因此,未来的工作可以探索一种与不同空间分辨率的传感器兼容的新数据表示系统。
在本文中,我们回顾了50多篇关于自主驾驶感知任务的多模式传感器融合的相关论文。具体来说,我们首先提出了一种创新的方法,从融合的角度将这些论文分为三类,即更合理的分类法。然后,我们对LiDAR和相机的数据格式和表示方法进行了深入调查,并描述了不同的特征。最后,我们对多模态传感器融合的剩余问题进行了详细的分析,并介绍了几个新的可能方向,这可能对未来的研究工作有所启发。启迪未来的研究工作。
参考建议直接看作者论文:https://arxiv.org/pdf/2202.02703.pdf