原文地址:https://arxiv.org/pdf/1902.07830.pdf
Deep Multi-Modal Object Detection and Semantic
Segmentation for Autonomous Driving:
Datasets, Methods, and Challenges
深度学习推动了自动驾驶感知技术的最新进展。为了实现鲁棒和准确的场景理解,自动驾驶汽车通常配备不同的传感器(如相机、激光雷达、雷达),多种传感模式可以融合利用它们的互补特性。在此背景下,人们提出了许多解决深度多模态感知问题的方法。
然而,对于网络架构的设计,并没有通用的指导方针,关于“融合什么”、“何时融合”和“如何融合”的问题仍然没有定论。本文系统地总结了自动驾驶中深度多模态目标检测和语义分割的方法,并讨论了其面临的挑战。为此,我们首先概述了测试车辆上的车载传感器、开放数据集以及用于自动驾驶研究中的目标检测和语义分割的背景信息。然后我们总结了融合方法,并讨论了挑战和有待解决的问题。在附录中,我们提供了总结主题和方法的表格。
我们还提供一个交互式的在线平台来查看各种方法
https://boschresearch.github.io/multimodalperception/.
无人驾驶系统的三个指标
1 准确性 2 鲁棒性 3 实时性
在这篇文章里,我们重点关注基于多模态的物体识别和语义分割
在设计基于深度学习的多模态目标检测或语义分割的方法时,重要的是要考虑输入数据:是否有可用的多模态数据集以及数据如何标记(参见附录tab.IV)?这些数据集是否涵盖了不同的驾驶场景(参见第VI-A1节)?
这些数据是高质量的吗(参考VI-A2部分)?此外,在设计神经网络体系结构时,我们需要回答几个重要的问题:哪些模式应该通过融合组合,以及如何正确地表示和处理它们(“融合什么”参见VI-B1节)?哪些融合手术和方法可以使用(“如何融合”参见VI-B2节)?
哪个特征表示阶段最适合融合(“何时融合”参见VI-B2节)?
我们的综述文章试图通过总结新发布的数据集(2013-2019年)和自动驾驶深度多模态感知的融合方法,以及讨论剩余的挑战和未决问题,来给初学者提供一个参考。
我们首先在第二节提供多模态传感器、测试车辆和目标检测和语义分割中的现代深度学习方法的背景信息。然后我们分别在第三节和第四节中总结多模态数据集和感知问题。第五节总结了关于“融合什么”、“何时融合”和“如何融合”的融合方法。第六节讨论了在开发深度多模态感知系统以满足“准确性”、“鲁棒性”和“实时性”要求时面临的挑战和开放性问题,重点讨论了数据准备和融合方法。我们强调了数据多样性、时间和空间对齐的重要性,以及多模态数据准备的标记效率。我们还强调了雷达信号融合方面的研究不足,以及开发融合方法以解决开放数据集问题或增加网络鲁棒性的重要性。
第七节结束这项工作。
此外,我们提供了一个交互式的在线平台来展示论文里主题和方法,可以供读者参考。网址https://boschresearch.github.io/multimodalperception/。
本节提供了自动驾驶深度多模态感知的背景信息。首先,我们简要总结了典型的汽车传感器,它们的传感方式,以及一些用于测试和研究的车辆。接下来,我们介绍了深度目标检测和语义分割。由于深度学习最常应用于基于图像的信号,这里我们主要讨论基于图像的方法。我们将在V-A节介绍处理激光雷达和雷达数据的其他方法。对于更全面的对象检测和语义分割的概述,我们建议感兴趣的读者参阅评论文章[11],[12]。关于自动驾驶中的计算机视觉问题(如光流、场景重建、运动估计)的完整回顾,参见[9]
1)视觉和热成像相机:视觉和热成像相机捕捉到的图像可以提供车辆周围环境的详细纹理信息。视觉相机对光线和天气条件很敏感,热成像相机对白天/夜间的变化更敏感,因为它们能探测到与物体热量有关的红外辐射。然而,这两种类型的相机都不能直接提供深度信息。
2) lidar: lidar (Light Detection And Ranging)以三维点的形式给出周围环境的精确深度信息。它们测量了以一定频率发射的激光束的反射。激光雷达对不同的照明条件受影响较小,而且比视觉相机更少受到各种天气条件的影响,如雾和雨。
然而,典型的激光雷达无法捕捉到物体的精细纹理,且当物体距离较远时,激光雷达的点会变得稀疏。
flash激光雷达是近年来发展起来的一种可以产生类似相机图像的物体详细信息的激光雷达。调制连续波(FMCW)激光雷达可以提供速度信息。
3)radar:radar(无线电探测和测距)发射被障碍物反射的无线电波,测量信号运行时间,通过多普勒效应估计物体的径向速度。它们在各种光照和天气条件下都很鲁棒,但由于分辨率低,通过雷达对物体进行分类非常具有挑战性。radar在自适应巡航控制和交通拥堵辅助系统中有着广泛的应用。
4)超声波:超声波传感器发出高频声波来测量物体的距离。它们通常应用于近距离目标检测和低速场景,如自动停车[13]。由于其传感特性,超声波在很大程度上受空气湿度、温度或污垢的影响。
5)全球导航卫星系统(GNSS)和高清地图:全球导航卫星系统(GNSS)通过全球卫星系统和接收机提供精确的三维物体位置。GNSS的例子有GPS、Galileo和GLONASS。GNSS最初是作为驾驶员辅助功能中的导航工具引入汽车领域的,目前还与HD Maps一起用于路径规划和自动车辆的自我定位。
6) IMU和里程计:不像前面讨论的传感器捕捉外部环境信息(即“外感传感器”),惯性测量单元(IMU)和里程计提供车辆内部信息(即“本体感受传感器”)[13]。IMU测量车辆的加速度和转速,并对里程计进行测量。
自20世纪80年代以来,它们已被用于车辆动态驾驶控制系统。与外部感知传感器一起,它们目前被用于自动驾驶的精确定位。
在第二章a节中引入了多个传感器,已经进行了许多自动驾驶测试。例如,格子车队开发了一款名为“Boss”的自动驾驶汽车,并在2007年赢得了DARPA城市挑战赛(参见图3(a))[2]。该车辆配备了一个摄像头和几个雷达和激光雷达。谷歌(Waymo)已经在美国20多个城市测试了无人驾驶汽车,在公共道路上行驶了800万英里(参见图3(b)) [14];自2011年[15]以来,宝马(BMW)一直在慕尼黑附近的高速公路上测试自动驾驶;2013年,戴姆勒在一辆奔驰s级轿车上安装了一个立体摄像头、两个单声道摄像头和几个雷达,以便在伯莎奔驰的纪念路线上实现自动驾驶。我们的互动在线平台为更多的自动驾驶测试提供了详细的描述,包括Uber、英伟达、通用Cruise、百度Apollo以及他们的传感器设置。
除了驾驶演示,真实世界的数据集对自动驾驶研究也至关重要。在这方面,一些研究项目使用带有多模态传感器的数据车来构建开放的数据集。这些数据车通常配备摄像机、激光雷达和GPS/ imu来收集图像、3D点云和车辆定位信息。第三节概述了自动驾驶中的多模态数据集
语义分割的目标是将一个场景分割成几个有意义的部分,通常是用语义标记图像中的每个像素(像素级语义分割),或者同时检测对象并进行逐像素标记(实例级语义分割)。
最近,为了统一像素级和实例级的语义分割,提出了全景分割[47],而[48]-[50]则开始受到越来越多的关注。
虽然语义分割最早被引入到相机图像处理中,但也有很多方法被提出用于分割LiDAR点(如[51]-[56])。
许多数据集已经发布用于语义分割,如Cityscape[57]、KITTI[6]、Toronto City[58]、Mapillary远景[4]和ApolloScape[59]。这些数据集促进了自动驾驶语义分割的深度学习研究。例如,[54],[60],[61]专注于多类的像素语义分割,包括道路、汽车、自行车、立柱、树、天空等;[52]和[62]专注于道路分割;[51],[63],[64]处理不同流量参与者的实例分割。
与第II-C节中引入的对象检测相似,语义分割也可以分为two-stage and one-stage pipelines. 。在two-stage的pipelines中,首先生成区域提议,然后进行微调,主要用于实例级分割(如R-CNN [65], SDS [66], Mask-RCNN[63])。更常见的语义分割方法是基于Long等人[67]最初提出的全卷积网络(FCN)的单阶段管道。在这项工作中,预测分类分数的CNN分类器中的全连接层被卷积层取代,以产生粗糙的输出图。这些地图然后通过向后卷积(即反卷积)向上采样到密集的像素标签。
Kendall等人[61]通过引入编码器解码器CNN体系结构来扩展FCN。该编码器用于生成具有CNN主干(如VGG或ResNet)的分层图像表示(去除完全连接的层)。相反,解码器通过一组上采样层和卷积层将这些低维特征恢复到原始分辨率。最后将恢复的特征映射用于像素标记预测。
全局图像信息为语义分割提供了有用的上下文线索。然而,普通的CNN结构只关注局部信息,接受域有限。在这方面,人们提出了许多融合全局信息的方法,如扩张卷积[68]、[69]、多尺度预测[70],以及添加条件随机场(CRFs)作为后处理步骤[71]。
实时性能在自动驾驶应用中非常重要。然而,大多数的研究只关注分割的准确性。对此,Siam等人[72]从操作(GFLOPs)和推理速度(fps)两个方面对几种语义分词架构的实时性进行了比较研究。
大多数深度多模态感知方法都是基于监督学习的。因此,训练这种深度神经网络需要标记为ground-truth的多模态数据集。下面,我们总结了自2013年以来发布的几个真实世界的数据集,涉及传感器设置、记录条件、数据集大小和标签(参见标签页)。附录IV)。注意,存在一些由游戏引擎生成的虚拟多模态数据集。我们将在第六- a1节讨论这些问题。
所有审查的数据集包括RGB相机图像。另外,[6],[59],[73]-[88]提供LiDAR点云,[89]-[91]热成像。KAIST的多光谱数据集[92]提供了热图像和激光雷达数据。总线数据在[86]中被另外包含。只有最近的nuScenes[88]、Oxford Radar RobotCar[84]和Astyx HiRes2019数据集[93]提供雷达Radar数据。
尽管KITTI数据集[74]被广泛应用于自动驾驶研究,但其记录条件的多样性相对较低:它是在德国中型城市卡尔斯鲁厄(Karlsruhe)记录的,仅在白天和晴天记录。其他已审查的数据集如[59],[77],[78],[81],[86]-[88]记录在多个位置。为了增加光照条件的多样性,[59],[79]-[81],[81],[83],[85],[87]-[91]同时采集白天和夜间的数据,[92]考虑了全天的各种光照条件,包括日出、早晨、下午、日落、夜晚和黎明。
牛津数据集[73]和牛津雷达RobotCar数据集[84]是通过全年驾驶汽车在牛津地区进行采集的。它包含不同天气条件下的数据,如大雨、夜晚、阳光直射和雪。其他包含不同天气条件的数据集有[59],[85],[87],[88]。在[94]中,激光雷达作为生成地面真实的参考传感器,因此我们不认为它是多模态数据集。然而,记录条件的多样性很大,从黎明到夜晚,以及反射、雨水和镜头光晕。跨季节数据集[95]强调全年变化的重要性。但它只提供相机图像和标签进行语义分割。同样,视觉定位挑战和相应的基准[96]涵盖了天气和季节多样性(但没有引入新的多模态数据集)。最近的Eurocity数据集[87]是我们所回顾的最多样化的数据集。它在几个欧洲国家的不同城市都有记录。考虑到所有季节,以及天气和白天的多样性。到目前为止,该数据集只是相机和其他模式(如激光雷达)公布。
数据集的大小范围从只有1,569帧到超过1100万帧。目前出现的最大的带有地面真相标签的数据集是nuScenes数据集[88],有近1400万帧。与计算机视觉领域的图像数据集相比,多模态数据集仍然相对较小。数据集的大小在2014年至2019年间增长了两个数量级(参见图5(b))。
大多数综述的数据集都为2D对象检测和语义分割任务提供ground-truth标签[59],[74],[87],[89]-[92]。KITTI[74]还为各种计算机视觉问题标注跟踪、光流、视觉里程计和深度。BLV3D[79]提供了跟踪、交互和意图的标签。3D场景理解标签由[59],[74],[78]-[83],[88]提供。
根据数据集的焦点,对象被标记为不同的类。例如,[89]只包含人的标签,包括可区分的个体(标记为“person”)、不可区分的个体(标记为“people”)和骑自行车的人;[59]将对象分为5组,提供25个细粒度的标签,如卡车、三轮车、交通锥、垃圾桶等。Eurocity数据集[87]主要关注弱势道路使用者(主要是行人)。[76]提供了一个用于位置分类的数据集,而不是给对象贴标签。
场景分为森林、海岸、居民区、市区和室内外停车场。文献[77]为驾驶行为预测提供了车速和轮角。BLV3D数据集[79]为交互和意图提供了独特的标识。
对象类非常不平衡。图5(a)比较了来自4个被审查的数据集的汽车、个人和自行车类的百分比。标有“汽车”字样的物品比标有“人”或“骑自行车的人”的多得多。
在本节中,我们总结了基于感知模式和目标的自动驾驶的深度多模态感知问题。在本工作的附录中,我们展示了现有方法的概述。TabV,并对Tab中几种方法的精度和运行时间进行了比较Tab. II and Tab. III。
与第四节a中总结的对象检测问题相比,关于多模态语义分割的研究较少:[91],[118],[123]采用RGB和热图像,[60]融合RGB图像和深度图像从一个立体相机,[124],[126]结合RGB,热,和深度图像的语义分割在不同环境中如森林,[122]融合RGB图像和激光雷达点云越野地形分割和[127],[131]道路分割。除上述对二维图像平面进行语义分割的工作外,[124],[132]对LiDAR点进行三维分割。
当设计一个用于多模态感知的深度神经网络时,需要解决三个问题:融合什么:应该融合什么感知模式,以及如何以适当的方式表示和处理它们;如何融合:应采用何种融合手术;何时融合:在神经网络的特征表示的哪个阶段,应该将传感模式进行组合。在本节中,我们总结了基于这三个方面的现有方法。
在文献中,激光雷达和相机(视觉相机,热感相机)是最常用的多模态感知传感器。虽然人们对通过深度学习处理雷达信号的兴趣越来越大,但只有少数论文讨论了利用雷达进行深度多模态感知用于自动驾驶(如[133])。因此,我们将重点讨论几种方法分别表示和处理激光雷达点云和相机图像,并讨论如何将它们组合在一起。此外,我们简要总结了使用深度学习的雷达感知。
LiDAR点云提供了环境的深度和反射率信息。一个点的深度信息可以通过其笛卡尔坐标[x, y, z]、距离x^2 + y^2 + z^2、密度或HHA特征(水平视差,高度,角度)[65]或任何其他三维坐标系统进行编码。反射率信息由强度给出。
处理点云的方法主要有三种。一种方法是将3D空间离散成3D体素,并将点分配给体素(例如[29],[112],[134]-[136])。
这样可以保存驾驶环境丰富的三维形状信息。然而,由于激光雷达点的稀疏性和不规则性,该方法产生了大量的空体素。通过聚类(如[99],[105]-[107])或3D CNN(如[29],[135])处理稀疏数据通常非常耗时,对于在线自动驾驶来说是不可行的。
Zhou和Tuzel[134]提出了一种体素特征编码(voxel feature encoding, VFE)层,对LiDAR点进行有效处理,用于三维目标检测。他们报告在KITTI数据集上的推理时间为225毫秒。Yan等[137]在VFE后添加几个稀疏卷积层,将稀疏体素数据转换成二维图像,然后对其进行三维目标检测。与普通的卷积操作不同,稀疏卷积只在与输入点相关的位置上计算。通过这种方式,它们节省了大量的计算成本,推理时间仅为25毫秒。
第二种方法是在连续向量空间中直接学习三维激光雷达点,不需要体素化。PointNet[138]及其改进版本PointNet++[139]提出预测每个点的个体特征,并通过最大池化将多个点的特征进行聚合。该方法首先被引入到三维目标识别中,之后被Qi等[104]、Xu等[103]和Shin等[140]扩展到结合RGB图像进行三维目标检测。此外,Wang等人[141]提出了一种新的可学习算子参数连续卷积(Parametric Continuous Convolution),通过加权和来聚合点,Li等人[142]提出在将变换后的点云特征应用到标准CNN之前,先学习一个χ变换。它们在语义分割或激光雷达运动估计任务中进行测试。
第三种表示3D点云的方法是将它们投影到基于网格的2D特征地图上,这样它们就可以通过2D卷积层进行处理。接下来,我们区分了球面地图、摄像平面地图(CPM)和鸟瞰图(BEV)。图6展示了不同的二维激光雷达表示。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-88HqN38m-1642159904655)(C:\毕业设计\pic.PNG)]图6所示。RGB图像和不同的二维激光雷达表示方法。
(a)一个标准的RGB图像,用像素网格和颜色通道值表示。(b)由网格上的激光雷达测量数据获得的稀疏(前视)深度图。©插值深度图。(d)将测得的反射率值在网格上插补。(e)在球形地图上插值表示测得的激光雷达点(环绕视图)。(f)将测得的激光雷达点(正面)投影到鸟瞰图(无插值)。
将每个三维点投射到一个球体上,以方位角和天顶角为特征,就可以得到球形地图。
它的优点是可以以一种密集和紧凑的方式表示每个3D点,使其成为点云分割(如[51])的合适表示。然而,表示的大小可能与相机图像不同。因此,在早期很难进行融合。通过提供标定矩阵,将三维点投影到摄像机坐标系中,就可以得到CPM。CPM可以直接与相机图像融合,因为它们的大小相同。然而,这种表示方式留下了许多空白像素。因此,人们提出了许多方法对这样的稀疏特征图进行上采样,如mean average、nearest neighbors、bilateral filter。与上述在前视图中编码LiDAR信息的特征映射相比,BEV映射避免了因物体在映射中占据不同空间而导致的遮挡问题。
此外,BEV保留了对象的长度和宽度,并直接提供对象在地平面上的位置,使得定位任务更加容易。因此,BEV图被广泛应用于三维环境感知中。例如,Chen等[97]在BEV中利用高度、密度和强度图对点云进行编码。将点云分割成几片,得到高度图。密度图被计算为网格单元内的点数,通过通道数进行规范化。强度图直接代表了激光雷达在网格上测量的反射率。Lang等人[145]认为,用于BEV表示的硬编码特征可能不是最优的。他们建议通过PointNet学习LiDAR BEV表示的每一列的特征[138],并将这些可学习的特征映射提供给标准的2D卷积层。
文献中大多数方法使用的是视觉相机的RGB图像或热感相机的一种红外图像(近红外、中红外、远红外)。此外,还有一些作品提取了额外的传感信息,如光流[119]、深度[60]、[124]、[125],或其他多光谱图像[90]、[124]。
相机图像提供了丰富的驾驶环境纹理信息。然而,物体可以被遮挡,单个物体的尺度可以在相机图像平面上发生显著变化。对于三维环境推断,通常用于激光雷达点云的鸟瞰图可能是一个更好的表示。Roddick等人[146]提出了一种正交特征变换(OFT)算法,将RGB图像特征投影到BEV平面上。进一步对BEV特征图进行处理,从单目相机图像中检测出三维目标。Lv等[129]将对应LiDAR点的每个图像像素投影到BEV平面上,融合多模态特征进行道路分割。
Wang等[147]和他们的后续工作[148]提出了通过估计图像深度将RGB图像转换为伪激光雷达表示,然后使用最先进的BEV激光雷达探测器来显著提高检测性能。
Tab. V and Tab. VI。
附录VI总结了现有的深度多模态感知传感器信号的处理方法,主要是LiDAR点和相机图像。从表中我们可以观察到三个方面:(1)大多数的研究都提出了将二维卷积神经网络提取的激光雷达和相机特征进行融合。
为了做到这一点,他们将LiDAR点投影到2D平面上,并通过2D卷积处理特征图。利用PointNet提取LiDAR特征(如[103]、[104]、[127])或三维卷积(如[122]),这类文献并不是很多;
(2).多模态目标检测聚类和分割3D LiDAR点云的特征提取若干工作(如[99],[105],[107])。同时,还使用了激光雷达2D表示法来提取特征进行融合;
(3).一些论文将相机平面上的LiDAR点或RGB相机图像投影到LiDAR BEV平面上(如[129],[130],[149]),以对齐来自不同传感器的特征,而许多作品提出将LiDAR BEV特征直接与RGB相机图像融合(如[97],[102])。这表明网络隐式地学会了对齐不同视点的特征。因此,校准良好的传感器设置与精确的空间和时间对齐是精确多模态感知的先决条件,这将在VI-A2节中讨论。
本节总结如何在深度神经网络中融合信息。为了简单起见,我们将讨论限制在两种传感模式上。用Mi和Mj表示为两种不同的模态,fiMi和fiMj用来表示它们在神经网络第l层的特征映射。将Gl(·)表示为应用于神经网络l层的特征变换的数学描述。
1)Addition or Average Mean累加或平均:这个连接操作以元素的方式添加特征映射,例如
或计算特征图的平均值。
2)Concatenation:拼接:用 fi=来连接特征矩阵。在特征图被推进到一个卷积层之前,它们通常是沿着它们的深度堆叠的。对于完全连通的层,这些特征通常被压平成向量,并沿着特征图的行连接。
3 Ensemble集成:该操作集成来自不同传感模式的特征映射
正如将在以下章节中介绍的(V-C4和V-C5),集成经常用于融合目标检测网络中的roi。
4)Mixture of Experts MOE:上述融合操作没有考虑到感知模式的信息量(例如,在夜间RGB相机图像带来的信息少于LiDAR点)。应用这些操作,希望网络能够隐式学习对特征图进行加权。
相比之下,Mixture of Experts(MoE)方法明确地为特征图的权重建模。它首先在[158]中被引入神经网络,然后在[119],[125],[159]中得到扩展。如图7所示,感知模态的特征图由其称为“expert”的领域特定网络处理。然后,将多个expert网络的输出用一个gating网络预测的加权w^Mi, w^M j求平均,gating网络将expert网络输出的组合特征作为输入h,通过拼接等简单的融合操作:
深度神经网络分层地表示特征,并在早期、中期或晚期提供了广泛的选择来组合感知模式(图8)。在后续文章中,我们详细讨论了早期、中期和晚期融合。对于每个融合方案,我们首先用与V-B节相同的符号给出数学描述,然后讨论它们的性质。值得注意的是,在深度神经网络中,有一些研究融合了早期到后期的特征(如[160])。为简单起见,我们将这种融合方案归类为“中间融合”。与FCN在不同阶段融合多模态特征的语义分割相比,在目标检测中存在更多不同的网络结构和融合变体。因此,我们进一步总结了针对目标检测问题的融合方法。最后,讨论了融合操作与融合方案之间的关系。
值得注意的是,我们没有从我们所回顾的方法中发现结论性证据,其中一种融合方法比其他方法更好。其性能高度依赖于传感模式、数据和网络架构。
图8。早期融合、晚期融合和几种中间融合方法
1) 早期融合:该方法融合原始或预处理的传感器数据。让我们定义
f l = f l − 1 M i ⊕ f l − 1 M j fl=fl-1^Mi⊕ fl-1 ^ Mj fl=fl−1Mi⊕fl−1Mj
j作为第节中介绍的融合操作。V-B.对于具有L+1层的网络,早期融合方案可描述为:
其中l=[1,2,··,L]。早期融合有几个优点和缺点。首先,网络在早期阶段学习多种模式的联合特征,充分利用原始数据的信息。第二,早期融合具有较低的计算要求和较低的内存预算,因为它联合处理多种传感模式。这带来了模型不灵活的代价。例如,当用新的传感模态替换输入或扩展输入信道时,需要完全重新训练早期融合网络。第三,早期融合对由校准误差、不同采样率和传感器缺陷引起的传感器之间的时空数据失准非常敏感。
2) 后期融合:该融合方案结合了传感模态的每个领域特定网络的决策输出。
它可以被描述为:
后期融合具有很高的灵活性和模块性。当引入一种新的传感模式时,只需要对其特定领域的网络进行训练,而不影响其他网络。
然而,它的计算成本和内存需求很高。此外,它丢弃了丰富的中间特征,这些特征在融合时可能非常有用。
3) 中间融合:中间融合是早期融合和晚期融合的折衷:它结合了中间层不同传感模式的特征表示。这使得网络能够在不同的深度学习具有不同特征表示的跨模态。将l*
定义为中间特征开始融合的层。
中间融合只能在该层执行一次,或者,它们可以分层融合,例如通过深度融合[97],[161]:
尽管中间融合方法具有高度灵活性,但在特定的网络体系结构下,要找到融合中间层的“最佳”方法并不容易。我们将在第二节详细讨论这一挑战。
4) 目标检测网络中的融合:现代多模目标检测网络通常遵循两级管道(RCNN[35]、Fast RCNN[37]、FasterRCNN[41])或一级管道(YLO[44]和SSD[45]),如第节所述。II-C。这为网络融合提供了多种选择。例如,传感模式可以融合,以生成两级目标探测器的区域方案。每个方案的区域多模态特征也可以融合。
Ku等人[102]提出了AVOD,这是一种目标检测网络,将RGB图像和LiDAR BEV图像融合在区域建议网络和报头网络中。Kim和Ghosh[108]分别集成了由激光雷达深度图像和RGB图像生成的区域方案。然后将联合区域方案反馈给卷积网络,用于最终目标检测。Chen等人[97]使用激光雷达BEV地图生成区域方案。对于每个ROI,通过深度融合,将来自LiDAR BEV地图的区域特征与来自LiDAR前视图地图以及相机图像的区域特征进行融合。与激光雷达点云目标检测相比,摄像机图像具有更大的标记数据集和更好的二维检测性能。
因此,在进行相机激光雷达融合时,利用训练过的图像探测器的预测是很简单的。在这方面,[103]、[104]、[106]建议利用预先训练好的图像检测器生成二维边界框,在激光雷达点云中构建平截头体。然后,他们在平截头体中使用这些点云进行三维对象检测。图9示出了用于两级对象检测网络的一些示例性融合架构。标签。附录V总结了多模态目标检测的方法。
5) 融合操作和融合方案:根据我们回顾的文献,特征拼接是最常见的操作,尤其是在早期和中期阶段。元素平均和加法运算额外用于中间融合。集成和混合专家通常用于中决策级融合。
正如导言(参见第1节)中所述,开发深度多模态感知系统对于自主驾驶尤其具有挑战性,因为它对准确性、鲁棒性和实时性能有很高的要求。来自目标检测或语义分割的预测通常被转移到其他模块,如机动预测和决策。可靠的感知系统是无人驾驶汽车在不受控制和复杂驾驶环境中安全运行的先决条件。以秒计。第三和第二节。我们总结了多模态数据集和融合方法。相应地,在本节中,我们将讨论多模式数据准备和网络架构设计的剩余挑战和开放性问题。我们关注如何在保证实时性能的同时提高多模态感知系统的准确性和鲁棒性。
我们还讨论了一些开放性问题,如评估指标和网络架构设计。标签。我总结了挑战和开放性问题。
1) 数据多样性:在复杂任务上训练深度神经网络需要大量数据。因此,使用具有不同驾驶条件、对象标签和传感器的大型多模态数据集可以显著提高网络的准确性和对变化环境的鲁棒性。然而,由于成本和时间限制以及硬件限制,获取真实世界的数据并非易事。开放式多模态数据集的大小通常比图像数据集的大小小得多。相比之下,KITTI[6]只记录了80256个对象,而ImageNet[162]提供了1034908个样本。此外,数据集通常记录在有限的驾驶场景、天气条件和传感器设置中(更多详细信息见第三节)。物体的分布也非常不平衡,标记为汽车的物体比标记为人或骑自行车的物体多得多(图5)。因此,使用这些公共数据集训练的深度多模态感知系统在部署到非结构化环境中时的性能值得怀疑。
克服这些限制的一种方法是通过模拟增加数据。事实上,最近的一项研究[163]指出,KITTI数据集中目标检测的最大性能增益是由于数据增加,而不是网络架构的进步。Pfeuffer和Dietmayer[110]以及Kim等人[109]通过向KITTI数据集添加人工空白区域、光照变化、遮挡、随机噪声等来构建增强训练数据集。数据集用于模拟各种驾驶环境变化和传感器退化。结果表明,使用这些数据集训练后,网络的准确性和鲁棒性都得到了提高。其他一些工作的目标是开发虚拟模拟器,以生成不同的驾驶条件,特别是一些危险场景,在这些场景中,收集真实世界的数据非常昂贵或几乎不可能。Gaidon等人[164]使用Unity游戏引擎,通过对原始KITTI数据集引入从实到虚的克隆方法,构建了一个虚拟KITTI数据集。
其他作品[165]–[170]纯粹从游戏引擎(如GTA-V)生成虚拟数据集,而不使用真实世界数据集的代理。Griffiths和Boehm[171]创建了一个纯虚拟激光雷达数据集。此外,Dosovitskiy等人[172]开发了一个开源模拟器,可以模拟自动驾驶中的多个传感器,Hull等人[173]发布了一个包含激光雷达数据和可视摄像头的大规模虚拟多模式数据集。尽管有许多可用的虚拟数据集,但模拟器在哪些方面可以表示真实世界的现象仍然是一个悬而未决的问题。开发更真实的模拟器并找到将真实数据和虚拟数据相结合的最佳方式是重要的开放性问题。
克服开放数据集局限性的另一种方法是提高数据标记的效率。在构建多模态训练数据集时,驾驶测试车辆和收集大量数据样本相对容易。然而,对它们进行标记非常繁琐和耗时,尤其是在处理三维标记和激光雷达点时。
Lee等人[174]开发了一种协作式混合标记工具,其中3D激光雷达点云首先由人类注释器进行弱标记,然后由基于F点网的预训练网络进行微调[104]。他们报告说,标记工具可以显著降低“任务复杂性”和“任务切换”,并具有30倍的标记速度(图10(a))。Piewak等人[132]利用预先训练好的图像分割网络来标记激光雷达点云,无需人工干预。该方法通过使用图像像素标注每个激光雷达点,并将预训练网络预测的图像语义传输到相应的激光雷达点(参见图10(b))。在另一项工作中,Mei等人[175]提出了一种半监督学习方法来进行3D点分割标记。只需几个手动标签以及相邻数据帧之间的成对空间约束,就可以标记许多对象。有几项工作[176]–[178]建议在语义分割或自动驾驶的目标检测中引入主动学习。网络迭代地向人工注释器查询未标记数据池中信息量最大的样本,然后更新网络的权重。这样,在达到相同性能和节省人工标记工作的同时,所需的标记训练数据要少得多。机器学习文献中还有许多其他方法旨在减少数据标记工作,如转移学习[179]、领域适应[180]–[184]和半监督学习[185]。如何在自主驾驶中有效地标记多模态数据是一项重要且具有挑战性的未来工作,特别是在不同传感器的信号可能不匹配的情况下(例如,由于距离的原因,一些物体只能通过视觉摄像机看到,而不能通过激光雷达看到)。最后,由于总是会有不同于培训数据的新驾驶场景,因此利用 leverage lifelong learning[186]不断收集数据来更新多模态感知网络是一个有趣的研究课题。
2) 数据质量和一致性:除了数据多样性和训练数据集的大小外,数据质量还显著影响深度多模态感知系统的性能。训练数据通常由人工标注,以确保较高的标注质量。然而,人类也容易犯错误。图11示出了当训练对象检测网络时在标记过程中的两个不同错误。
当标记错误随机分布时,与使用确定性预标记产生的偏差标记相比,该网络对标记错误具有更强的鲁棒性。[187]–[190]进一步研究了带有错误标签的培训网络。[191],[192]研究了弱标签或错误标签对基于深度学习的语义切分性能的影响。在[193],[194]中讨论了标签误差对目标检测精度的影响。
校准良好的传感器是多模态感知系统精确和鲁棒的先决条件。然而,传感器设置通常并不完美。在记录训练数据或部署感知模块时,可能会出现时间和空间感知偏差。这可能会导致训练数据集出现严重错误,并降低网络性能,尤其是那些设计用于隐含学习传感器对准的网络(例如,融合激光雷达BEV特征地图和前视摄像头图像的网络,参见第V-A3节)。有趣的是,有几项工作建议使用深度神经网络校准传感器:Giering等人[196]将激光雷达和视觉摄像机之间的空间偏差离散为九类,并以激光雷达和RGB图像为输入构建一个网络来分类偏差;Schneider等人[197]建议通过深入学习,全面回归激光雷达和视觉摄像机之间的外部校准参数。在不同的去校准范围上训练多模态CNN网络,以迭代地细化校准输出。通过这种方式,可以以端到端的方式解决传感器配准的特征提取、特征匹配和全局优化问题。
大多数经过审查的方法将RGB图像与热图像或激光雷达3D点相结合。网络在开放数据集(如KITTI[6]和KAIST Peander[92])上进行训练和评估。这些方法并不特别关注传感器冗余,例如,在无人驾驶汽车上安装多个摄像头以提高感知系统的可靠性,即使某些传感器存在缺陷。
如何融合来自多个传感器的传感信息(例如来自多个摄像头的RGB图像)是一个重要的开放性问题。
另一个挑战是,如何在将不同的传感模式送入融合网络之前适当地表示和处理它们。例如,存在许多表示激光雷达点云的方法,包括3D体素、2D BEV贴图、球形贴图以及稀疏或密集深度贴图(更多详细信息请参阅第V-A节)。然而,只有Pfeuffer和Dietmayer[110]研究了几种激光雷达前视图表示的优缺点。我们期待更多的工作来比较不同的三维点表示方法。
此外,很少有研究将激光雷达和相机输出与雷达、超声波或V2X通信等其他来源的信号进行融合。雷达数据不同于激光雷达数据,需要不同的网络结构和融合方案。到目前为止,我们还没有发现任何将超声波传感器信号融合到深度多模态感知中的工作,尽管它与低速场景相关。如何融合这些传感模式并在时间和空间上对其进行调整是一大挑战。
最后,将物理约束和基于模型的方法与数据驱动的神经网络相结合是一个有趣的话题。例如,Ramos等人[198]建议在贝叶斯框架中融合语义和几何线索,以检测意外对象。语义由FCN网络预测,而几何线索由基于模型的立体检测提供。多任务学习方案也有助于在神经网络中添加物理约束。例如,为了帮助完成3D目标检测任务,Liang等人[115]设计了一个融合网络,该网络可以额外估计激光雷达地平面和相机图像深度。地平面估计为目标位置提供了有用的线索,而图像深度完成有助于更好的跨模态表示;全景分割[47]旨在通过联合进行语义分割和实例分割来实现完整的场景理解。
明确建模每个传感模态的不确定性或信息性对于安全自主驾驶非常重要。例如,多模式感知系统应在恶劣天气下显示更高的不确定性,或检测到看不见的驾驶环境(开放世界问题)。它还应反映传感器的退化或缺陷。感知不确定性需要传播到其他模块,如运动规划[199],以便自动驾驶车辆能够相应地运行。可靠的不确定性估计可以显示网络的鲁棒性(参见图12)。然而,大多数经过审查的论文仅通过简单操作(例如,加法和平均值,参见第V-B节)融合多种传感模式。这些方法旨在实现高平均精度(AP),而不考虑网络的鲁棒性。Bijelic et al.[111]最近的工作使用dropout来增强雾图像中的网络鲁棒性。具体来说,他们在不同的融合层中添加像素级的衰减遮罩,以便网络在训练期间随机衰减激光雷达或相机通道。尽管对于雾天的探测结果很有希望,但由于传感器输入失真,他们的方法无法表示哪种传感模式更可靠。据我们所知,只有门控网络(参见第V-B节)明确地模拟了每个传感模态的信息量。
估计不确定性和提高网络鲁棒性的一种方法是贝叶斯神经网络(BNNs)。他们假设网络权重的先验分布,并推断后验分布以提取预测概率[200]。
BNNs可以模拟两种类型的不确定性。
认知不确定性说明了模型在描述训练数据集时的不确定性。可通过以下方式获得:
估计不确定性和提高网络鲁棒性的一种方法是贝叶斯神经网络(BNNs)。他们假设网络权重的先验分布,并推断后验分布以提取预测概率[200]。
BNNs可以模拟两种类型的不确定性。
认知不确定性说明了模型在描述训练数据集时的不确定性。可通过变分推理[201]、抽样[202]–[204]、批量归一化[205]或噪声注入[206]估计后验权重来获得。它已被应用于语义分割[207]和开放世界目标检测问题[208],[209]。任意不确定性表示传感器固有的观测噪声。它可以通过观测似然估计,如高斯分布或拉普拉斯分布。Kendall和Gal[210]研究语义切分的不确定性;Ilg等人[211]建议提取光流的不确定性;Feng等人[212]研究了用于自主驾驶的激光雷达车辆检测网络中的认知和任意不确定性。它们表明,不确定性编码了非常不同的信息。在后续工作中,[213]在3D目标检测网络中采用任意不确定性,以显著提高其检测性能并增强其对噪声数据的鲁棒性。
在目标探测器中引入任意不确定性的其他工作包括[214]–[217]。虽然BNN已经取得了很大的进展,但据我们所知,到目前为止,它们还没有被引入到多模态感知中。此外,将目标检测器和语义分割网络中的不确定性传播到其他模块(如跟踪和运动规划)的工作还很少。如何利用这些不确定性来提高自主驾驶系统的鲁棒性是一个具有挑战性的开放性问题。
另一种增强网络鲁棒性的方法是生成模型。一般来说,生成模型旨在以无监督的方式对数据分布进行建模,并生成具有某些变化的新样本。变分自动编码器(VAE)[218]和生成对抗网络(GAN)[219]是两种最流行的深层生成模型。它们已被广泛应用于图像分析[220]-[222],最近被引入到自动驾驶的雷达数据模型[223]和道路检测[224]中。
生成模型对于多模态感知问题是有用的。例如,当在现实世界中收集繁琐且困难时,它们可能会生成带标签的模拟传感器数据;它们还可以用于检测传感器存在缺陷或自动驾驶汽车行驶到与训练期间不同的新场景的情况。为深层生成模型设计特定的融合操作是一个有趣的开放性问题。