自动驾驶中图像与点云融合的深度学习研究综述

Deep Learning for Image and Point Cloud Fusion
in Autonomous Driving: A Review

IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTA TION SYSTEMS

摘要

在过去的几年中,自动驾驶汽车得到了迅速的发展。然而,由于复杂和动态的驾驶环境,实现完全自主并不是一件轻而易举的事情。因此,自动驾驶汽车配备了一套不同的传感器,以确保强大,准确的环境感知。尤其是,摄像融合技术正在成为一个新兴的研究主题。然而,到目前为止,还没有批评性的评论,重点放在深层相机激光雷达融合方法。为了弥补这一差距,激励未来的研究,本文致力于回顾最近的基于深度学习的数据融合方法,利用图像和点云。本文简要回顾了深度学习在图像和点云数据处理方面的研究进展。然后深入评述了基于各自融合水平的摄像机-激光雷达融合方法的深度完成、目标检测分割、语义分割、跟踪和在线交叉传感器标定。此外,我们比较了这些方法在公开可用的数据集。最后,我们确定了当前学术研究和现实应用之间的差距和被忽视的挑战。基于这些观察,我们提供了我们的见解,并指出了有希望的研究方向

索引术语

相机-激光雷达融合、传感器融合、深度完成、目标检测、语义分割、跟踪、深度学习

引言

深度学习和传感器技术的突破,推动了自主驾驶技术的快速发展改善道路安全、交通效率及个人行动[1]-[3]。然而,技术挑战和外接收传感器的成本限制了当前自动驾驶系统在受限和受控环境中的应用。一个关键的挑战是获得一个充分准确的理解,车辆的三维周围环境的实时。为此,利用具有互补特性的多种传感器来提高感知能力和降低成本的传感器融合已成为一个新兴的研究主题。

特别是最近的深度学习技术的进步显著地改善了摄像机-激光雷达融合算法的性能。相机和激光雷达具有互补的特性,使得相机-激光雷达融合模型与其他传感器融合配置(雷达相机、激光雷达雷达等)相比更加有效和流行。更具体地说,基于视觉的感知系统以低成本获得令人满意的性能,往往优于人类专家[4] ,[5]。然而,单摄像机感知系统不能提供可靠的三维几何图形,这对于自动驾驶是必不可少的[6] ,[7]。另一方面,立体摄像机可以提供3d 几何图形,但是这样做的代价是高计算成本和在高遮挡和无纹理的环境中挣扎[8]-[10]。此外,相机基础感知系统与复杂或恶劣的光照条件作斗争,这限制了它们的全天候能力[11]。相反,激光雷达可以提供高精度的三维几何图形,并且对环境光具有不变性。然而,移动激光雷达受到低分辨率(16至128个频道)、低刷新率(10赫兹)、恶劣天气条件(大雨、雾和雪)和高成本的限制。为了减轻这些挑战,许多工作结合这两个互补的传感器,并证明了显着的性能优势比一个模态方法。因此,本文重点评述了当前用于相机-激光雷达融合的深度学习融合策略。

摄像机和激光雷达的融合可不是件小事。首先,摄像机通过投影到图像平面来记录真实世界,而点云保留了三维几何形状。在数据结构上,点云具有不规则性、无序性和连续性,而图像具有规则性、有序性和离散性。点云与图像的这些特征差异导致了不同的特征提取方法。在图1中,一个比较图像特征和点特征之间的关系。

此前对多模态数据融合的深度学习方法的评论涵盖了广泛的传感器,包括雷达、照相机、激光雷达、超声波、 imu、里程计、 gnss 和 hd 地图。本文的重点只是相机-激光雷达融合,因此能够提出更详细的评论,对个别的方法。此外,我们还涵盖了更广泛的感知相关主题(深度补全、动态和静态目标检测、语义分割、跟踪和在线交叉传感器校准) ,这些主题是相互关联的,在以前的评论中没有完全包括。本文的贡献概括如下:

  1. 据我们所知,本文是第一篇关于自主驾驶中基于深度学习的图像和点云融合方法的综述,包括深度补全、动态和静态目标检测、语义分割、跟踪和在线交叉传感器校准。

  2. 这篇文章组织和回顾了基于他们的融合方法的方法。此外,本文介绍了最新的(2014-2020)综述和性能比较的国家的最先进的相机激光雷达融合方法

  3. 本文提出了一些被忽略的开放性问题,比如开放集检测和传感器不可知框架,这些对于自动驾驶技术的现实部署至关重要。此外,还对开放挑战的发展趋势和可能的研究方向进行了总结。

本文首先在第二部分对图像和点云数据的深度学习方法进行了简要的概述。第三至第八节分别介绍了基于相机激光雷达的深度完成、动态目标检测、静止目标检测、语义分割、目标跟踪和在线传感器标定。趋势,开放的挑战和有希望的方向讨论在第七部分。最后,总结在第八部分。图二列出这项统计调查的整体结构及相关专题。

简要回顾一下深入研究

A. 对形象的深入学习

卷积神经网络是一种有效的图像深度学习模型处理和理解。与多层感知器(mlp)相比,cnn 具有平移不变性,权值较小,利用层次模式,提高了图像语义提取的效率。Cnn 的隐藏层由层次结构的卷积层、批量标准化层、激活层和池层组成,这些层是经过训练的端到端的。这种层次结构通过增加抽象层次和接受域来提取图像特征,从而实现高层次的语义学习

B. 点云深度学习

点云是一组数据点,是激光雷达对被探测物体表面的测量。在数据结构上,点云具有稀疏性、不规则性、无序性和连续性等特点。点云以三维结构和点特征(反射强度、颜色、正常等)编码信息,具有尺度不变性、刚性变换和排列不变性。这些特征使得点云特征提取对现有的深度学习模型具有挑战性,这需要修改现有的模型或开发新的模型。因此,本节重点介绍点云处理的常用方法。

  • 1)基于 v olumetric 表示法: 体表示法将点云分割成固定分辨率的3d 网格,每个网格/体素的特征都是手工制作或学习的。这个表示符合标准的3d 卷积[14]-[16]。在文献[17]中已经提出了一些技术来减少过接头,方向敏感性和捕获物体的内部结构。然而,在体素化过程中,体表示失去了空间分辨率和细粒度的三维几何图形,从而限制了它的性能。此外,试图提高其空间分辨率(密集体素)将导致计算和内存占用立体增长,使其不可伸缩

  • 2)基于索引/树表示: 为了缓解高空间分辨率与计算代价之间的约束,提出了利用 kd-tree [18]、[19]、 octree [20]-[22]等树型数据结构的自适应分辨率划分方法。通过将点云划分为一系列不平衡树,根据点密度对区域进行分割。这使得点密度较低的区域具有较低的分辨率,从而减少了不必要的计算和内存占用。结合预先建立的树状结构提取点特征。

  • 3)基于二维视图表示的方法: 将点云投影到多个二维视图平面,生成二维视图/多视图。这些渲染的多视图图像可以通过标准的2d 卷积进行处理,这些视图的特性通过视图池层进行聚合[23]。该算法通过将点云图像转换为图像来解决置换不变性问题,并通过聚合不同视图的特征来实现平移不变性。结合了体表示和通过球体渲染生成的多视图。不幸的是,2d 视图方法在视图渲染过程中丢失了3d 几何信息,并且与逐点标记预测(per-point label prediction)作斗争[19]。

  • 4)基于图的表示: 点云可以表示为图,并且类卷积运算可以在空间域或谱域中的图上实现。对于空间域的图卷积,由 mlps 对空间相邻点进行操作。谱域图-卷积扩展卷积作为对图的拉普拉斯谱[27]-[29]。

  • 5)基于点表示的方法: 基于点表示的方法消耗点云,而不将其转换为中间数据表示。这方面的早期工作使用共享的多层感知器(mlps)来处理点云[30] ,[31] ,而最近的工作则集中于为点[32]-[38]定义专门的卷积操作。

在点云上直接学习的开创性工作之一是 pointnet [30] ,[31] ,它使用一个独立的 t-net 模块来对齐点云和共享 mlps 来处理每个点的特征提取。点网的计算复杂度随着输入数量的线性增加,使得它比基于容量的方法更具可伸缩性。为了实现置换不变性,通过对所有点都相同的共享 mlps 提取点特征。这些特性通过对称操作(即 max-pooling)聚合,这些操作也是置换不变的。Pointnet 的特征提取过程定义为:

在表示输入点的情况下,hmr 表示每点特征提取函数(即共享 mlps) ,fsymmr 表示对称函数(即 max-polling) ,而 gis 表示我们想要近似的一般函数

然而,pointnet 没有在不同的层次提取局部点间几何图形。为了缓解这一挑战,qiet al. [30]扩展了顶点网,通过将点分组为多个集合并在本地应用顶点网,从不同的级别提取特征。为了降低 pointnet [30]的计算量和内存开销,randla-net [39]将随机点采样模块和基于注意力的局部特征聚合模块分层叠加,逐步增加感受域,同时保持较高的效率。

与基于点网的方法不同,点之间的空间关系在点卷积中显式建模。点卷积的目的是将标准的二维离散卷积推广到连续的三维空间。主要的挑战是更换离散加权过滤器具有连续权函数的标准卷积。这个连续权函数是近似使用 mlps 在 pointconv [40]和相关函数 kpconv [38]和 pcnn [33]。更具体地说,pcnn [33]将卷积内核定义为带权重的3d 点。一个高斯相关函数(量子场论) ,取得核心点和输入点的坐标,用来计算在任何给定的三维坐标加权矩阵。Kpconv [38]遵循这一思想,但使用了线性相关函数(量子场论)。此外,kpconv [38]被层次化地应用于局部点补丁,这类似于标准 cnns 的概念。定义了三维连续空间中一个广义点卷积输入点 x ∈ r3d

给定输入点和核点的坐标,计算加权矩阵的逐点核函数是 x 的邻近点及其对应的特征(亮度、颜色等)。Nxare 所有相邻点的输入点 x,这是确定使用 knn 或半径邻居



深度完成

深度完成的目的是将稀疏的不规则深度提高到稠密的规则深度,从而有利于下游感知模块的建立。深度完成可以减少激光雷达扫描中点的剧烈不均匀分布。例如,由一手掌满点表示的远距离物体被上取样以匹配它们的近距离对应物。为了达到这个目的,经常使用高分辨率图像来引导三维深度上采样。深度完成任务可以表示为:

其中网络 f (.)参数化的 w,预测地面真实度 g,给定输入,损失函数表示为 asl (,)

图3给出了深度完成模型的时间线和相应的融合级别。表一列出了基提深度完井基准[41]上深度完井模型的比较结果

A. 单摄像机和激光雷达融合

图像引导深度完成背后的思想是,密集的 rgb/颜色信息包含相关的3d 几何。图像引导深度完成背后的思想是,密集的 rgb/颜色信息包含相关的3d 几何。

  • 1)信号级融合: 在2018年,ma 和 karaman 提出了一种基于资源网络的自动编码器网络,利用 rgb-d 图像(即连接稀疏深度图像)来预测稠密深度图。然而,这种方法需要像素级深度地面真实度,这是很难获得的。为了解决这个问题,maet al. [43]提出了一个基于模型的自监督框架,只需要一系列的图像和稀疏的深度图像进行训练。这种自监控是通过采用稀疏深度约束,光度损失和平滑损失来实现的。然而,这种方法假设物体是静止的。此外,由此产生的深度输出是模糊的,输入深度可能无法保留。

    为了实时生成一个锐利的稠密深度图,chenget al [44]将 rgb-d 图像提供给卷积空间传播网络(cspn)。该 cspn 的目的是直接提取图像相关的亲和矩阵,在关键测量中产生更好的结果,较少的运行时间。在 cspn 中,chenget al [45]提出动态选择卷积核大小和迭代来减少计算量。此外,cspn 采用加权装配来提高其性能。

  • 2)特征级融合: jaritzet al. [46]提出了一种自动编码器网络,可以在不使用有效性掩码的情况下,对稀疏的深度图和图像进行深度补全或语义分割。图像和稀疏深度图首先由两个并行 nasnet 编码器处理,然后融合到共享解码器中。这种方法可以在非常稀疏的情况下获得良好的性能

    深度输入(8通道激光雷达)。Wanget al [54]设计了一个可积模块(pnp) ,利用稀疏深度图改进现有基于图像的深度预测网络的性能。这个 pnp 模块利用从稀疏深度计算出的梯度来更新现有深度预测网络生成的中间特征图。Eldesokeyet al [47]提出了一个非制导深度补全框架,该框架并行处理图像和非常稀疏的深度图,并将它们组合在一个共享解码器中。此外,规范化卷积被用来处理高度稀疏的深度和传播置信度。Valadaet al. [55]将一阶段特征级融合扩展到网络深度不同的多阶段。同样,guidenet [48]在编码器的不同阶段将图像特征融合到稀疏深度特征中,引导稀疏深度的上采样,从而在 kitti 深度完成基准测试中获得最佳性能。这些方法的限制是缺乏大规模的数据集,具有密集的深度地面真相

  • 3)多级融合: v an gansbekeet al. [49]进一步将信号级融合和特征级融合结合在一个图像制导的深度完成网络中。该网络由一个全局和一个局部分支组成,并行处理 rgb-d 数据和深度数据,然后根据置信度图将它们融合

B. 立体摄像机和激光雷达融合

与 rgb 图像相比,立体摄像机的高密度视差,包含了更丰富的地面真实三维几何。另一方面,激光雷达深度虽然稀疏,但精度较高。这些互补的特点使立体激光雷达融合的基础上完成深度模型产生更准确的密集深度。然而,值得注意的是,立体声摄像机在高遮挡、无纹理的环境中,范围有限,难以实现自动驾驶,这使得它们不那么理想

1)特征级融合: 其中一个开创性的工作是 parket al. [9] ,其中高精度的稠密视差图是由稠密的立体视差和点云计算使用两级 cnn。第一阶段的 cnn 采用激光雷达和立体声视差产生一个融合的视差。在第二阶段,这个融合了视差和左边

在特征空间中融合 rgb 图像,预测最终的高精度视差。最后,根据这个高精度的视差重建三维场景。这种方法的瓶颈是缺乏大规模带注释的立体激光雷达数据集。Lidarstereonet [50]通过一个非监督式学习方案避免了这一困难,该方案使用了图像翘曲/光度损失、稀疏深度损失、平滑损失和端到端训练的平面拟合损失。此外,“反馈回路”的引入使得立体声立体声网络对噪声点云和传感器失准具有鲁棒性。同样,zhanget al. [51]提出了一个深度完备的自监督方案。损失函数包括稀疏深度、光度和平滑度损失

动态物体检测

3 d 目标检测的目标是在3 d 空间中定位、分类和估计定向的包围盒。这个部分致力于动态目标检测,其中包括常见的动态道路物体(汽车、行人、骑自行车的人等)。目标检测有两种主要方法: 顺序式和单步式。基于序列的模型包括一个提案阶段和一个按时间顺序排列的三维包围盒(bbox)回归阶段。在建议阶段,提出可能包含感兴趣对象的区域。在 bbox 回归阶段,根据从三维几何中提取的区域特征对这些方案进行分类。然而,序贯融合的性能受到每个阶段的限制。另一方面,一步模型由一个阶段组成,其中二维和三维数据以并行的方式处理

3 d 目标检测网络的时间线和典型的模型结构如图4和5所示。表二列出三维目标检测模型的比较结果基于 kitti 3 d 目标检测基准[56]。表三汇总并比较了动态目标检测模型

A. 基于提案的连续模型

提出了一种基于二维提案的顺序模型,该模型利用现有的图像处理模型,在提案阶段利用二维图像语义。具体来说,这些方法利用图像对象检测器生成二维区域方案,这些方案被投射到三维空间作为检测种子。有两种投影方法可以将二维方案转换成三维方案。第一种方法是将图像平面上的边框投影到点云上,形成一个截锥形状的三维搜索空间。第二种方法将点云投影到图像平面上,生成具有点向二维语义的点云

  • 1)结果级融合: 结果级融合背后的直觉是使用现成的2 d 对象检测器来限制3 d 目标检测的3 d 搜索空间,这显著减少了计算和改善运行时间。然而,由于整个流水线依赖于二维目标检测器的结果,它受到基于图像检测器的限制。

    结果级融合的早期工作之一是 f-pointnets [57] ,其中2d 包围盒首先从图像生成并投影到3d 空间。由此产生的投影截锥体方案被输入到基于 pointnet 的3 d 目标检测检测器中。Duet al. [58]扩展了2d 到3d 提案生成阶段,增加了提案精化阶段,进一步减少了背景点上不必要的计算。在细化阶段,采用基于模型拟合的方法滤除种子区域内的背景点。最后将滤波后的点反馈到 bbox 回归网络中。Roarnet [59]遵循了类似的想法,但是在提案提炼阶段使用了神经网络。首先基于每个2d bbox 使用几何方法生成多个3d 圆柱建议协议搜索[60] ,其结果是比 f-pointnet 更小但更精确的截头体提议[57]。这些最初的柱面建议然后由一个基于 pointnet [30]的头部网络处理,以便最终完善。总而言之,这些方法假设每个种子区域只包含一个感兴趣的对象,然而,对于拥挤的场景和像行人这样的小对象,这是不正确的

    针对上述问题,一种可行的解决方案是用二维语义分割代替二维对象检测器,用逐点种子方案代替逐区域种子方案。Yanget al. 的密集型基于点的对象检测器(ipod)[61]就是这方面的一项工作。在第一步中,利用二维语义分割过滤背景点;。这是通过投影点的图像平面和相关点与二维语义标签。得到的前景点云保留了上下文信息和精细分割位置,这对于区域建议和 bbox 回归是必不可少的。在随后的逐点建议生成和 bbox 回归阶段,使用两个基于 pointnet [30]的网络进行建议特征提取和 bbox 预测。另外,为了加快训练和推理速度,提出了一种新的标准“尖点”。在高遮挡或多对象的场景中,这种方法比其他最先进的方法具有显著的性能优势

  • 2)多级融合: 另一个可能的改进方向是结合结果级融合和特征级融合,其中一个工作是点融合[62]。点融合首先利用现有的2d 对象检测器生成2d bbox。这些 bbox 用于选择相应的点,通过投影点到图像平面,并定位通过 bbox 的点。最后,一个 resnet [52]和一个基于 pointnet [31]的网络结合图像和点云特征来估计3d 对象。在这种方法中,图像特征和点云特征按照提案进行融合,最终得到3 d 目标检测,这有利于3 d bbox 回归。然而,它的建议阶段仍然是 amodal。在 sifrnet [63]中,frustum 方案首先由图像生成。然后将这些截头体方案中的点云特征与其相应的图像特征相结合,进行最终的三维 bbox 回归。为了实现比例不变,将 pointsift [64]合并到网络中。此外,使用 senet 模块来抑制信息量较小的特征

  • 3)特征层次的融合: 早期的尝试[75] ,[76]的多模态融合是在像素级,其中三维几何图形转换为图像格式或附加作为一个图像的附加通道。直观是将三维几何投影到图像平面上,利用成熟的图像处理方法进行特征提取。结果输出也在图像平面上,这对于在三维空间中定位物体是不理想的。2014年,guptaet al.proved depthrcnn [75] ,一个基于 r-cnn [77]的架构,用于二维目标检测、实例和语义分割。它在图像的 rgb 通道中编码来自微软 kinect 摄像头的3d 几何图形,这些通道是水平视差,地面高度,以及重力角度(hha)。2015年,通过调整3 d cad 模型,扩展了3 d 目标检测的深度-rcnn [78] ,获得了显著的性能改进。2016年,guptaet al.developed a new technique for supervised knowledge transfer between networks trained on image data and unseen pair image modality (depth image)[76]。在2016年,schlosseret al. [79]进一步利用学习 rgb-hha 表示的2d cnns 行人检测。然而,hha 数据是由激光雷达的深度产生的,而不是深度相机。作者还注意到,如果 rgb 和 hha 在网络的深层进行融合,可以取得更好的效果。

密集 rgb 和稀疏深度之间的分辨率不匹配意味着只有一小部分像素有对应的点。因此,直接向点添加 rgb 信息会导致大部分纹理信息丢失,使融合变得毫无意义。为了缓解这一挑战,pointpainting [66]在逐点融合之前提取高级图像语义。更具体地说,pointpainting [66]遵循了[61]中将点投射到二维语义映射的思想。但是,与使用2d 语义过滤非对象点不同,2d 语义被简单地附加到点云作为附加通道。作者认为,这种技术使得点画变得灵活,因为它使得任何点云网络都可以应用到这些融合的数据上。为了演示这种灵活性,融合点云被输入到多个现有的点云检测器中,这些检测器基于 pointrcnn [80]、 voxelnet [14]和 pointpillar [81]。然而,这将导致图像和激光雷达模型之间的耦合。这就需要对激光雷达模型进行重新训练,以适应图像模型的变化,从而降低了整体可靠性,增加了开发成本。

B. 基于三维建议的顺序模型

在一个基于3 d 建议的连续模型中,3 d 建议是直接从2 d 或3 d 数据生成的。2 d 到3 d 方案转换的消除大大限制了3 d3 d 目标检测搜索空间。常用的三维建议生成方法包括多视图方法和点云体素化方法

基于多视图的方法利用点云的鸟瞰图(bev)表示来生成三维建议。Bev 是首选的视点,因为它避免了遮挡,并保留了物体方向和 x,ycoordinates 的原始信息。这些方向和 x,y 坐标信息对于3 d 目标检测来说是至关重要的,同时可以直接在 bev 和其他视图之间进行坐标转换

点云体素化将连续的不规则数据结构转化为离散的规则数据结构。这使得应用标准的三维离散卷积和利用现有的网络结构处理点云成为可能。缺点是失去了一些空间分辨率,这可能包含细粒度的三维结构信息。

1)特征级融合: 从 bev 表示生成3d 提案的开拓性和最重要的工作之一是 mv3d [67]。Mv3d 在像素化的自顶向下激光雷达特征映射(高度、密度和强度)上生成3d 建议。然后将这些候选的三维图像投影到激光雷达前视图和图像平面上,提取和融合区域特征进行 bbox 回归。该融合通过 roi 池在感兴趣区域(roi)级别进行。视图的角度定义为

3d → view (p3d) ,view ∈{ bv,fv,rgb }(4) wheret3d → views 代表点云 dp3d 从3d 空间投影到鸟瞰视图(bev) ,正视图(fv)和图像平面(rgb)的转换函数。获得特征矢量的 roi-poolingrmr 定义为:

Mv3d 有一些缺点。首先,在 bev 上生成3d 建议假定所有感兴趣的对象都没有从这个视点遮挡。这个假设不适用于小物体实例,例如行人和骑自行车的人,他们可以被点云中的其他大物体完全遮挡。其次,连续的卷积操作导致特征映射的下采样过程中,小对象实例的空间信息丢失。第三,以目标为中心的融合通过感兴趣区域(roi-pooling)将图像和点云的特征映射结合起来,在融合过程中滤除了细粒度的几何信息。值得注意的是,冗余建议导致在 bbox 回归阶段重复计算。为了减轻这些挑战,提出了多种方法来改进 mv3d。

为了改进对小物体的检测,聚合视图目标检测网络(avod)首先利用 bev 点云和图像的特征映射改进了 mv3d [67]中的提议阶段。此外,采用自动编码器结构将最终的特征映射提取到原始尺寸。这减轻了连续卷积操作下采样到一个像素的小对象的问题。提出的特征融合区域提案网络(rpn)首先提取等长信息特征向量从多种模式(bev 点云和图像)与裁剪和调整操作。然后对特征空间降维进行1 × 1卷积运算,这样可以减少计算量并提高速度。Luet al. [69]还使用了一个基于编码器的建议网络,该网络具有空间通道注意(sca)模块和扩展空间上采样(esu)模块。Sca 可以捕获多尺度上下文信息,而 esu 可以恢复空间信息

以对象为中心的融合方法[67] ,[68]的问题之一是细粒度几何信息在 roi 汇集过程中的丢失。由 lianget 所著的文献[70]用逐点融合的方法处理这些丢失的信息。该方法利用连续卷积[83]融合层在网络中的多个阶段连接不同尺度的图像和点云特征,实现点云融合。这是通过首先提取点云 bev 表示中每个像素的 k- 最近邻点来实现的。然后将这些点投影到图像平面上,以检索相关的图像特征。最后,根据融合后的特征向量与目标像素的几何偏移量进行加权,再将融合后的特征向量送入 mlps。然而,当激光雷达点稀疏时,点融合可能无法充分利用高分辨率图像。在[73] lianget al.further 扩展点式融合通过结合多种融合方法,如信号级融合(rgb-d) ,特征级融合,多视点和深度完成。特别是深度补全采样稀疏深度图,利用图像信息生成稠密的伪点云。这种上采样过程缓解了稀疏点式融合问题,有利于交叉模态表示的学习。此外,作者认为多个互补任务(地面估计、深度完成和2 d/3 d 目标检测)可以帮助网络获得更好的整体性能。然而,逐点/逐像素融合会导致“特征模糊”问题。当点云中的一个点与图像中的多个像素相关或相反时,这种“特征模糊”就会发生,从而影响数据融合。同样,wanget al [72]将 mv3d [67]中的 roi-pooling 替换为稀疏的非同质混合,这样可以实现来自多种模式的特征映射之间的有效融合。

Mvx-net [71] ,sindagiet al. 介绍了两种图像和点云数据逐点或逐体素融合的方法。两种方法都使用了预先训练的2d cnn 进行图像特征提取,并使用基于 v oxelnet [14]的网络从融合的点云中估计目标。在逐点融合方法中,首先将点云投影到图像特征空间,在体素化前提取图像特征,然后由体素网进行处理。体素融合方法首先对点云进行体素化,然后将非空体素投影到图像特征空间进行体素/区域特征提取。这些体素特征只有在体素网的后期才会附加到相应的体素上。Mvx-net 在 kitti 基准的基础上取得了最先进的成果,并且比其他基于激光雷达的方法表现更好,同时降低了伪阳性。

结合体素化点云和图像最简单的方法是附加 rgb 信息作为体素的附加通道。Song 和 xiao 在2014年的一篇论文中,通过在体素化的点云上滑动一个3 d 检测窗口,实现了3 d 目标检测。分类是由一组样本-svms 进行的。在这部作品中,颜色信息通过投影附加到体素上。Songet al.further extended this idea with 3d discrete 卷积神经网络[84]。在第一阶段,首先对由 rgb-d 数据生成的体素化点云进行多尺度3d rpn 处理,生成3d 方案。然后利用联合目标识别网络(orn)对候选目标进行分类,该网络以图像和体素化点云为输入。然而,体积表示法引入了边界伪影,破坏了细粒度的局部几何形状。其次,图像与体素化点云的分辨率不匹配使得融合效率降低。

C. 一步模型

单步模型在一个阶段执行建议生成和 bbox 回归。通过将建议和 bbox 回归阶段融合为一个步骤,这些模型通常计算效率更高。这使得它们更适合移动计算平台上的实时应用程序。

Meyeret al. [74]扩展了 lasernet [85]到多任务和多模式网络,对融合图像和激光雷达数据执行3 d 目标检测和3 d 语义分割。两个细胞神经网络处理深度图像(从点云生成)和前视图像的并行方式,并通过投影点融合到图像平面,以联系相应的图像特征。这个特征映射被输入到激光雷达中,用来预测每一点的包围盒分布,并将它们组合起来形成最终的3d 方案。这种方法是高效的,同时达到最先进的性能。



标准道路物体检测

本节重点回顾了基于摄像机-激光雷达融合的静止道路目标检测方法的最新进展。固定道路物体可分为路上物体(例如路面及道路标记)及非路面物体(例如交通标志)。道路和非道路物体为自动驾驶车辆提供规章、警告禁令和指导。

在图6和图7中,比较了车道/道路检测和交通标志识别的典型模型结构。表四列出了基提路基准[56]上不同车型的比较结果,并对这些车型进行了总结和比较。

A 车道/道路检测

现有的调查[93]-[95]对传统的多式联运道路检测方法提出了详细的评论。这些方法[96]-[99]主要依靠视觉进行道路/车道检测,而利用激光雷达进行路缘装配和障碍物掩蔽。因此,这一部分集中于基于深度学习的道路提取融合策略的最新进展。

基于深度倾斜的道路检测方法可以分为基于 bev 的或基于前置摄像机视图的。基于 bev 的方法[86]-[89]项目激光雷达深度和图像到 bev 的道路检测,它保留了物体的原始 x,y 坐标和方向。在[86]中,使用 cnn 从点云中预测稠密的 bev 高度估计,然后将其与 bev 图像融合,以便准确地检测车道。然而,这种方法不能区分不同的车道类型。类似地,lvet al [88]也使用了 bev 激光雷达网格地图和 bev 图像,但是以平行的方式处理它们。Y uet al. [89]提出了一种多级融合策略(msrf) ,它结合了图像深度特征不同的网络级别,这大大提高了它的性能。然而,这种策略也相对增加了它的计算成本。Wulffet al [87]使用信号水平融合生成融合的 bev 职业网格,这是由基于 u-net 的道路分割网络处理。然而,密集 rgb 和稀疏深度之间的信号级融合,由于网格分辨率低,导致了密集纹理信息的丢失。

基于前摄像机视图的方法[90]-[92]将激光雷达深度投影到图像平面上提取道路表面,这种方法在二维到三维边界的平移中会造成精度损失。对道路检测中的信号级融合(早期融合)和特征级融合(晚期融合和交叉融合)进行了比较,发现交叉融合是最佳的融合策略。类似于[88] ,plard [91]逐步将图像和点云特征分阶段融合。Lee and park [92]通过减小输入大小的球面坐标转换方案着重于提高速度。然后通过基于分割器的语义分割网络对转换后的摄像机和激光雷达数据进行处理。

B. 交通标志识别

在激光雷达探测中,由于交通标志具有反射特性,因此具有较高的分辨率,但由于缺乏密集的纹理特征,使得交通标志难以进行分类。正好相反,交通标志的图像补丁可以很容易地分类。然而,基于视觉的 tsr 系统很难在三维空间中定位这些交通标志。因此,各种研究都提出了利用相机和激光雷达进行激光雷达的研究。现有的评论[93]、[100]全面地涵盖了传统的交通标志识别方法和部分深度学习方法。因此,这一部分提出了一个传统的交通标志识别方法的简要概述,主要集中在最新进展。在一个典型的 tsr 融合管道[101]-[105] ,交通标志首先位于激光雷达扫描基于其逆反射特性。然后将检测到的交通标志的三维位置投影到图像平面上,生成交通标志斑块,并将其输入图像分类器进行分类。这个 tsr 熔化管道如图7所示。

对于采用典型的 tsr 融合流水线的方法,主要的区别在于分类器。这些分类器包括基于深度波茨曼机(dbms)的层次分类器[102]、 svms [101]和 dnn [104]。总之,这些方法都采用结果级融合和层次目标检测模型。他们假设交通标志在激光雷达扫描中是可见的,但有时由于阻塞并非如此。此外,该管道受到移动激光雷达探测范围的限制。

为了减轻这些挑战,邓和周[106]结合图像和点云生成一个彩色点云的交通标志检测和分类。此外,还利用被检测交通标志的三维几何特性来减少误报。在[107]中,交通标志的检测是基于先验知识,包括道路几何信息和交通标志几何信息。利用高斯-伯努利数据库模型对检测到的交通标志斑块进行分类。根据这个理想,guanet al. [105]进一步改进了交通标志识别部分,使用了卷积胶囊网络。综上所述,这些方法利用多模态数据和先验知识对交通标志检测阶段进行了改进。然而,先前的知识往往是区域特定的,这使得它很难推广到世界其他地区。

语义分割

本部分回顾了现有的用于二维语义分割、三维语义分割和实例分割的摄像机-激光雷达融合方法。2d/3d 语义分割的目的是预测每像素和每点类标签,而实例分割也关心单个实例。图8和图9展示了一个三维语义分割网络和典型模型架构的时间线

A. 二维语义分割

1)特征级融合: 稀疏稠密[46]提出了一种基于 nasnet [53]的自动编码网络,可以利用图像和稀疏深度进行二维语义分割或深度补全。图像和相应的稀疏深度图由两个并行编码器处理后融合到共享解码器中。V aladaet al. [55]采用了多阶段的特征级融合的不同深度,以促进语义分割。Caltagironeet al. [90]利用上采样深度图像和图像进行二维语义分割。这个稠密的深度图像使用稀疏的深度图像(来自点云)和图像[108]进行上采样。最佳性能的交叉融合模型处理密集的深度图像和图像数据在两个并行的 cnn 分支之间的跳过连接,并融合两个特征映射在最终的卷积层。

B. 三维语义分割

1)特征层融合: dai 和 nießner [109]提出了3dmv,一个融合图像语义和点特征的多视角三维语义分割网络。图像特征提取的二维 cnns 从多个对齐的图像,并投影到三维空间。这些多视图像特征是最大汇集体素,融合了3d 几何,然后输入到3d cnns 进行每体素语义预测。3dmv 在基于[110]基准的扫描网上执行了其他基于体素的方法。然而,基于体素的方法的性能是由体素分辨率和体素边界伪影决定的。

为了缓解点云体素化带来的问题,chianget al. [111]提出了一种基于点的语义分割框架(upf) ,该框架还支持图像特征、几何结构和全局上下文先验的高效表示学习。利用语义分割网络提取多视点图像的特征,投影到三维空间进行逐点特征融合。该融合点云由两个基于 pointnet [30]的编码器处理,提取局部和全局特征,然后输入解码器进行逐点语义标签预测。同样,多视角Pointnet (met)[112]融合了多视图图像语义和3d 几何图形来预测每个点的语义标签。

多模态数据融合与处理的另一种方法是多面体格子表示法。稀疏格子网络(苏丹人民解放军 tnet)的 suet al. [113]采用稀疏双边卷积来实现空间感知表示学习和多模式(图像和点云)推理。在这种方法中,点云特征被插值到二维多面体格子上,其中双边卷积应用。结果被插入到点云中。该算法首先利用细胞神经网络从多视点图像中提取图像特征,然后投影到三维格子空间中与三维特征相结合。这个融合的特征地图是由 cnn 进一步处理,以预测每点标签。

C.实例分割

实质上,实例分割的目的是共同执行语义分割和目标检测。它通过区别对待类中的单个实例来扩展语义分割任务,这使其更具挑战性

1) proposal based: houet al.presented 3d-sis [114] ,一个两阶段的3d cnn,对多视图像和 rgb-d 扫描数据执行体素方式的3d 实例分割。在三维检测阶段,利用基于 enet [115]的网络进行多视点图像特征提取和下采样。这个下采样过程解决了高分辨率图像特征映射和低分辨率体素化点云特征映射之间的不匹配问题。这些下采样图像特征映射回3d 体素空间,并附加到相应的3d 几何特征,然后将其输入3d cnn 以预测物体类和3d bbox 姿态。在3 d 蒙版阶段,一个3 d cnn 采集图像、点云特征和3 d 目标检测结果来预测每个体素的实例标签

Naritaet al. [116]扩展2 d 全光分割,以执行场景重建,3 d 语义分割和3 d 实例分割联合对 rgb 图像和深度图像。该方法以 rgb 和深度帧作为实例和二维语义分割网络的输入。为了跟踪帧之间的标签,这些帧预测全光注释和相应的深度参考,关联和积分到体积图。在最后一步,一个完全连接的条件随机域(crf)被用来微调输出。然而,这种方法不支持动态场景,并且容易受到长期后漂移的影响。

2)基于无建议的: elichet al. [117]提出了3d-bevis 框架,该框架使用聚类方法对具有2d 语义的聚集点联合执行3d 语义和实例分割任务。3d-bevis 首先从2d bev 表示(rgb 和 height-above-ground)中提取全局语义得分图和实例特征图。这两个语义图通过图形神经网络传播到点上。最后,mean shift 算法[118]利用这些语义特征将点聚类为实例。这种方法主要是约束其依赖于从语义特征贝弗,这可以引入传感器位移遮挡



物体追踪

多目标跟踪(multiple object tracking,mot)是自主车辆决策过程中不可缺少的一部分,其目的是维护目标的身份,跨数据帧跟踪目标的位置。为此,本节回顾了基于摄像机-激光雷达融合的目标跟踪方法。基于目标初始化方法,将目标跟踪算法分为基于检测的跟踪(dbt)和基于检测的跟踪(dft)框架。Dbt 或逐个检测跟踪框架利用一系列对象假设和由对象检测器产生的更高层次的线索来跟踪对象。在 dbt 中,通过数据(检测序列)关联或多假设跟踪来跟踪目标。相反,dft 框架是基于有限集统计(fisst)的状态估计。常用的方法有多目标多伯努利(成员)滤波和概率假设密度(phd)滤波。表 v 显示了 kitti 多目标跟踪基准(car)[56]上不同模型的性能。图10提供了 dbt 和 dft 方法的比较。

A.基于检测的跟踪(dbt)

跟踪-探测框架包括两个阶段。在第一阶段,探测感兴趣的物体。第二阶段随着时间的推移将这些物体关联起来,并将它们划分成轨迹,这些轨迹被表述为线性规划。Frossard 和 urtasun [119]提出了一个端到端可训练的检测跟踪框架,该框架由多个利用图像和点云的独立网络组成。这个框架执行目标检测,提案匹配和打分,连续的线性优化。为了实现端到端的学习,检测和匹配通过深层结构模型(dsm)制定。张等[120]提出了一个传感器不可知的框架,它采用损失耦合方案进行图像和点云的融合。与[119]类似,该框架由三个阶段组成,目标检测、邻接估计和线性优化。在目标检测阶段,图像和点云通过 vgg-16[123]和 pointnet [30]并行提取特征,并通过鲁棒的融合模块进行融合。鲁棒融合模块的设计工作,同时与 a 模态和多模态输入。邻接估计阶段通过邻接矩阵学习将最小费用流扩展到多模态。最后由最小费用流图计算出最优路径

跟踪和三维重建任务可以共同执行。扩展这个想法,luitenet al. [121]利用3d 重建来改善跟踪,使跟踪对完全遮挡鲁棒。提议的 motsfusion 包括两个阶段。在第一阶段,检测到的目标与时空轨迹相关联。这些轨迹用匈牙利算法匹配合并成轨迹。此外,motsfusion 可以与激光雷达单声道和立体声深度工作

B.无检测跟踪(dft)

在 dft 对象中,通过基于过滤的方法手动初始化和跟踪。复杂程序 yolo [122]是一个实时框架,用于解耦的3 d 目标检测以及对图像和点云数据的跟踪。在三维目标检测阶段,提取二维语义并逐点融合到点云中。这个语义点云被体素化并输入到3 d 复合体——3 d 目标检测的 yolo 中。为了加快训练过程,iou 被一种称为比例-旋转-平移得分(srts)的新指标替代,该指标计算3个自由度的包围盒位置。多目标跟踪与检测解耦,推理通过标记多贝努利随机有限集滤波器(lmb rfs)实现



在线交换式感测校准

摄像机-激光雷达融合流水线的前提条件之一是传感器之间的无误配准/标定,这一条件很难满足。由于机械振动和热波动的影响,传感器之间的标定参数不断变化。由于大多数融合方法对校准误差极其敏感,这可能严重削弱其性能和可靠性。此外,离线校准是一个麻烦而耗时的过程。因此,研究在线自动交叉传感器标定具有重要的实用价值。

A 经典的在线校准

在线校准方法估计外在的自然环境没有校准目标。许多研究发现外在的通过最大化互信息(mi)强度值或边缘强度)之间的不同形式。然而,基于多尺度分析的方法对于纹理丰富的环境、大量的去校准和由传感器位移引起的遮挡都不是很有效。或者,基于激光视觉里程计的方法[128]利用摄像机的自我运动估计和评估摄像机激光雷达的外部参数。尽管如此,[128]仍然需要进行大量的校准工作,无法实时运行。

B. 基于 bdl 的在线校准

为了缓解上述挑战,schneideret等[129]设计了一个实时能力的CNN (regnet)来估计外部因素,该CNN在随机标定的数据上进行训练。该算法在两个并行分支中提取图像和深度特征,并将它们连接起来生成融合的特征图。将融合后的特征图输入到网络模块栈和两个全连接层中进行特征匹配和全局回归。然而,regnet对传感器的固有参数是不确定的,一旦这些固有参数发生变化,就需要重新训练。为了解决这一问题,calibnet[130]通过自监督的方式学习最小化校准错误与目标深度之间的几何和光度不一致。因为本质只在三维空间变压器中使用,calibnet可以应用于任何本质校准相机。然而,基于深度学习的跨传感器标定方法具有较高的计算成本。



趋势,开放的挑战和前景的方向

无人驾驶汽车的感知模块负责获取和理解周围的场景。其下游模块,如规划,决策和自定位,取决于其输出。因此,它的性能和可靠性是整个无人驾驶系统能力的先决条件。为此,采用激光雷达和摄像机融合技术提高感知系统的性能和可靠性,使无人驾驶车辆更能理解复杂的场景(如城市交通、极端天气等)。因此,在这一部分,我们总结总体趋势,并讨论开放的挑战和潜在的影响因素在这方面。如表六所示,我们着重于提高融合方法的性能和融合流水线的鲁棒性。

从上述方法中,我们观察到了图像和点云融合方法的一些总体趋势,总结如下:

  • •二维到三维: 在三维特征提取方法不断发展的背景下,对三维空间中的物体进行定位、跟踪和分割已成为研究的热点。

  • •从单一任务到多任务: 一些最近的工作[73] ,[122]结合了多个互补任务,如目标检测、语义分割和深度完成,以获得更好的整体性能并降低计算成本。

  • •信号级融合到多级融合: 早期的工作通常利用信号级融合,其中3d 几何被转换到图像平面,以利用现成的图像处理模型,而最近的模型试图融合图像和激光雷达在多级(如早期融合,后期融合)和时间上下文编码

A. 与绩效相关的开放性研究问题

1)融合数据的数据表示形式应该是什么?融合数据的数据表示方式的选择是设计任何数据融合算法的基础。当前图像和点云融合的数据表示包括:

  • •图像表示: 附加3 d 几何图形作为图像的附加通道。基于图像的表示使现成的图像处理模型。然而,结果也限制在二维图像平面,这是不太理想的自动驾驶。

  • •点表示: 附加 rgb 信号/特性作为点云的附加通道。然而,高分辨率图像与低分辨率点云分辨率不匹配导致效率低下。

  • •中间数据表示: 将图像和点云特征/信号转换为中间数据表示,如体素化点云[82]。然而,基于体素的方法受到了不好的扩展性的影响。

最近许多点云处理的工作集中于定义显式点卷积运算[32] ,[33] ,[35]-[38] ,[62] ,这些运算显示了很大的潜力。这些点卷积更适合提取细粒度点和局部几何。因此,我们认为点卷积耦合的融合数据点表示在相机激光雷达融合研究中具有很大的潜力。

2)如何编码商业环境?当前大多数基于深度学习的知觉系统往往忽略了时间上下文。这就产生了许多问题,如点云由于刷新率低而变形、传感器之间的时间同步不正确等。这些问题引起的图像、点云和实际环境之间的不匹配,因此,将时间上下文纳入感知系统是非常重要的

在自动驾驶的环境中,时间环境可以使用 rnn 或 lstm 模型合并。在[131]中,lstm 自动编码器被用来估计周围车辆的未来状态,并相应地调整计划轨迹,这有助于自动车运行更平滑和更稳定。在[121]时间上下文中,我们利用时间上下文来估计自我运动,这有利于后来与任务相关的头部网络。此外,时间上下文可以通过一个基于视觉里程计的方法受益于在线自校正。根据这一趋势,可以通过编码时间上下文和生成模型来解决激光雷达低刷新率造成的误匹配问题

3)学习计划应该是怎样的?当前大多数相机激光雷达融合方法依赖于监督式学习,这需要大量的注释数据集。然而,对图像和点云进行注释既昂贵又耗时。这限制了当前多模态数据集的大小和监督式学习方法的性能。

这个问题的答案是无监督和弱监督的学习框架。最近的一些研究表明在这方面有很大的潜力。未来的无监督和弱监督学习融合框架的研究可以使网络在大规模的无标记/粗标记数据集上进行训练,从而获得更好的性能。

4)什么时候使用深度学习方法?深度学习技术的最新进展加速了自主驾驶技术的发展。然而,在当前的自主驾驶系统中,传统的方法在许多方面仍然是不可或缺的。与深度学习方法相比,传统方法具有更好的可解释性,并且消耗的计算资源显著减少。追踪决策的能力对于无人机的决策制定和计划系统来说是至关重要的。然而,当前的深度学习算法无法回溯,使得它们不适合这些应用程序。除了这种黑箱困境,传统算法也因其实时性而受到青睐

总而言之,我们认为深度学习方法应该应用于具有明确的目标,可以客观验证的应用程序。

B. 与可靠性相关的开放性研究问题

1)如何减少摄像机-激光雷达耦合?: 从工程学的角度来看,无人机的冗余设计对其安全至关重要。虽然融合激光雷达和摄像机提高了感知性能,但也带来了信号耦合的问题。如果其中一条信号通道突然失灵,整个管道就会中断,并使下游模块瘫痪。这对于自动驾驶系统来说是不可接受的,因为它需要强大的感知管道

为了解决这个问题,我们应该开发一个传感器不可知的框架。例如,我们可以采用不同传感器输入的多个融合模块。此外,我们还可以采用一个多路径融合模块,对异步多模态数据进行融合。然而,最好的解决方案仍在研究中。

2)如何改善全天候/照明条件?自动驾驶车辆需要在各种天气和照明条件下工作。然而,目前的数据集和方法主要集中在光照和天气条件良好的场景上。这导致了现实世界中的糟糕表现,那里的光照和天气条件更加复杂。

解决这个问题的第一步是开发更多的数据集,包含广泛的照明和天气条件。此外,采用多模态数据处理复杂照明和天气条件的方法需要进一步研究

3)如何处理对抗性的攻击和拐角案件?* 针对基于摄像机的感知系统的对抗性攻击已证明是有效的。这对无人机构成了严重威胁,因为它们在安全关键的环境中工作。可能很难识别明确为某种感官模式设计的攻击。然而,感知结果可以通过不同的方式得到验证。在这种情况下,利用三维几何和图像共同识别这些攻击的研究可以进一步探讨。

由于自动驾驶汽车在不可预知的开放环境中运行,存在着无限的可能性,因此在设计感知管道时,考虑角落和边缘情况是至关重要的。感知系统应该能够预测到看不见和不寻常的障碍,奇怪的行为和极端的天气。例如,印在大型车辆上的骑自行车的人和穿着戏服的人。这些角落案件往往是非常困难的处理,只使用相机或激光雷达管道。然而,利用来自多种方式的数据来识别这些角落情况可以证明是更有效和可靠的比从一个模态传感器。这方面的进一步研究将大大有利于自动驾驶技术的安全性和商业化。

4)如何求解开集目标检测?: 开集目标检测是在未知/未见类的实例上测试对象检测器的场景。开集问题对于无人机来说是至关重要的,因为它在无限制的环境中操作,对象的类别是无限的。当前数据集通常对任何不感兴趣的对象使用后台类。但是,任何数据集都不能包括背景类中所有不需要的对象类别。所以,目标探测器在开集环境中的行为是高度不确定的,这对自动驾驶来说不是很理想。

由于缺乏开放集的目标检测意识、测试协议和度量标准,导致目前的目标检测研究对开放集的性能缺乏明确的评价。Dhamijaet al. [133]在最近的一项研究中讨论和调查了这些挑战,在这项研究中提出了一种新的开放集协议和度量。作者提出了一种新的混合未知类,包括已知的“背景”对象和未知/未见的对象。基于该协议,当前的方法在一个测试集上进行测试,该测试集由现有数据集的组合生成一个混合未知类别。在最近的另一项关于点云的研究中,wonget al [134]提出了一种技术,将不需要的对象从不同的类别映射到一个类别无关的嵌入空间,用于集群。

开放式的挑战对于在现实世界中部署基于深度学习的感知系统是必不可少的。它需要整个研究团体更多的努力和关注(侧重于未知对象、测试协议和度量等的数据集和方法)。

5)如何平衡速度与准确度的权衡?: 处理多个高分辨率图像和大规模点云给现有的移动计算平台带来了实质性的压力。这有时会导致帧丢失,这会严重降低感知系统的性能。一般来说,它会导致高功耗和低可靠性。因此,在实际部署中平衡模型的速度和准确性是很重要的

有些研究试图检测掉帧。在[135]中,imreet 也提出了一种利用多段(折线)对摄像机对进行拟合的多摄像机帧丢失检测算法。然而,帧掉落检测只能解决一半的问题。难点在于防止帧丢失引起的性能下降。生成模型的最新进展显示了预测视频序列中缺失帧[136]的巨大潜力,这可以利用自动驱动来填补图像和点云管道中的缺失帧。然而,我们认为解决丢帧问题最有效的方法是通过减少硬件工作负载来防止丢帧。这可以通过仔细平衡模型的速度和准确度来实现。

为了实现这一点,深度学习模型应该能够缩小其计算成本,同时保持可接受的性能。这种可伸缩性通常通过减少输入数量(点、像素、体素)或网络深度来实现。根据以前的研究[30] ,[38] ,[138] ,基于点和多视图的融合方法比基于体素的方法更具可扩展性。



结论

本文对自主驾驶背景下点云和图像融合的深度学习模型的最新研究进展进行了深入的综述。具体来说,这篇评论组织了基于融合方法的方法,涵盖了深入的完成、动态和静止目标检测,语义分割,跟踪和在线交叉传感器校准。此外,对公开数据集的性能比较、模型的亮点和优缺点在表中列出。典型的模型结构如图所示。最后,我们总结了一般趋势,并讨论了开放的挑战和可能的未来方向。这项调查也提高了人们的认识,并提供了一些问题的见解,这些问题被研究界所忽视,但却妨碍了自动驾驶技术在现实世界中的应用。

参考文献

[1] F. Duarte, “Self-driving cars: A city perspective,”Sci. Robot., vol. 4, no. 28, pp. 5–6, 2019. [Online]. Available: https:// robotics.sciencemag.org/content/4/28/eaav9843 [2] J. Guo, U. Kurup, and M. Shah, “Is it safe to drive? An overview of factors, metrics, and datasets for driveability assessment in autonomous driving,”IEEE Trans. Intell. Transp. Syst., vol. 21, no. 8, pp. 3135–3151, Aug. 2019. [3] Y . E. Bigman and K. Gray, “Life and death decisions of autonomous vehicles,”Nature, vol. 579, no. 7797, pp. E1–E2, Mar. 2020. [4] D. Silveret al., “Mastering the game of go with deep neural networks and tree search,”Nature, vol. 529, no. 7587, pp. 484–489, Jan. 2016. [5] V . Mnihet al., “Human-level control through deep reinforcement learning,”Nature, vol. 518, no. 7540, pp. 529–533, Feb. 2015, doi: 10.1038/nature14236. [6] P . Huang, M. Cheng, Y . Chen, H. Luo, C. Wang, and J. Li, “Traffic sign occlusion detection using mobile laser scanning point clouds,”IEEE Trans. Intell. Transp. Syst., vol. 18, no. 9, pp. 2364–2376, Sep. 2017. [7] L. Chenet al., “Surrounding vehicle detection using an FPGA panoramic camera and deep CNNs,”IEEE Trans. Intell. Transp. Syst., early access, Oct. 29, 2019, doi:10.1109/TITS.2019.2949005. [8] S. Kim, H. Kim, W. Yoo, and K. Huh, “Sensor fusion algorithm design in detecting vehicles using laser scanner and stereo vision,”IEEE Trans. Intell. Transp. Syst., vol. 17, no. 4, pp. 1072–1084, Apr. 2016. [9] K. Park, S. Kim, and K. Sohn, “High-precision depth estimation using uncalibrated LiDAR and stereo fusion,”IEEE Trans. Intell. Transp. Syst., vol. 21, no. 1, pp. 321–335, Jan. 2020. [10] J. Zhu, L. Fan, W. Tian, L. Chen, D. Cao, and F. Wang, “Toward the ghosting phenomenon in a stereo-based map with a collaborative RGB-D repair,”IEEE Trans. Intell. Transp. Syst., vol. 21, no. 7, pp. 2739–2749, Jul. 2019. [11] J.-G. Wang and L.-B. Zhou, “Traffic light recognition with high dynamic range imaging and deep learning,”IEEE Trans. Intell. Transp. Syst., vol. 20, no. 4, pp. 1341–1352, Apr. 2019. [12] Z. Wang, Y . Wu, and Q. Niu, “Multi-sensor fusion in automated driving: A survey,”IEEE Access, vol. 8, pp. 2847–2868, 2020. [13] D. Fenget al., “Deep multi-modal object detection and semantic seg- mentation for autonomous driving: Datasets, methods, and challenges,” IEEE Trans. Intell. Transp. Syst., early access, Feb. 17, 2020, doi: 10.1109/tits.2020.2972974. [14] Y . Zhou and O. Tuzel, “V oxelNet: End-to-end learning for point cloud based 3D object detection,” inProc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit., Jun. 2018, pp. 4490–4499, doi: 10.1109/cvpr.2018.00472. [15] D. Maturana and S. Scherer, “VoxNet: A 3D convolutional neural network for real-time object recognition,” inProc. IEEE/RSJ Int. Conf. Intell. Robots Syst. (IROS), Sep. 2015, pp. 922–928. [16] Y . Li, L. Ma, Z. Zhong, D. Cao, and J. Li, “TGNet: Geometric graph CNN on 3-D point cloud segmentation,”IEEE Trans. Geosci. Remote Sens., vol. 58, no. 5, pp. 3588–3600, May 2020. [17] C. R. Qi, H. Su, M. NieBner, A. Dai, M. Y an, and L. J. Guibas, “V olumetric and multi-view CNNs for object classification on 3D data,” inProc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2016, pp. 5648–5656, doi:10.1109/CVPR.2016.609. [18] W. Zeng and T. Gevers, “3DContextNet: K-d tree guided hierarchical learning of point clouds using local and global contextual cues,” in Proc. Comput. Vis. (ECCV) Workshops, L. Leal-Taixé and S. Roth, Eds. Cham, Switzerland: Springer, 2019, pp. 314–330. [19] R. Klokov and V . Lempitsky, “Escape from cells: Deep KD- networks for the recognition of 3D point cloud models,” inProc. IEEE Int. Conf. Comput. Vis. (ICCV), Oct. 2017, pp. 863–872, doi: 10.1109/ICCV .2017.99.

[20] G. Riegler, A. O. Ulusoy, and A. Geiger, “OctNet: Learning deep 3D representations at high resolutions,” inProc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Jul. 2017, pp. 3577–3586. [21] D. C. Garcia, T. A. Fonseca, R. U. Ferreira, and R. L. de Queiroz, “Geometry coding for dynamic voxelized point clouds using octrees and multiple contexts,”IEEE Trans. Image Process., vol. 29, pp. 313–322, 2020. [22] H. Lei, N. Akhtar, and A. Mian, “Octree guided CNN with spherical kernels for 3D point clouds,” inProc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2019, pp. 9631–9640. [23] H. Su, S. Maji, E. Kalogerakis, and E. Learned-Miller, “Multi-view convolutional neural networks for 3D shape recognition,” inProc. IEEE Int. Conf. Comput. Vis. (ICCV), Dec. 2015, pp. 945–953. [24] S. Chen, C. Duan, Y . Y ang, D. Li, C. Feng, and D. Tian, “Deep unsupervised learning of 3D point clouds via graph topology inference and filtering,”IEEE Trans. Image Process., vol. 29, pp. 3183–3198, 2020. [25] M. Henaff, J. Bruna, and Y . LeCun, “Deep convolutional networks on graph-structured data,” 2015,arXiv:1506.05163. [Online]. Available: https://arxiv.org/abs/1506.05163 [26] M. Simonovsky and N. Komodakis, “Dynamic edge-conditioned filters in convolutional neural networks on graphs,” inProc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Jul. 2017, pp. 3693–3702. [27] D. Boscaini, J. Masci, S. Melzi, M. M. Bronstein, U. Castellani, and P. Vandergheynst, “Learning class-specific descriptors for deformable shapes using localized spectral convolutional networks,”Comput. Graph. Forum, vol. 34, no. 5, pp. 13–23, Aug. 2015. [Online]. Avail- able: Learning class‐specific descriptors for deformable shapes using localized spectral convolutional networks - Boscaini - 2015 - Computer Graphics Forum - Wiley Online Library [28] J. Bruna, W. Zaremba, A. Szlam, and Y . Lecun, “Spectral networks and locally connected networks on graphs,” inProc. Int. Conf. Learn. Representations (ICLR), Apr. 2014, pp. 1–14. [29] M. Defferrard, X. Bresson, and P. Vandergheynst, “Convolutional neural networks on graphs with fast localized spectral filtering,” in Proc. Adv. Neural Inf. Process. Syst., 2016, pp. 3844–3852. [30] C. R. Qi, L. Yi, H. Su, and L. J. Guibas, “Pointnet++: Deep hierarchical feature learning on point sets in a metric space,” inProc. Adv. Neural Inf. Process. Syst., 2017, pp. 5099–5108. [31] R. Q. Charles, H. Su, M. Kaichun, and L. J. Guibas, “PointNet: Deep learning on point sets for 3D classification and segmentation,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Jul. 2017, pp. 652–660, doi:10.1109/CVPR.2017.16. [32] B.-S. Hua, M.-K. Tran, and S.-K. Y eung, “Pointwise convolutional neural networks,” inProc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit., Jun. 2018, pp. 984–993. [33] M. Atzmon, H. Maron, and Y . Lipman, “Point convolutional neural networks by extension operators,”ACM Trans. Graph., vol. 37, no. 4, pp. 1–12, Aug. 2018, doi:10.1145/3197517.3201301. [34] L. Ma, Y . Li, J. Li, W. Tan, Y . Yu, and M. A. Chapman, “Multi- scale point-wise convolutional neural networks for 3D object seg- mentation from LiDAR point clouds in large-scale environments,” IEEE Trans. Intell. Transp. Syst., early access, Dec. 27, 2019, doi: 10.1109/TITS.2019.2961060. [35] Y . Li, R. Bu, M. Sun, W. Wu, X. Di, and B. Chen, “PointCNN: Con- volution on X-transformed points,” inAdvances in Neural Information Processing Systems, vol. 31, S. Bengio, H. Wallach, H. Larochelle, K. Grauman, N. Cesa-Bianchi, and R. Garnett, Eds. New Y ork, NY , USA: Curran Associates, Inc., 2018, pp. 820–830. [Online]. Available: https://proceedings.neurips.cc/paper/2018/file/f5f8590cd58a54e94377e 6ae2eded4d9-Paper.pdf [36] S. Lan, R. Yu, G. Yu, and L. S. Davis, “Modeling local geometric structure of 3D point clouds using geo-CNN,” inProc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2019, pp. 998–1008, doi: 10.1109/CVPR.2019.00109. [37] F. Groh, P. Wieschollek, and H. P. A. Lensch, “Flex-convolution,” in Proc. 14th Asian Conf. Comput. Vis. Comput. Vis. (ACCV), in Lecture Notes in Computer Science, vol. 11361, C. V . Jawahar, H. Li, G. Mori, and K. Schindler, Eds. New Y ork, NY , USA: Springer, Dec. 2019, pp. 105–122. [Online]. Available: http://dx.doi.org/10.1007/978-3-030- 20887-5_7 [38] H. Thomas, C. R. Qi, J.-E. Deschaud, B. Marcotegui, F. Goulette, and L. Guibas, “KPConv: Flexible and deformable convolution for point clouds,” inProc. IEEE/CVF Int. Conf. Comput. Vis. (ICCV), Oct. 2019, pp. 6411–6420, doi:10.1109/ICCV .2019.00651. [39] Q. Huet al., “RandLA-net: Efficient semantic segmentation of large- scale point clouds,” inProc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2020, pp. 11108–11117.

[40] W. Wu, Z. Qi, and L. Fuxin, “PointConv: Deep convolutional networks on 3D point clouds,” inProc. IEEE/CVF Conf. Com- put. Vis. Pattern Recognit. (CVPR), Jun. 2019, pp. 9621–9630, doi: 10.1109/CVPR.2019.00985. [41] J. Uhrig, N. Schneider, L. Schneider, U. Franke, T. Brox, and A. Geiger, “Sparsity invariant CNNs,” inProc. Int. Conf. 3D Vis. (3DV), Oct. 2017, pp. 11–20. [42] F. Ma and S. Karaman, “Sparse-to-dense: Depth prediction from sparse depth samples and a single image,” inProc. IEEE Int. Conf. Robot. Autom. (ICRA), May 2018, pp. 1–8, doi:10.1109/ICRA.2018.8460184. [43] F. Ma, G. V . Cavalheiro, and S. Karaman, “Self-supervised Sparse- to-dense: Self-supervised depth completion from LiDAR and monoc- ular camera,” inProc. Int. Conf. Robot. Autom. (ICRA), May 2019, pp. 3288–3295, doi:10.1109/ICRA.2019.8793637. [44] X. Cheng, P. Wang, and R. Yang, “Depth estimation via affinity learned with convolutional spatial propagation network,” inProc. Eur. Conf. Comput. Vis. (ECCV), 2018, pp. 108–125. [Online]. Available: Depth Estimation via Affinity Learned with Convolutional Spatial Propagation Network | SpringerLink [45] X. Cheng, P . Wang, G. Chenye, and R. Y ang, “Cspn++: Learning context and resource aware convolutional spatial propagation networks for depth completion,” inProc. 24th AAAI Conf. Artif. Intell. (AAAI), 2020, pp. 10615–10622. [46] M. Jaritz, R. D. Charette, E. Wirbel, X. Perrotton, and F. Nashashibi, “Sparse and dense data with CNNs: Depth completion and semantic segmentation,” inProc. Int. Conf. 3D Vis. (3DV), Sep. 2018, pp. 52–60, doi:10.1109/3DV .2018.00017. [47] A. Eldesokey, M. Felsberg, and F. S. Khan, “Confidence propagation through CNNs for guided sparse depth regression,”IEEE Trans. Pattern Anal. Mach. Intell., vol. 42, no. 10, pp. 2423–2436, Oct. 2020, doi: 10.1109/TPAMI.2019.2929170. [48] J. Tang, F.-P . Tian, W. Feng, J. Li, and P . Tan, “Learning guided convolutional network for depth completion,” 2019,arXiv:1908.01238. [Online]. Available: https://arxiv.org/abs/1908.01238 [49] W. V an Gansbeke, D. Neven, B. De Brabandere, and L. V an Gool, “Sparse and noisy LiDAR completion with RGB guidance and uncer- tainty,” inProc. 16th Int. Conf. Mach. Vis. Appl. (MVA), May 2019, pp. 1–6, doi:10.23919/MV A.2019.8757939. [50] X. Cheng, Y . Zhong, Y . Dai, P . Ji, and H. Li, “Noise-aware unsu- pervised deep lidar-stereo fusion,” inProc. IEEE/CVF Conf. Com- put. Vis. Pattern Recognit. (CVPR), Jun. 2019, pp. 6339–6348, doi: 10.1109/CVPR.2019.00650. [51] J. Zhang, M. S. Ramanagopalg, R. V asudevan, and M. Johnson-Roberson, “Listereo: Generate dense depth maps from lidar and stereo imagery,” inProc. IEEE Int. Conf. Robot. Automat., May 2020, pp. 7829–7836. [52] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” inProc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2016, pp. 770–778, doi:10.1109/CVPR.2016.90. [53] B. Zoph, V . V asudevan, J. Shlens, and Q. V . Le, “Learning transferable architectures for scalable image recognition,” inProc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit., Jun. 2018, pp. 8697–8710, doi: 10.1109/CVPR.2018.00907. [54] T.-H. Wang, F.-E. Wang, J.-T. Lin, Y .-H. Tsai, W.-C. Chiu, and M. Sun, “Plug-and-play: Improve depth prediction via sparse data propagation,” inProc. Int. Conf. Robot. Autom. (ICRA), May 2019, pp. 5880–5886. [55] A. V alada, R. Mohan, and W. Burgard, “Self-supervised model adap- tation for multimodal semantic segmentation,”Int. J. Comput. Vis., vol. 128, no. 5, pp. 1239–1285, Jul. 2019, doi:10.1007/s11263-019- 01188-y. [56] A. Geiger, P . Lenz, and R. Urtasun, “Are we ready for autonomous driving? The KITTI vision benchmark suite,” inProc. IEEE Conf. Comput. Vis. Pattern Recognit., Jun. 2012, pp. 3354–3361. [57] C. R. Qi, W. Liu, C. Wu, H. Su, and L. J. Guibas, “Frustum PointNets for 3D object detection from RGB-D data,” inProc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit., Jun. 2018, pp. 918–927, doi: 10.1109/CVPR.2018.00102. [58] X. Du, M. H. Ang, S. Karaman, and D. Rus, “A general pipeline for 3D detection of vehicles,” inProc. IEEE Int. Conf. Robot. Autom. (ICRA), May 2018, pp. 3194–3200, doi:10.1109/ICRA.2018.8461232. [59] K. Shin, Y . P . Kwon, and M. Tomizuka, “RoarNet: A robust 3D object detection based on RegiOn approximation refinement,” inProc. IEEE Intell. Vehicles Symp. (IV), Jun. 2019, pp. 2510–2515, doi: 10.1109/IVS.2019.8813895. [60] A. Mousavian, D. Anguelov, J. Flynn, and J. Kosecka, “3D bounding box estimation using deep learning and geometry,” inProc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Jul. 2017, pp. 7074–7082, doi: 10.1109/CVPR.2017.597

[61] Z. Y ang, Y . Sun, S. Liu, X. Shen, and J. Jia, “Ipod: Intensive point-based object detector for point cloud,” 2018,arXiv:1812.05276. [Online]. Available: https://arxiv.org/abs/1812.05276 [62] D. Xu, D. Anguelov, and A. Jain, “PointFusion: Deep sensor fusion for 3D bounding box estimation,” inProc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit., Jun. 2018, pp. 244–253, doi: 10.1109/CVPR.2018.00033. [63] X. Zhao, Z. Liu, R. Hu, and K. Huang, “3D object detection using scale invariant and feature reweighting networks,” inProc. AAAI Conf. Artif. Intell., vol. 33, 2019, pp. 9267–9274. [64] M. Jiang, Y . Wu, T. Zhao, Z. Zhao, and C. Lu, “Pointsift: A sift- like network module for 3d point cloud semantic segmentation,” 2018, arXiv:1807.00652. [Online]. Available: https://arxiv.org/abs/1807. 00652 [65] Z. Wang and K. Jia, “Frustum ConvNet: Sliding frustums to aggregate local point-wise features for amodal 3D object detection,” inProc. IEEE/RSJ Int. Conf. Intell. Robots Syst. (IROS), Nov. 2019, pp. 1–8, doi:10.1109/IROS40897.2019.8968513. [66] S. V ora, A. H. Lang, B. Helou, and O. Beijbom, “Pointpainting: Sequential fusion for 3D object detection,” inProc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit., 2019, pp. 4604–4612. [67] X. Chen, H. Ma, J. Wan, B. Li, and T. Xia, “Multi-view 3D object detection network for autonomous driving,” inProc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Jul. 2017, pp. 1907–1915, doi: 10.1109/CVPR.2017.691. [68] J. Ku, M. Mozifian, J. Lee, A. Harakeh, and S. L. Waslander, “Joint 3D proposal generation and object detection from view aggregation,” inProc. IEEE/RSJ Int. Conf. Intell. Robots Syst. (IROS), Oct. 2018, pp. 1–8, doi:10.1109/IROS.2018.8594049. [69] H. Lu, X. Chen, G. Zhang, Q. Zhou, Y . Ma, and Y . Zhao, “Scanet: Spatial-channel attention network for 3D object detection,” inProc. IEEE Int. Conf. Acoust., Speech Signal Process. (ICASSP), May 2019, pp. 1992–1996. [70] M. Liang, B. Y ang, S. Wang, and R. Urtasun, “Deep continuous fusion for multi-sensor 3D object detection,” inProc. Eur. Conf. Comput. Vis. (ECCV), Sep. 2018, pp. 641–656. [71] V . A. Sindagi, Y . Zhou, and O. Tuzel, “MVX-net: Multimodal V oxelnet for 3D object detection,” inProc. Int. Conf. Robot. Autom. (ICRA), May 2019, pp. 7276–7282, doi:10.1109/ICRA.2019.8794195. [72] Z. Wang, W. Zhan, and M. Tomizuka, “Fusing Bird’s eye view LIDAR point cloud and front view camera image for 3D object detection,” in Proc. IEEE Intell. Vehicles Symp. (IV), Jun. 2018, pp. 1–6. [73] M. Liang, B. Yang, Y . Chen, R. Hu, and R. Urtasun, “Multi- task multi-sensor fusion for 3D object detection,” inProc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2019, pp. 7345–7353. [74] G. P . Meyer, J. Charland, D. Hegde, A. Laddha, and C. V allespi- Gonzalez, “Sensor fusion for joint 3d object detection and semantic segmentation,” inProc. IEEE Conf. Comput. Vis. Pattern Recognit. Workshops, 2019. [75] S. Gupta, R. Girshick, P . Arbeláez, and J. Malik, “Learning rich features from RGB-D images for object detection and segmenta- tion,” inComputer Vision, in (Lecture Notes in Computer Science). New Y ork, NY , USA: Springer, 2014, pp. 345–360, doi:10.1007/978- 3-319-10584-0_23. [76] S. Gupta, J. Hoffman, and J. Malik, “Cross modal distillation for super- vision transfer,” inProc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2016, pp. 2827–2836, doi:10.1109/CVPR.2016.309. [77] R. Girshick, J. Donahue, T. Darrell, and J. Malik, “Rich feature hierar- chies for accurate object detection and semantic segmentation,” inProc. IEEE Conf. Comput. Vis. Pattern Recognit., Jun. 2014, pp. 580–587, doi:10.1109/CVPR.2014.81. [78] S. Gupta, P. Arbeláez, R. Girshick, and J. Malik, “Aligning 3D models to RGB-D images of cluttered scenes,” inProc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2015, pp. 4731–4740. [79] J. Schlosser, C. K. Chow, and Z. Kira, “Fusing LIDAR and images for pedestrian detection using convolutional neural networks,” inProc. IEEE Int. Conf. Robot. Autom. (ICRA), May 2016, pp. 2198–2205. [80] S. Shi, X. Wang, and H. Li, “PointRCNN: 3D object proposal gen- eration and detection from point cloud,” inProc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2019, pp. 770–779, doi: 10.1109/CVPR.2019.00086. [81] A. H. Lang, S. V ora, H. Caesar, L. Zhou, J. Y ang, and O. Beijbom, “PointPillars: Fast encoders for object detection from point clouds,” inProc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2019, pp. 12697–12705, doi:10.1109/CVPR.2019.01298.

[82] S. Song and J. Xiao, “Sliding shapes for 3D object detec- tion in depth images,” inComputer Vision, D. Fleet, T. Pajdla, B. Schiele, and T. Tuytelaars, Eds. Cham, Switzerland: Springer, 2014, pp. 634–651. [83] S. Wang, S. Suo, W.-C. Ma, A. Pokrovsky, and R. Urtasun, “Deep parametric continuous convolutional neural networks,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit., Jun. 2018, pp. 2589–2597. [84] S. Song and J. Xiao, “Deep sliding shapes for amodal 3D object detection in RGB-D images,” inProc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2016, pp. 808–816. [85] G. P . Meyer, A. Laddha, E. Kee, C. V allespi-Gonzalez, and C. K. Wellington, “LaserNet: An efficient probabilistic 3D object detector for autonomous driving,” inProc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2019, pp. 12677–12686, doi: 10.1109/CVPR.2019.01296. [86] M. Bai, G. Mattyus, N. Homayounfar, S. Wang, S. K. Lakshmikanth, and R. Urtasun, “Deep multi-sensor lane detection,” inProc. IEEE/RSJ Int. Conf. Intell. Robots Syst. (IROS), Oct. 2018, pp. 3102–3109. [87] F. Wulff, B. Schaufele, O. Sawade, D. Becker, B. Henke, and I. Radusch, “Early fusion of camera and lidar for robust road detection based on U-Net FCN,” inProc. IEEE Intell. Vehicles Symp. (IV), Jun. 2018, pp. 1426–1431. [88] X. Lv, Z. Liu, J. Xin, and N. Zheng, “A novel approach for detecting road based on two-stream fusion fully convolutional network,” inProc. IEEE Intell. Vehicles Symp. (IV), Jun. 2018, pp. 1464–1469. [89] D. Yu, H. Xiong, Q. Xu, J. Wang, and K. Li, “Multi-stage residual fusion network for LIDAR-camera road detection,” inProc. IEEE Intell. Vehicles Symp. (IV), Jun. 2019, pp. 2323–2328. [90] L. Caltagirone, M. Bellone, L. Svensson, and M. Wahde, “LIDAR– camera fusion for road detection using fully convolutional neural networks,”Robot. Auto. Syst., vol. 111, pp. 125–131, Jan. 2019, doi: 10.1016/j.robot.2018.11.002. [91] Z. Chen, J. Zhang, and D. Tao, “Progressive LiDAR adaptation for road detection,”IEEE/CAA J. Automatica Sinica, vol. 6, no. 3, pp. 693–702, May 2019. [92] J.-S. Lee and T.-H. Park, “Fast road detection by CNN-based camera-lidar fusion and spherical coordinate transformation,”IEEE Trans. Intell. Transp. Syst., early access, May 6, 2020, doi: 10.1109/TITS.2020.2988302. [93] L. Ma, Y . Li, J. Li, C. Wang, R. Wang, and M. Chapman, “Mobile laser scanned point-clouds for road object detection and extraction: A review,”Remote Sens., vol. 10, no. 10, p. 1531, Sep. 2018. [94] S. P . Narote, P . N. Bhujbal, A. S. Narote, and D. M. Dhane, “A review of recent advances in lane detection and departure warning system,” Pattern Recognit., vol. 73, pp. 216–234, Jan. 2018. [95] Y . Xinget al., “Advances in vision-based lane detection: Algo- rithms, integration, assessment, and perspectives on ACP-based parallel vision,”IEEE/CAA J. Automatica Sinica, vol. 5, no. 3, pp. 645–661, May 2018. [96] A. S. Huang, D. Moore, M. Antone, E. Olson, and S. Teller, “Finding multiple lanes in urban road networks with vision and lidar,”Auto. Robots, vol. 26, nos. 2–3, pp. 103–122, Apr. 2009. [97] P. Y . Shinzato, D. F. Wolf, and C. Stiller, “Road terrain detection: Avoiding common obstacle detection assumptions using sensor fusion,” inProc. IEEE Intell. Vehicles Symp. Proc., Jun. 2014, pp. 687–692. [98] L. Xiao, R. Wang, B. Dai, Y . Fang, D. Liu, and T. Wu, “Hybrid con- ditional random field based camera-LIDAR fusion for road detection,” Inf. Sci., vol. 432, pp. 543–558, Mar. 2018. [99] L. Xiao, B. Dai, D. Liu, T. Hu, and T. Wu, “CRF based road detection with multi-sensor fusion,” inProc. IEEE Intell. Vehicles Symp. (IV), Jun. 2015, pp. 192–198. [100] A. Mogelmose, M. M. Trivedi, and T. B. Moeslund, “Vision-based traffic sign detection and analysis for intelligent driver assistance systems: Perspectives and survey,”IEEE Trans. Intell. Transp. Syst., vol. 13, no. 4, pp. 1484–1497, Dec. 2012. [101] M. Tan, B. Wang, Z. Wu, J. Wang, and G. Pan, “Weakly supervised metric learning for traffic sign recognition in a LIDAR-equipped vehi- cle,”IEEE Trans. Intell. Transp. Syst., vol. 17, no. 5, pp. 1415–1427, May 2016. [102] Y . Y u, J. Li, C. Wen, H. Guan, H. Luo, and C. Wang, “Bag-of-visual- phrases and hierarchical deep models for traffic sign detection and recognition in mobile laser scanning data,”ISPRS J. Photogramm. Remote Sens., vol. 113, pp. 106–123, Mar. 2016.

[103] M. Soilán, B. Riveiro, J. Martínez-Sánchez, and P. Arias, “Traf- fic sign detection in MLS acquired point clouds for geomet- ric and image-based semantic inventory,”ISPRS J. Photogramm. Remote Sens., vol. 114, pp. 92–101, Apr. 2016. [Online]. Available: Traffic sign detection in MLS acquired point clouds for geometric and image-based semantic inventory - ScienceDirect [104] Á. Arcos-García, M. Soilán, J. A. Álvarez-García, and B. Riveiro, “Exploiting synergies of mobile mapping sensors and deep learning for traffic sign recognition systems,”Expert Syst. Appl., vol. 89, pp. 286–295, Dec. 2017. [105] H. Guanet al., “A convolutional capsule network for traffic-sign recognition using mobile LiDAR data with digital images,”IEEE Geosci. Remote Sens. Lett., vol. 17, no. 6, pp. 1067–1071, Jun. 2020. [106] Z. Deng and L. Zhou, “Detection and recognition of traffic planar objects using colorized laser scan and perspective distortion rectifica- tion,”IEEE Trans. Intell. Transp. Syst., vol. 19, no. 5, pp. 1485–1495, May 2018.[107] H. Guan, W. Y an, Y . Y u, L. Zhong, and D. Li, “Robust traffic-sign detection and classification using mobile LiDAR data with digital images,”IEEE J. Sel. Topics Appl. Earth Observ. Remote Sens., vol. 11, no. 5, pp. 1715–1724, May 2018. [108] C. Premebida, J. Carreira, J. Batista, and U. Nunes, “Pedestrian detection combining rgb and dense lidar data,” inProc. IEEE/RSJ Int. Conf. Intell. Robots Syst., Sep. 2014, pp. 4112–4117. [109] A. Dai and M. Nießner, “3DMV: Joint 3D-multi-view prediction for 3D semantic scene segmentation,” inProc. Eur. Conf. Comput. Vis. (ECCV) (Lecture Notes in Computer Science), 2018, pp. 458–474. [Online]. Available: 3DMV: Joint 3D-Multi-view Prediction for 3D Semantic Scene Segmentation | SpringerLink [110] A. Dai, A. X. Chang, M. Savva, M. Halber, T. Funkhouser, and M. Niessner, “ScanNet: Richly-annotated 3D reconstructions of indoor scenes,” inProc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Jul. 2017, pp. 5828–5839, doi:10.1109/CVPR.2017.261. [111] H.-Y . Chiang, Y .-L. Lin, Y .-C. Liu, and W. H. Hsu, “A unified point- based framework for 3D segmentation,” inProc. Int. Conf. 3D Vis. (3DV), Sep. 2019, pp. 155–163, doi:10.1109/3DV .2019.00026.[112] M. Jaritz, J. Gu, and H. Su, “Multi-view PointNet for 3D scene understanding,” inProc. IEEE/CVF Int. Conf. Comput. Vis. W orkshop (ICCVW), 2019, pp. 3995–4003, doi:10.1109/ICCVW.2019.00494. [113] H. Suet al., “SPLATNet: Sparse lattice networks for point cloud processing,” inProc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit., Jun. 2018, pp. 2530–2539, doi:10.1109/CVPR.2018.00268. [114] J. Hou, A. Dai, and M. NieBner, “3D-SIS: 3D semantic instance segmentation of RGB-D scans,” inProc. IEEE/CVF Conf. Com- put. Vis. Pattern Recognit. (CVPR), Jun. 2019, pp. 4421–4430, doi: 10.1109/CVPR.2019.00455. [115] A. Paszke, A. Chaurasia, S. Kim, and E. Culurciello, “Enet: A deep neural network architecture for real-time semantic segmentation,” 2016, arXiv:1606.02147. [Online]. Available: https://arxiv.org/abs/1606. 02147 [116] G. Narita, T. Seno, T. Ishikawa, and Y . Kaji, “PanopticFusion: Online volumetric semantic mapping at the level of stuff and things,” inProc. IEEE/RSJ Int. Conf. Intell. Robots Syst. (IROS), Nov. 2019, pp. 1–8, doi:10.1109/IROS40897.2019.8967890. [117] C. Elich, F. Engelmann, T. Kontogianni, and B. Leibe, “3d bird’s-eye- view instance segmentation,” inProc. German Conf. Pattern Recognit., 2019, pp. 48–61. [Online]. Available: http://dx.doi.org/10.1007/978-3- 030-33676-9_4[118] D. Comaniciu and P. Meer, “Mean shift: A robust approach toward feature space analysis,”IEEE Trans. Pattern Anal. Mach. Intell., vol. 24, no. 5, pp. 603–619, May 2002. [119] D. Frossard and R. Urtasun, “End-to-end learning of multi-sensor 3D tracking by detection,” inProc. IEEE Int. Conf. Robot. Autom. (ICRA), May 2018, pp. 635–642, doi:10.1109/ICRA.2018.8462884. [120] W. Zhang, H. Zhou, S. Sun, Z. Wang, J. Shi, and C. C. Loy, “Robust multi-modality multi-object tracking,” inProc. IEEE/CVF Int. Conf. Comput. Vis. (ICCV), Oct. 2019, pp. 2365–2374, doi: 10.1109/ICCV .2019.00245. [121] J. Luiten, T. Fischer, and B. Leibe, “Track to reconstruct and reconstruct to track,”IEEE Robot. Autom. Lett., vol. 5, no. 2, p. 1803–1810, Apr. 2020. [Online]. Available: http://dx.doi.org/10.1109/LRA.2020. 2969183 [122] M. Simonet al., “Complexer YOLO: Real-time 3D object detection and tracking on semantic point clouds,” inProc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR) Workshops, Jun. 2019, pp. 1–10. [123] K. Simonyan and A. Zisserman, “V ery deep convolutional networks for large-scale image recognition,” inProc. Int. Conf. Learn. Repre- sentations, 2015, pp. 1–14. [124] A. Napier, P . Corke, and P . Newman, “Cross-calibration of push-broom 2D LIDARs and cameras in natural scenes,” inProc. IEEE Int. Conf. Robot. Autom., May 2013, pp. 3679–3684

[125] Z. Taylor and J. Nieto, “Automatic calibration of lidar and camera images using normalized mutual information,” inProc. IEEE Int. Conf. Proc. Robot. Autom. (ICRA), 2013, pp. 1–8. [126] G. Pandey, J. R. McBride, S. Savarese, and R. M. Eustice, “Automatic extrinsic calibration of vision and lidar by maximizing mutual infor- mation,”J. Field Robot., vol. 32, no. 5, pp. 696–722, Aug. 2015. [127] M. Miled, B. Soheilian, E. Habets, and B. Vallet, “Hybrid online mobile laser scanner calibration through image alignment by mutual information,”ISPRS Ann. Photogramm., Remote Sens. Spatial Inf. Sci., vol. III1, pp. 25–31, Jun. 2016. [Online]. Available: https://ui.adsabs. harvard.edu/abs/2016ISPAnIII1...25M, doi:10.5194/isprs-annals-III-1- 25-2016. [128] H.-J. Chien, R. Klette, N. Schneider, and U. Franke, “Visual odom- etry driven online calibration for monocular LiDAR-camera sys- tems,” inProc. 23rd Int. Conf. Pattern Recognit. (ICPR), Dec. 2016, pp. 2848–2853.[129] N. Schneider, F. Piewak, C. Stiller, and U. Franke, “RegNet: Mul- timodal sensor registration using deep neural networks,” inProc. IEEE Intell. Vehicles Symp. (IV), Jun. 2017, pp. 1803–1810, doi: 10.1109/IVS.2017.7995968. [130] G. Iyer, R. K. Ram, J. K. Murthy, and K. M. Krishna, “CalibNet: Geometrically supervised extrinsic calibration using 3D spatial trans- former networks,” inProc. IEEE/RSJ Int. Conf. Intell. Robots Syst. (IROS), Oct. 2018, pp. 1110–1117. [131] S. H. Park, B. Kim, C. M. Kang, C. C. Chung, and J. W. Choi, “Sequence-to-Sequence prediction of vehicle trajectory via LSTM encoder-decoder architecture,” inProc. IEEE Intell. Vehicles Symp. (IV), Jun. 2018, pp. 1672–1678. [132] J. Weng, N. Ahuja, and T. S. Huang, “Cresceptron: A self-organizing neural network which grows adaptively,” inProc. Int. Joint Conf. Neural Netw. (IJCNN), vol. 1, Jun. 1992, pp. 576–581. [133] A. R. Dhamija, M. Gunther, J. V entura, and T. E. Boult, “The over- looked elephant of object detection: Open set,” inProc. IEEE Winter Conf. Appl. Comput. Vis. (WACV), Mar. 2020, pp. 1010–1019.[134] K. Wong, S. Wang, M. Ren, M. Liang, and R. Urtasun, “Identifying unknown instances for autonomous driving,” inProc. Conf. Robot Learn., 2020, pp. 384–393. [135] E. Imre, J.-Y . Guillemaut, and A. Hilton, “Through-the-Lens multi- camera synchronisation and frame-drop detection for 3D reconstruc- tion,” inProc. 2nd Int. Conf. 3D Imag., Model., Process., Vis. Trans- miss., Oct. 2012, pp. 395–402. [136] Y . Li, D. Roblek, and M. Tagliasacchi, “From here to there: Video inbetweening using direct 3D convolutions,” 2019,arXiv:1905.10240. [Online]. Available: http://arxiv.org/abs/1905.10240 [137] J. Huanget al., “Speed/Accuracy trade-offs for modern convolutional object detectors,” inProc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Jul. 2017, pp. 7310–7311, doi:10.1109/CVPR.2017.351. [138] Z. Wuet al., “3D ShapeNets: A deep representation for volumetric shapes,” inProc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2015, pp. 1912–1920, doi:10.1109/CVPR.2015.7298801

你可能感兴趣的:(论文,自动驾驶,深度学习,人工智能)