特征级融合_深度学习基于摄像头和激光雷达融合的3-D目标检测

特征级融合_深度学习基于摄像头和激光雷达融合的3-D目标检测_第1张图片

以前在传感器融合讲过数据级的融合(深度图)和任务级的融合(比如检测),大家有时候讨论前融合和后融合的区别,或者是一种中间层融合。提到过的摄像头和激光雷达在目标检测任务的融合方法,有AVOD、PointFusion、RoarNet和F-PointNets等。这里列出一些近期的论文讨论。


“MLOD: A multi-view 3D object detection based on robust feature fusion method”, 2019, 9

本文是一个多视图标记的目标检测器(MLOD)。检测器将RGB图像和激光雷达点云作为输入,并遵循两步目标检测框架。区域提议网络(RPN)在点云的鸟瞰视图(BEV)投影中生成3D提议。第二步将3D提议边框投影到图像和BEV特征图,并将相应的图截取发送到检测头(detector head)以进行分类和边界框回归。与其他多视图方法不同,裁剪的图像特征不直接馈送到检测头,而是被深度信息掩盖以过滤掉3D边框外的部分。图像和BEV特征的融合具有挑战性,因为它们来自不同的视角。这里引入了一种新检测头,不仅可以从融合层提供检测结果,还可以从每个传感器通道提供检测结果。因此,可以用不同视图标记的数据训练目标检测器,以避免特征提取器的退化。

本文提出的两步神经网络结构如图所示。BEV图和RGB图像被馈入两个卷积神经网络获得特征。 为了提高计算效率,仅使用RPN的鸟瞰视图(BEV)特征生成3D提议。 基于提议的深度信息,3D提议之外的图像特征被前景掩码层(foreground mask layer)掩盖。 然后,掩码的图像特征图和BEV特征图被裁剪并传递到多视图头(multi-view header),提供最终的分类、定位和定向结果。

特征级融合_深度学习基于摄像头和激光雷达融合的3-D目标检测_第2张图片

为在提议的3D边框内正确捕获目标的图像特征,本文引入了前景掩码层来过滤掉前景特征。下图显示了前景掩码层的流程:首先,该层用3D提议投影的前视2D边框裁剪并调整其(稀疏)深度图的大小;然后将nk×nk深度图等分成k×k网格;该层计算每个网格单元中非零深度值的中值mij,因为零值表示该像素没有激光雷达点信息。

特征级融合_深度学习基于摄像头和激光雷达融合的3-D目标检测_第3张图片
(a)

特征级融合_深度学习基于摄像头和激光雷达融合的3-D目标检测_第4张图片
(b)

在多视图3D目标检测方法中,基于BEV的IoU来分配提议标签。但前视图的IoU可能与BEV的IoU明显不同。如图所示是将3D边框分配给负标签但在图像视图中IoU > 0.7的示例。 当仅基于BEV IoU分配标签来训练目标检测器时,(前视图)图像通道的性能降低。

特征级融合_深度学习基于摄像头和激光雷达融合的3-D目标检测_第5张图片

作者提出了一种多视图检测头,以避免RGB图像特征的衰减。 下图显示了头部网络结构:关键想法是在融合层(concat)之前为每个通道添加额外的输出层;两个输出的每一个馈入到相应的子输出(sub-output)损失中。

特征级融合_深度学习基于摄像头和激光雷达融合的3-D目标检测_第6张图片

下图给出一些直观的结果例子:每张图像检测车辆为绿色,行人为蓝色,骑车者为黄色。

特征级融合_深度学习基于摄像头和激光雷达融合的3-D目标检测_第7张图片

“Multi-Sensor 3D Object Box Refinement for Autonomous Driving”,2019,9

这是一个在自动驾驶中多传感器细化的3D对象检测系统。单目摄像头充当2D目标提议和初始3D边框预测的基本传感器,而立体相机和激光雷达视为自适应插入式传感器,改善3D边框的定位性能。对于原始观测的每个观察元素(例如,立体视觉的像素,激光雷达的3D点),该方法将局部几何模型建模为实例向量(instance vector)表示,代表每个元素相对于目标帧的3D坐标。使用这样统一的几何表示,有利于立体视觉光度对齐(stereo photometric alignment)或点云对齐(point cloud alignment)来统一地细化3D目标位置估计。

如下图所示,首先是一个单目3D目标检测器设计。给定单个图像作为基本输入,将Faster R-CNN扩展到轻量级单目3D目标检测器,其中预测几个空间信息、2D框和目标类,以

你可能感兴趣的:(特征级融合)