Camera-LiDAR三维目标检测由于其在许多现实应用中的重要意义而被广泛研究。然而,如何解决两种模式之间的内在数据差异以及如何进行准确的特征融合仍然面临着巨大的挑战。为此,我们提出了一种称为CL3D的双流体系结构,它集成了点增强模块、点引导融合模块和欠条感知头,用于跨模态3D对象检测。首先从RGB图像生成伪激光雷达,然后设计点增强模块(PEM)对原始激光雷达进行伪点增强。此外,还开发了点导向融合模块(PFM),以寻找不同分辨率下的图像点对应关系,并以点的方式将语义与几何特征结合起来。我们还研究了三维检测中定位置信度与分类评分之间的不一致性,并引入IoU感知预测头(IoU head)用于精确盒回归。在公开的KITTI数据集上进行了综合实验,CL3D报告了与单模态和多模态3D检测器相比突出的检测性能,证明了其有效性和竞争力。
三维物体检测,相机-激光雷达融合,深度学习,自动驾驶,智能交通系统。
介绍目标识别近几年的各种方法。
图1所示。三维物体检测中存在的问题。(a)激光雷达的稀疏性。激光雷达点太稀疏,远处的汽车无法分辨。(b)通信不完全。大多数融合方法无法找到完美的像点对应,从而导致误检或漏检。(c)物体检测不一致。三维目标检测中普遍存在定位精度与分类置信度不一致的问题。最好用彩色观看。
为了解决这些问题,我们提出了一种名为CL3D的摄像机-激光雷达三维目标探测器,它是一个包含点增强模块(PEM)、点引导融合模块(PFM)和IoU感知头(IoU head)的双流结构。一方面,点增强模块将RGB图像生成的伪表示与原始激光雷达相结合,进行点特征增强;另一方面,点导向融合模块利用图像-点对应,聚合具有几何特征的多层次语义,在不同分辨率下获得更具有代表性的跨模态特征。进一步,我们研究了如图1所示的定位置信度与分类评分之间的不一致性,并开发了一种简单有效的IoU感知预测头(IoU head),用于精确的3D盒回归。在公开的KITTI数据集[25]上进行了大量的实验,我们提出的CL3D在单模态和多模态3D检测方法上呈现出具有竞争力的检测精度和显著的性能提升。
总的来说,本工作的贡献可以总结为:
1)我们直接从RGB图像中生成伪点,并通过点增强模块(PEM)将其与原始激光雷达融合,有效地增强了点特征的表示。
2)提出点导向融合模块(PFM),寻找图像与点之间的完美对应关系,并进行点向特征聚合,在不同分辨率下产生更具识别力的多模态特征。
3)研究了定位置信度与分类评分之间的偏差,设计了IoU感知预测头(IoU head)用于计算每个地真值与预测框之间的IoU。
4)我们将PEM、PFM和IoU Head集成到一个双流架构中,用于相机-激光雷达3D物体检测,称为CL3D。在KITTI数据集上的大量实验结果证明了CL3D的有效性和竞争力,具有良好的检测性能和显著的改进。
本文的其余部分组织如下:我们回顾了第二节的相关工作,并在第三节介绍了所提出的方法CL3D;第四节和第五节分别给出了实验分析和结论。
部分将简要回顾三维目标检测的发展以及目标检测中定位与分类不一致的问题。
A.基于摄像头的三维物体检测
B.基于激光雷达的三维物体检测
C.摄像头-激光雷达三维物体检测
CL3D的整体架构主要包括点增强模块、图像与点骨干网、点引导融合模块和细化网络。现将详细资料介绍如下。
CL3D体系结构概述。
(1)图像骨干(Image Backbone):采用四层卷积分层学习语义特征图,同时通过去卷积恢复特征图的大小,实现多尺度语义特征融合。
(2)点增强模块(PEM):将RGB图像生成的伪点与原始激光雷达信号相结合,缓解激光雷达的稀疏性,增强点云特征。
(3)点骨干(Point Backbone):包含4个集合抽象层,聚合邻近区域的点特征,再包含4个特征传播层,将点云投影回原始空间。
(4)点导向融合模块(Point-guided Fusion Module, PFM):寻找不同分辨率下的图像点对应关系,并以点为单位融合语义和几何特征。
(5)精化网络:利用对集合抽象层和特征传播层进行建议精化。多任务头引入IoU-aware head (IoU head)来计算每个地真值和预测框之间的IoU。最好用彩色观看。
用四层卷积分层学习语义特征图,同时通过Deformable Convolution恢复特征图的大小,实现多尺度语义特征融合。
deformable convolution可变形卷积(4uiiurz1-pytorch版)源码分析如图2所示,我们提出了一种双流架构,分别对图像和点特征进行编码。图像主干有4个卷积块,每个卷积块包含2个残留连接的3 × 3卷积,其次是批处理归一化(BN)和ReLU激活函数。在每个块中,第二次卷积以步幅2进行,以降低特征图的分辨率,同时扩大接受野。进一步利用4个去卷积层恢复目标细节,生成语义密集的多尺度图像特征图
对于点骨干网,我们采用了pointnet++[11]架构,该架构包含4个规模为4096、1024、256和64的集合抽象,用于在不断增加的上下文规模下进行自适应点特征聚合。之后,四个特征传播层将子采样点投影回原始空间。这样可以探索局部点和全局点之间的几何相关性,在不同分辨率下进行多模态特征融合。
点增强模块(PEM)原理图。首先,根据三维坐标对伪激光雷达进行次采样,并与原始激光雷达进行组合。然后我们输入两个N × 6的向量(N代表点的数量),即Q P和P Q,分别得到全局特征响应QW和PW。通过softmax函数,得到激活概率σ来表示特征通道的重要性。最后,我们通过元素积运算对两个特征分支进行加权,并将它们连接起来,得到点增强结果。
点导向融合模块(PFM)原理图。通过标定矩阵和双线性插值找到点向图像对应后,分别将激光雷达和点向图像特征输入到两个完全连通的层中。我们采用sigmoid函数将特征向量压缩到[0,1]中,将点与更新后的图像特征按元素的方式拼接得到联合特征图。
标定矩阵的作用是将图像转换为伪点云数据,利用双线性插值来获取每个点的局部语义特征,为了考虑相邻像素的影响。
我们在不同分辨率的双流架构中总共引入了5个PFMs:在点与图像骨干之间设置4个PFMs,构建每对点抽象与卷积特征映射的关系;另一种PFM用于融合最终图像和点特征表示。