原文链接:https://arxiv.org/pdf/2203.08195.pdf
目前的方法主要基于两种融合方式:早期融合(融合数据)和中期融合(融合特征)。
但是,由于数据增广通常是针对单一模态的;且一个点云体素可能对应多个图像像素,这些像素特征不是对3D检测同等重要的。因此,寻找图像和点云之间的特征对应关系是一个挑战。
本文提出InverseAug和LearnableAlign进行有效的中期融合。前者反转与几何相关的数据增广,然后使用相机和激光雷达的原始参数关联两个模态;后者使用交叉注意力动态学习两模态特征关系。
本文的多模态检测插件被称为DeepFusion,与现有的基于体素的检测方法兼容并能端到端训练。
实验表明深度特征对齐是多模态3D检测的关键,且DeepFusion对输入损坏和分布外样本更加鲁棒,对远距离物体的检测最有帮助。
如下图所示,过去的方法如PointPainting或PointAugmenting使用额外的任务训练图像特征提取器,将图像特征附加到激光雷达点云上进行基于点云的检测。这种非端到端学习的方式会导致domain gap、需要额外标注、引入额外计算,以及(对于3D检测任务的)非最优特征提取。此外,这些方法中图像特征随着点云一起被点云方法处理(如体素化),但点云处理方法可能不适合处理图像特征。
本文通过在激光雷达点云的特征层面融合图像特征,并将图像特征提取器与网络其余部分一起训练,以解决上述问题。如下图所示,图像和激光雷达点云分别送入各自的特征提取器得到特征,融合后输入激光雷达检测网络的剩余部分进行3D检测。这样高分辨率、富含上下文信息的图像特征不会被体素化转换到BEV下,且实现了端到端训练。
但缺点是特征层面的融合使得对齐不如数据层面的融合直接,在各模态上分别进行的数据增广也会给融合带来困难。
仅对激光雷达点云进行旋转数据增广,而不对图像进行任何数据增广。当旋转角增大时,多模态融合带来的性能增益下降。因此对齐对多模态融合很重要。
InverseAug:通常会在训练时使用数据增广来避免过拟合并提高性能,但图像和点云独立的数据增广方法会导致对齐困难。如下图所示,首先存储几何数据增广的增广参数,融合阶段的3D关键点(可以是任何3D坐标,如激光雷达点或体素中心等等)根据该参数进行逆向增广得到原始坐标,再在图像中寻找相应的像素。注意该方法也适用于图像数据增广和多模态数据增广。
LearnableAlign:体素与像素的对应是一对多的关系。由于各像素的重要性不同,如前景像素的重要性可能大于背景像素,直接平均各像素特征可能不是最优方案。本文使用交叉注意力动态捕捉模态之间的相互关系(如图1所示)。
LearnableAlign的输入包含一个体素及其对应的个像素特征,先分别使用3个MLP将体素特征转换为查询,图像特征转化为键和值。然后计算查询与键的内积,得到该体素与个像素之间的相关性,用softmax归一化后,该相关性用于加权聚合,最后通过全连接层并与体素特征拼接,输入到3D检测网络中。
数据集为Waymo Open。
LearnableAlign:与动态体素化结合实现。
InverseAug:训练时依次使用下列数据增广:随机旋转、全局缩放、全局平移噪声、随机翻转、Frustum-Dropout、随机丢弃激光点。在融合阶段,反过来(包含顺序和增广方向)应用几何增广方法将3D关键点转换到原始坐标下。
本文将DeepFusion插入各激光雷达检测网络,得到了一致的性能提升。
本文比较了不同距离下检测性能的提升情况,其中远距离物体的检测精度提升最大,这可能是因为远处激光雷达点的稀疏性被高分辨率图像信号补偿。
可视化注意力图可以发现,模型关注有判别力的区域和物体边缘,因此高分辨率相机信号可以帮助识别和预测物体边界。
在激光雷达检测模型的基础上,引入两者均能促进检测,且InverseAug的影响更大。
与输入融合(数据融合/早期融合)和晚期融合(分别体素化图像和点云特征后拼接)相比,本文方法性能最佳。
对损坏输入的鲁棒性:相比单一模态方法,使用DeepFusion的多模态方法对激光噪声和像素噪声的鲁棒性远远更强。
对分布外(OOD)数据的鲁棒性:使用DeepFusion的多模态方法在分布外数据上的性能提升(基准为单一模态方法)比分布内数据更高。
基本方案的改进:本文通过改进PointPillars、CenterPoint和3D-MAN中的体素特征编码器(全连接层变为MLP;使用神经结构搜索(NAS)选择最佳超参数)和激活函数(ReLU变成SILU),大幅提高了检测性能。
注意此部分与DeepFusion无关。
训练细节:使用两个难度的数据进行训练,并使用不确定性损失以容忍模型以较低的精度检测低置信度物体。
提交模型的细节:还通过拼接前帧的点云(为防止过拟合,每一帧以一定的概率被丢弃,该方法称为DropFrame)来组合过去帧信息;测试时,使用模型集成并通过加权框融合(WBF)进行测试时增广(TTA)。
通过改变伪图像/体素分辨率来改变模型延迟。在相同的延迟下,DeepFusion的方法要优于单一模态方法;且即使增大单一模态方法的模型尺度,性能上限也比此时的DeepFusion低。