论文链接:[2004.12636] 3D-CVF: Generating Joint Camera and LiDAR Features Using Cross-View Spatial Feature Fusion for 3D Object Detection (arxiv.org)
采用单一模态的数据进行目标检测性能有限,因此多模态感知融合技术开始出现。例如使用相机与激光雷达进行3D物体检测,由于这两种传感器具有不同的特征和分布,融合这两种模态的信息有望提高3D物体检测的准确性和鲁棒性。
由于相机与激光雷达获得的空间特征图存在视角差异,因此对这两种异构数据进行融合存在丢失信息的问题,为了解决这个问题,该论文提出了3D-CVF。
首先,该方法采用自动校准投影,将2D相机特征转换为与鸟瞰图(BEV)中的LiDAR特征具有最高对应关系的平滑空间特征图。然后应用门控特征融合网络以使用空间注意力图根据区域适当地混合相机和LiDAR特征。接下来,相机-LiDAR特征融合也在随后的提议细化阶段实现。低级 LiDAR 特征和相机特征使用基于感兴趣区域 (RoI) 的特征池分别池化,并与联合相机LiDAR特征融合以增强提议细化。
其实就是分别对相机数据与激光雷达数据进行特征提取以及融合相机特征与激光雷达特征,然后将相机的特征以及激光雷达的特征进行编码,对融合特征进行池化,接着将三种处理过的数据送入3D ROI Fusion-based Refinement,最后进行3D物体检测。
该网络的总体架构由五个模块组成,包括 1) LiDAR pipeline,2) camera pipeline,3) cross-view spatial feature mapping,4) gated camera-LiDAR feature fusion network, 5)proposal generation and refinement network。
对激光雷达点进行体素化,每个体素内最多保留max个点,少的点由零补,多的点去掉,生成固定长度的向量,然后送入六个步幅为2的3D稀疏卷积层处理,生成 BEV 域中128个通道的 LiDAR 特征图,生成的 LiDAR 特征图的特征图减少了八分之一,这一部分结构应该取自SECOND中的类似,相比于进行3D卷积,3D稀疏卷积减少了内存消耗。
相机RGB图像由CNN主干网络处理,使用预训练的ResNet18和特征金字塔网络 (FPN)来生成相机视图中表示的256个通道的相机特征图,相机特征图的宽度和高度减少了八分之一。
交叉视图特征(CVF)映射生成投影在BEV中的相机特征图。自动校准投影将相机视图中的相机特征图转换为BEV中的特征图。然后,投影的特征图通过额外的卷积层得到增强,并传送到门控相机-LiDAR特征融合块。
(1) 密集像素结构:构建相机体素结构以生成空间密集特征,在x和y轴上是LiDAR体素结构的两倍,总体素量是LiDAR的4倍。
(2) 自动校准投影方法:将相机视图特征转换为BEV特征,找到它们之间的最佳对应关系以最大化信息融合的效果。具体方法为,首先使用world-to-camera-view投影矩阵将每个体素的中心投影到相机视图平面中,其中voxel的投影点为
每个投影点
通过偏移量(Δx,Δy)调整,得到camera-view中的投影位置
,其相邻的四个像素通过线性插值方法得到各自权重,然后分配给各自的区域。
组合像素
集合{fm,n}表示相邻像素,wm,n表示权重,一般的插值方法由双线性插值,使用的是欧氏距离,
上图就是双线性插值的图例,x方向单线性插值
f ( R 1 ) = x 2 − x x 2 − x 1 f ( Q 11 ) + x − x 1 x 2 − x 1 f ( Q 21 ) f({R_1})=\frac{{x_2}-x}{{x_2}-{x_1}}f(Q_{11})+\frac{x-{x_1}}{{x_2}-{x_1}}f(Q_{21}) f(R1)=x2−x1x2−xf(Q11)+x2−x1x−x1f(Q21)
f ( R 2 ) = x 2 − x x 2 − x 1 f ( Q 12 ) + x − x 1 x 2 − x 1 f ( Q 22 ) f({R_2})=\frac{{x_2}-x}{{x_2}-{x_1}}f(Q_{12})+\frac{x-{x_1}}{{x_2}-{x_1}}f(Q_{22}) f(R2)=x2−x1x2−xf(Q12)+x2−x1x−x1f(Q22)
y方向单线性插值
f ( P ) = y 2 − y y 2 − y 1 f ( R 1 ) + y − y 1 y 2 − y 1 f ( R 2 ) f({P})=\frac{{y_2}-y}{{y_2}-{y_1}}f(R_{1})+\frac{y-{y_1}}{{y_2}-{y_1}}f(R_{2}) f(P)=y2−y1y2−yf(R1)+y2−y1y−y1f(R2)
自动校准投影的效果对比
(a)和(b)表示自动校准投影前后的效果,如果没有自动校准投影,则无法得到密集且平滑的变换特征图,但是还需要通过自适应门控融合网络才能定位物体的位置,得到(c)中的效果。
对于自动校准投影中的偏移量(Δx,Δy)的介绍没有详细说明。
自适应门控融合网络用于组合相机特征图和激光雷达特征图。空间注意力图被应用于两个特征图,以根据它们的重要性调整每个模态的贡献。自适应门控融合网络生成联合相机-LiDAR特征图,传递给3D ROI Fusion-based Refinement。
在基于joint camera-LiDAR feature map生成区域建议后,应用RoI pooling进行建议细化。由于joint camera-LiDAR feature map不包含足够的空间信息,因此使用3D ROI-based pooling提取多尺度LiDAR特征和相机特征。这些特征由PointNet编码器单独编码,并通过3D ROI-based fusion network与joint camera-LiDAR feature map融合。融合后的特征用于产生最终的检测结果。
Region Proposal Generation
将joint camera-LiDAR feature通过RPN得到初步的检测结果:候选区域。
3D ROI-based Feature Fusion
joint camera-LiDAR feature的经过RPN后得到的预测框使用旋转的3D ROI转为全局坐标,同时将经过池化与编码的low-level LIDAR和camera feature与joint camera-LiDAR feature进行结合,得到更加详细的信息。
多视角相机特征被转换为1*1的特征向量。
由于camera-view的特征与proposals的3D boxes位于不同的视角,因此设计了ROI grid-based pooling,首先对每个候选的3D box的每条边等距取点,得到r * r * r个点,然后将这些点投影到camera-view下,获取对应的图像像素特征,然后由PointNet编码器编码。这些编码的多视图相机特征的串联形成一个1×1特征向量。
用于提议细化的最终特征是通过将这两个1×1特征向量(相机与激光雷达的特征向量)与RoI aligned的joint camera-LiDAR feature连接起来获得的。
L r p n = β 1 L c l s + β 2 ( L r e g ∣ θ + L r e g ∣ l o c ) L_{rpn}=\beta_1L_{cls}+\beta_2(L_{reg|\theta}+L_{reg|loc}) Lrpn=β1Lcls+β2(Lreg∣θ+Lreg∣loc)
第一阶段,RPN损失训练,β1 和 β2 设置为 1.0 和 2.0。Lreg|θ和Lreg|loc的损失函数分别是Smoothed-L1和改进后的smooth-L1(SECOND论文中的)。
分类损失回归
细化损失
新增的Liou引用自论文《Gs3d: An efficient 3d object detection framework for autonomous driving》。
其中ov表示目标框与真实框之间的重合度。
采用SECOND中的copy-to-paste的方法,随机抽样点云将其插入到当前训练的样本中进行数据增强,可以加速收敛。但是图像不能用这种方法,一般图像进行数据增强的方法为旋转、缩放、遮挡、光线明暗等。