【无标题】

MVX-Net论文解读

论文地址:[1904.01649] MVX-Net: Multimodal VoxelNet for 3D Object Detection (arxiv.org)

论文代码:open-mmlab/mmdetection3d: OpenMMLab’s next-generation platform for general 3D object detection. (github.com)

1.概述

​基于图像的方式进行3D目标检测虽然能获取丰富的语义信息,但是天然存在深度估计不准确的问题,因此对于3D目标检测的工作开始集中在激光雷达点云数据处理上,但是使用单一模态进行3D目标检测仍然存在相关的问题(点云数据稀疏)。

​借助图像提取的特征来获得高级语义信息对稀疏的激光点云信息进行补偿。MVX-Net介绍了PointFusion和VoxelFusion这两种简单而有效的融合方法。

2.基于PointFusion的融合方法

【无标题】_第1张图片
​使用预训练的2D Faster RCNN卷积滤波器对图像进行高级特征提取(2D CNN),然后使用校准信息将3D点云的点投影到图像上,接着将相应的图像特征附加到3D点(Feature indexing)。经过中间的Dimension Reduction进行降维,第一次降维到96,第二次降维到16,在Pointwise Concat与3D点进行连接,其中3D点的维度是(x,y,z,r)加上每个点相对于一个体素中的质心之间的距离,一共7个维度,因此拼接上后输入到第一个VFE层中(7+16,32),第二个VFE层(32,128),经过最大池化后送入3D RPN进行检测。

VFE层的具体流程:
【无标题】_第2张图片
​VFE层在获得逐点特征后又拼接上了局部特征(对体素内的点进行最大池化),因此信息更加丰富。

3D RPN
【无标题】_第3张图片
​上图的区域回归网络取自于VoxelNet文中,MVX-Net的具体流程应该与VoxelNet的类似。

​基于PointFsuion的优点是,由于图像特征在很早的阶段就被连接起来,网络可以通过 VFE 层学习从两种模式中总结有用的信息。此外,该方法利用 LiDAR 点云并将相应的图像特征提升到 3D 点的坐标。

3.基于VoxelFusion的融合方法

【无标题】_第4张图片
​基于体素融合的方法是将点云空间划分成一个个的体素块,把非空体素块投影到图像上以形成ROI(感兴趣区域),然后将从RGB中提取的特征附加到体素上,产生512维的特征向量,通过Dimension Reduction进行降维,将其降低到64维,然后与经过VFE层的体素进行堆叠,最后经过3D RPN进行检测。其中,VFE-1(7, 32)和VFE-2(32, 64)。

4.总结

【无标题】_第5张图片
【无标题】_第6张图片
​从实验结果看出,采用VoxelFusion的方法的检测准确率要低于PointFusion的融合方法。因此,早期融合可以让网络中的VFE层同时学习到点特征与图像特征。

​原论文中说了VoxelFusion融合方法的其他优点:与以 LiDAR 为中心的 PointFusion 相比,VoxelFusion可以独立利用两种模式。为了进行有效的训练和推理,我们当前的实现仅将非空体素投影到图像上。但是,可以通过将所有体素投影到图像上来扩展VoxelFusion方法。该策略利用基于图像的信息,而不管体素内是否存在点,这可能有助于远程检测,其中 LiDAR 的分辨率非常低。相比于PointFusion的融合方法,采用VoxelFusion的融合方法可以节省内存消耗。

​不足之处,请指正。

你可能感兴趣的:(深度学习,目标检测,自动驾驶)