【无标题】

PointPainting论文解读

论文链接:https://arxiv.org/pdf/1911.10150.pdf

1.背景

目前使用融合的方法(激光雷达与摄像机)进行3D物体检测的性能还不如使用单个传感器(激光雷达)。因此该论文提出了一种方法:将图像上的语义信息附加到激光点上,从而提高检测的能力。

【无标题】_第1张图片

上述实验结果表明了这种方法的优越性。

单纯使用激光雷达进行检测会出现下面的问题:

【无标题】_第2张图片

上图中行人和路标在激光雷达中的呈现情况,如果没有图片进行辅助,单从激光雷达的成像中无法判断,但是加上视觉的语义信息可以提升对象的检测性能。

2.PointPainting思想

【无标题】_第3张图片

【无标题】_第4张图片

组成部分:

(1)基于图像的语义网络;

(2)融合(画点);

(3)激光雷达检测器。

大致意思就是每个激光雷达点都被投影到图像语义分割网络的输出中,channel-wise激活被连接到每个激光雷达点的强度测量中。然后连接(画点)的激光雷达点可用于任何激光雷达检测方法。

通常融合的方法所遇到的问题是视角错位,例如将激光雷达的鸟瞰图与相机的前视图进行整合的问题。

以前的方法大致分为四类:object-centric fusion, continuous feature fusion, explicit transform and detection seeding.

(1)object-centric fusion:由 MV3D 和 AVOD 开创的以对象为中心的融合是两级架构最明显的选择。在这里,模态有不同的骨干,每个视图一个,并且通过在共享的一组 3D 提议中的每个模态中应用 roi-pooling,在对象提议级别进行融合。这允许端到端优化,但往往很慢且麻烦。

(2)continuous feature fusion:应用“连续特征融合”以允许在图像和激光雷达主干的所有步幅之间共享特征信息 。这些方法可用于单态检测设计,但需要先验地为每个样本计算从点云到图像的映射。这一系列方法的一个微妙但重要的缺点是“特征模糊”。发生这种情况是因为鸟瞰视图中的每个特征向量对应于图像视图中的多个像素,反之亦然。 ContFuse提出了一种基于 kNN、双线性插值和学习 MLP 的复杂方法来解决这个问题,但核心问题仍然存在。

(3)explicit transform:试图将图像显式转换为鸟瞰图然后进行融合。一些最有前途的纯图像方法使用这种想法,首先从图像创建人工点云,然后在鸟瞰图中继续 [25, 28]。随后的工作尝试基于这种想法进行融合,但性能达不到最先进的水平 [33],并且需要几个昂贵的处理步骤来构建伪点云。

(4)detection seeding:先验地从图像中提取语义,并将其用于点云中的detection seeding。 Frustrum PointNet和 ConvNet使用 2D 检测来限制视锥内的搜索空间,而 IPOD使用语义分割输出来播种3D提议。这提高了精度,但对召回率施加了上限。

PointPainting 解决了之前融合概念的不足:它没有对 3D 检测架构添加任何限制;它不受特征或深度模糊的影响;它不需要计算伪点云,也不限制最大召回率。

在KITTI以及nuScenes数据集上应用是需要注意,KITTI中提供了转换
l i d a r → T c a m e r a lidar→T_{camera} lidarTcamera
但是在nuScenes中是

【无标题】_第5张图片

时间延迟

​该论文研究了激光雷达网络对于语义信息延迟的敏感性。在每个点云都与最近的图像匹配时会出现延时,因为融合的时候需要等待图像的语义分割分数,为了消除延迟,先前的图像分数会被piplined到激光雷达网络中。这涉及到自我运动补偿的过程,激光雷达点云会被转换到最后一帧中的自车坐标系下,然后投影到图像中以获得语义分割分数。实验表明使用以前的图像不会降低检测的性能,并且在PointPillars中引入PointPainting仅引入了0.75ms的额外延时。

【无标题】_第6张图片
【无标题】_第7张图片

你可能感兴趣的:(计算机视觉,深度学习,人工智能,自动驾驶)