题目:PointPainting: Sequential Fusion for 3D Object Detection
来源:2020 CVPR
链接:PointPainting: Sequential Fusion for 3D Object Detection | IEEE Conference Publication | IEEE Xplore
摄像头和激光雷达是通用机器人技术,尤其是自动驾驶汽车的重要传感器模式。传感器提供补充信息,为紧密的传感器融合提供了机会。令人惊讶的是,仅激光雷达方法在主要基准数据集上优于融合方法,这表明文献中存在差距。在这项工作中,我们提出了 PointPainting:一种填补这一空白的顺序融合方法。 PointPainting 的工作原理是将激光雷达点投影到纯图像语义分割网络的输出中,并将类别分数附加到每个点。然后可以将附加的(绘制的)点云馈送到任何仅雷达方法。实验表明,在 KITTI 和 nuScenes 数据集上,三种不同的最先进方法 Point-RCNN、VoxelNet 和 PointPillars 有了很大的改进。 PointRCNN 的彩绘版本代表了 KITTI 排行榜上鸟瞰图检测任务的最新技术水平。在消融中,我们研究了上色的效果如何取决于语义分割输出的质量和格式,并演示了如何通过流水线最小化延迟。
大量研究工作一直致力于 3D 物体检测。在这项工作中,我们考虑了将激光雷达点云与 RGB 图像融合的问题。点云提供了非常准确的距离视图,但分辨率和纹理信息较低。另一方面,图像具有固有的深度模糊性,但提供了细粒度的纹理和颜色信息。
早期在KITTI[6]如MV3D[3]和AVOD[10]提出的多视图融合上利用这些协同效应。 然而,最近的探测器如PointPillars [11]、VoxelNet [34,29]和STD [32]只使用激光雷达,并且仍然明显优于这些方法。 事实上,尽管最近的融合研究[18,27,13,33],流行的KITTI排行榜上的顶级方法仅使用激光雷达。 这是否意味着用于3D对象检测激光雷达使视觉信息冗余?
答案肯定是否定的。考虑图 3 中的示例,其中行人和路标在图像中清晰可见,但在激光雷达模态中看起来或多或少相同。当然,基于视觉的语义信息应该有助于改进此类对象的检测。此外,根据第一原则,添加更多信息至少应该产生相同的结果,而不是更糟。那为什么这么难呢?原因之一是视点未对准。
虽然两个传感器都是在范围视图中本地捕获的,但大多数最先进的方法,如 PointPillars [11] 或 STD [32],都在鸟瞰图中使用卷积。这种观点有几个优点,包括没有尺度模糊和最小的遮挡。它也不会受到将 2D 卷积应用于范围视图 [25] 时出现的深度模糊效果的影响。因此,鸟瞰图方法在 KITTI 排行榜上优于顶级的范围视图方法,例如 LaserNet [17、16]。然而,虽然激光雷达点云可以很容易地转换为鸟瞰图,但使用图像要做到这一点要困难得多。
因此,传感器融合网络设计的核心挑战在于将激光雷达鸟瞰图与相机视图整合。以前的方法可以分为四类:以对象为中心的融合、连续特征融合、显式变换和检测传播。
由MV3D [3]和AVOD [10]开创的以对象为中心的融合是两级架构的最显而易见的选择。 在这里,模式具有不同的骨架,在每个视图中一个,并且融合通过在每个模式中应用来自一组共享的3D提案的ROI池在对象提案级别上发生。 这允许端到端优化,但往往缓慢而繁琐。
第二组方法应用“连续特征融合”来允许特征信息在图像和激光雷达主干的所有步长上共享[14 , 27]。 这些方法可以与单态检测设计一起使用,但需要先验地针对每个样品从点云到图像计算映射。 这一系列方法的一个微妙而重要的缺点就是“特征模糊”。 这是因为来自鸟瞰视图的每个特征向量对应于图像视图中的多个像素,反之亦然。 ContFuse [14]提出了一种基于kNN、双线性内插和已知MLP的复杂方法来纠正这一点,但核心问题仍然存在。
第三个方法家族试图明确地将图像转换为鸟瞰视图表示法[20],并在那里进行融合[25,28,33]。 一些最有前途的仅仅图像方法使用这种想法,首先从图像中创建人工点云,然后继续在鸟眼视图中[25, 28]。 随后的工作尝试基于这个想法融合,但性能不足以达到最先进的状态[33],并且需要几个昂贵的处理步骤来构建伪点云。
第四类方法使用检测传播。 在这里,先验地从图像中提取语义并且用于在点云中进行种子检测。 Frustrum PointNet [18]和ConvNet [26]使用2D检测来限制视锥体内的搜索空间,而IPOD [31]使用语义分割输出来引发3D提案。 这提高了精度,但对召回强加了上限。
梁等人最近的工作。 al [13] 尝试将这些概念中的几个结合起来。并未公开所有类别的结果,但该方法在汽车类别上的表现优于仅使用激光雷达的顶级方法 STD [32](表 2)。
在这项工作中,我们提出了 PointPainting:一种简单而有效的顺序融合方法。每个激光雷达点都被投影到图像语义分割网络的输出中,通道激活被连接到每个激光雷达点的强度测量。然后,连接(绘制)的激光雷达点可用于任何激光雷达检测方法,无论是鸟瞰图 [11、29、21、34、30、32] 还是前视图 [12、17]。 PointPainting 解决了之前融合概念的不足:它没有对 3D 检测架构添加任何限制;它不受特征或深度模糊的影响;它不需要计算伪点云,也不限制最大召回率。
请注意,对于直接在原始点云 [11、34、17、21] 上运行的激光雷达检测方法,PointPainting 需要最少的网络调整,例如更改专用于读取点云的通道数量。对于使用手动编码特征的方法 [30、22],需要做一些额外的工作来修改特征编码器。
PointPainting 在设计上是顺序的,这意味着对于 3D 检测的最终任务,并不总是可以端到端地进行优化。从理论上讲,这意味着性能方面的次优性。然而,根据经验,PointPainting 比所有其他提出的融合方法更有效。此外,顺序方法还有其他优点:(1) 图像的语义分割通常是有用的独立中间产品,以及 (2) 在实时 3D 检测系统中,可以通过流水线处理图像和激光雷达来减少延迟网络使得激光雷达点带有有来自先前图像的语义。我们在消融中表明这种流水线不会影响性能。
我们使用三种具有公共代码的最先进的仅限激光雷达的方法来实现 PointPainting:PointPillars [11]、VoxelNet (SECOND) [34、29] 和 PointRCNN [21]。 PointPainting 不断改进结果(图 1),事实上,PointRCNN 的绘制版本在 KITTI 排行榜上达到了最先进的水平(表 2)。我们还展示了在 nuScenes [1] 上 Painted PointPillars+ 的 6.3 mAP(表 4)的显着改进。
贡献。 我们的主要贡献是新型融合方法PointPainting,它通过图像语义增强点云。 通过广泛的实验,我们证明PointPainting是:
普遍性:在 KITTI 和 nuScenes 基准测试中与 3 种顶级仅激光雷达方法一起使用时实现显着改进。
精确:PointRCNN的上色版本在KITTI基准测试中达到了最先进的水平。
鲁棒性:上色版本的PointRCNN和PointPillars分别提高了KITTI和nuScenes测试集上所有类的性能。
快速:可以通过流水线化图像和LIDAR处理步骤来实现快速低等待时间融合。
PointPainting体系结构接受点云和图像作为输入,并估计定向的3D框。它由三个主要阶段组成(图2)。(1)语义分割:基于图像语义分割网络计算逐像素分割分数。(2)融合:激光雷达点云被分割结果分数上色。(3)3D对象检测:基于激光雷达的3D检测网络。
图像语义分割网络接收输入图像并输出每个像素的类得分。这些分数用作图像的紧凑概括特征。在一个融合管道中使用语义分割有这样几个优点。首先,语义分割是比3D对象检测更容易的任务,因为分割仅需要局部的、每像素分类,而对象检测需要3D定位和分类。执行分割的网络。分段更易于训练并且也易于执行快速推断。第二,语义分割技术正在迅速发展[4,36],这使得PointPainting能够从分割和3D对象检测的进步中获益。最后,在一个机器人学、或自主车辆系统语义分割的输出是有用的独立输出,例如在可行区域检测任务。
我们KITTI实验的分割分数是从DeepLabv3+ [2,36,19]中生成的,而对于nuScenes实验,我们训练了一个自定义的、更轻的网络。然而,我们注意到PointPainting对于图像分割网络设计是不可知的。(意思是PointPainting和语义分割网络无关)
这里我们提供PointPainting细节算法。激光雷达点云中的每个点(x, y, z, r)或(x, y, z, r, t) KITTI和nuScenes分别在x, y, z是每个激光雷达点的空间位置,r是反射,t是激光雷达点的相对时间戳(应用在使用多个激光雷达扫描[1])。激光雷达点转换通过齐次变换,后跟一个投影到图像。为KITTI这个变换是由。nuScenes转换需要额外护理自激光雷达和摄像机运行在不同的频率。完整的转换:
最后,摄像机矩阵,M将点云投影到图像。
分割网络的输出是C类分数,其中对于KITTI,C =4(汽车、行人、骑自行车的人、背景),并且对于nuScenes,C =11(10个检测类加上背景)。一旦将激光雷达点投影到图像中,则将相关像素的分割分数(h,w)附加到激光雷达点以创建绘制的激光雷达点。注意,如果两个摄像机的视场重叠,则将有一些点同时投影在两个图像上,并且我们从两个图像中的一个随机地选择分割得分向量。另一种策略可以是通过比较它们的熵或最高两个分数之间的边界来选择更具区别性的分数向量。然而,我们将其留待以后的研究。
任何可学习(类似编码器的)激光雷达网络都可以使用装饰点云(装饰点云指的是带有语义信息的点云),因为 PointPainting 只是改变激光雷达点的输入维度。 PointPainting 也可以用于带有手工设计编码器的激光雷达网络 [30、22],但每种方法都需要专门的特征工程。在本文中,我们证明了 PointPainting 可与三种不同的激光雷达检测器一起使用:PointPillars [11]、VoxelNet [34、29] 和 PointRCNN [21]。这些都是具有不同网络架构的最先进的激光雷达检测器:单阶段(PointPillars、VoxelNet)与两阶段(PointRCNN),以及支柱(PointPillars)与体素(VoxelNet)与逐点特征(PointRCNN)。尽管有这些不同的设计选择,但所有激光雷达网络都受益于 PointPainting(表 1)。请注意,我们在此选择中尽可能包容,据我们所知,这些代表了所有具有公共代码的顶级 KITTI 检测排行榜方法。
在本节中,我们将介绍每个数据集的详细信息和 PointPainting 的实验设置。
我们在 KITTI 和 nuScenes 数据集上评估我们的方法。
KITTI 。 KITTI 数据集 [6] 提供了同步的激光雷达点云和前视摄像头图像。它相对较小,有 7481 个训练样本和 7518 个测试样本。对于我们的测试提交,我们从训练集中创建了一个包含 784 个样本的最小集合,并对剩余的 6733 个样本进行了训练。 KITTI 对象检测基准要求检测汽车、行人和骑自行车的人。地面实况对象只有在图像中可见时才会被注释,因此我们遵循标准做法 [3、34],即仅使用投射到图像中的激光雷达点。
nuScenes 。 nuScenes 数据集 [1] 大于 KITTI 数据集(7x 注释,100x 图像)。它用 3D 边界框注释了 1000 个 20 秒的 2Hz 场景,得到 28130 个训练样本、6019 个验证样本和 6008 个测试样本。 nuScenes 包括完整的自动驾驶车辆数据套件:同步激光雷达、摄像头和雷达,具有完整的 360 度覆盖范围;在这项工作中,我们使用来自所有 6 个摄像头的激光雷达点云和 RGB 图像。 3D 物体检测挑战评估 10 个类别的性能:汽车、卡车、公共汽车、拖车、工程车辆、行人、摩托车、自行车、交通锥和障碍物。此外,该数据集还存在不平衡问题,其中汽车和行人最频繁,而工程车辆和自行车最不频繁。
这里我们提供了更多关于语义网络的细节。
KITTI 。对于 KITTI [6] 上的实验,我们使用了 DeepLabv3+ 网络 1。该网络首先在 Mapillary [7] 上进行预训练,然后在 Cityscapes [5] 上进行微调,最后在 KITTI 像素级分割上再次进行微调。 [6].请注意,骑自行车的人的类别定义在 KITTI sem 之间有所不同,在检测中,骑自行车的人被定义为骑手+自行车,而在语义分割,骑自行车的人被定义为只骑自行车的人一个单独的类别。因此,需要将有骑手的自行车映射到骑车人类别,同时将停放的自行车抑制为背景。我们在绘制之后通过将骑手 1 米半径内用自行车类绘制的所有点映射到骑自行车者类来完成此操作,其余的背景。
nuScenes 。 nuScenes 上没有可用的公共语义分割方法,因此我们使用 nuImages 数据集训练了一个自定义网络。nuImages 由 10 万张图像组成,这些图像用 2D 边界框和所有 nuScenes 类的分割标签进行了注释。分割网络使用 ResNet [9] 骨干网为预测 nuScenes 分割分数的 FCN [15] 分割头生成步幅为 8 到 64 的特征。
我们使用三种不同的激光雷达网络进行实验:PointPillars [11]、VoxelNet [34、29] 和 PointRCNN [21]。使用 PointPainting 的每个网络的融合版本将被称为正在绘制(例如 Painted PointPillars)。
KITTI 。我们使用公开发布的 PointPillars3、VoxelNet4 和 PointRCNN5 代码,并用 sem 修饰点云。段。 4个班的分数。这将 PointPillars、VoxelNet 和 PointRCNN 的原始装饰点云尺寸分别从 9 → 13、7 → 11 和 4 → 8 更改。对于 PointPillars,新编码器有 (13, 64) 个通道,而对于 VoxelNet,它有 (11, 32), (64, 128) 个通道。 PointRCNN 的 8 维绘制点云作为编码器和区域池化层的输入。没有对公共实验配置进行其他更改。
nuScenes 。我们将 PointPillars 用于所有 nuScenes 实验。这需要将装饰点云从 7 → 18 更改,编码器现在有 (18, 64) 个通道。
为了确保绘画效果是用最先进的方法来衡量的,我们对之前发布的 PointPillars 设置 [1] 进行了多项改进,将 nuScenes 基准上的 mAP 提高了 10%(表 4)。
我们将这个改进的基线称为 PointPillars+。这些变化受到 [35] 的启发,包括修改支柱分辨率、网络架构、属性估计、样本加权和数据扩充。首先,支柱分辨率从 0.25 m 降低到 0.2 m,以便更好地定位小物体。其次,网络架构已更改为在网络早期包含更多层。第三,PointPillars 和 PointPillars+ 都没有预测属性,而是改进了属性估计启发式。不是为每个类别使用最常见的属性,而是使用每个框的预测速度和高度来更好地估计每个属性。第四,为了减少训练过程中的类不平衡,使用基于样本的加权方法,根据样本中的注释数量对每个样本进行加权。第五,全局偏航增强从 π 变为 π/6。
在本节中,我们展示了 KITTI 和 nuScenes 数据集上的 PointPainting 结果,并与文献进行了比较。
所有检测结果均使用官方KITTI评估检测鸟瞰图(BEV)和3D测得。 BEV 结果在此处显示,而 3D 结果包含在补充材料中。 KITTI 数据集分为简单、中等和困难难度,官方 KITTI 排行榜按中等平均精度 (AP) 的性能排名。
验证集。首先,我们研究了 PointPainting 对三个主要激光雷达探测器的影响。图 1 和表 1 表明 PointPainting 提高了 PointPillars [11]、VoxelNet [34、29] 和 PointRCNN [21] 的检测性能。 PointPainting 语义信息导致检测的广泛改进:PointPainting 改进了 27 次比较中的 24 次(3 次实验×3 类×3 层)。虽然最大的变化是针对更具挑战性的行人和骑车人检测场景,但大多数网络甚至在汽车上都有改进。这表明 PointPainting 的实用性独立于底层激光雷达网络。
测试集。在这里,我们将 PointPainting 与最先进的 KITTI 测试结果进行了比较。 KITTI 排行榜只允许每篇论文提交一次,因此我们无法提交表 1 中的所有 Painted 方法。虽然 Painted PointPillars 在验证集上的表现优于 Painted PointRCNN,但只有两个 PointPillars 具有 nuScenes 的公共代码。因此,为了建立 PointPainting 的通用性,我们选择将 Painted PointPillars 结果提交给 nuScenes 测试,并在 Painted PointRCNN 上使用我们的 KITTI 提交。
如表 2 所示,PointPainting 对 PointRCNN 的测试集带来了稳健的改进:所有层中每个类的平均精度都有所提高。 Painted PointRCNN 在 mAP 和骑自行车者 AP 上建立了最先进的性能。
基于 val 和 test 之间 Painted PointRCNN 改进的一致性(分别为 +2.73 和 +2.94),以及 PointPainting 的通用性(表 1),有理由相信表 2 中的其他方法将通过 PointPainting 得到明显改进。 PointPainting 的强度、通用性、稳健性和灵活性表明它是图像-激光雷达融合的主要方法。
为了建立PointPainting的多功能性,我们检查了Painted PointPillars在nuScenes上的结果。 作为第一步,我们将激光雷达网络基线强化到PointPillars +。 即使有了这个更强的基线, PointPainting在测试组上的平均平均精度( mAP )增加+6.3 (表4 )。 Paintted PointPillars +仅在nuScenes上通过MEGVII的激光雷达唯一方法进行拍摄。 然而, MEGVII的网络[35]对于实时系统是不切实际的,因为它是一个极大的两级网络,需要高分辨率输入,并使用多尺度输入和集合进行测试评估。 因此, Painted PointPillars +是nuScenes上的领先实时方法。
检测性能在各个类别之间得到了很好的概括,每个类别都从 PointPainting 获得了 AP 的提升(表 3)。一般来说,PointPillars+ 中表现最差的检测类从绘画中获益最多,但也有例外。首先,尽管已经具有强大的 PointPillars+ 检测,但交通锥体的 AP (+16.8) 增幅最大。这可能是因为交通锥通常只有很少的激光雷达点,因此语义分割提供的附加信息非常有价值。其次,尽管从较小的基线开始,拖车和工程车辆的检测增益较低。这是分割网络对这些类别的召回率最差的结果(总体召回率为 72%,但拖车召回率仅为 39%,工程车辆召回率仅为 40%;有关详细信息,请参阅补充材料)。最后,尽管基线为 76 AP,汽车仍然获得了 +1.9 AP 提升,这表明语义信息的价值,即使对于仅由激光雷达检测到的类别也是如此。
在这里,我们使用Painted PointPillars(在KITTI值集上表现最好的网络),通过图4中的一些定性比较,给予了评估指标的背景。在图4A中,原始PointPillars正确地检测到汽车,但是错过了骑自行车的人。绘制的点云解决了这个问题,并检测到骑车人。它还为车辆产生更好的方向估计。基于激光雷达的方法的一个常见故障模式是混淆行人和电线杆(图3)。正如预期的那样,PointPainting可以帮助解决这个问题(图B)。图4C表明激光雷达检测步骤可以校正不正确的喷涂。图像中松散的分割遮罩正确地绘制了附近的行人,但额外的油漆也会溅到他们身后的墙上。尽管存在这种不正确的语义信息,但网络并不预测假阳性行人。这就留下了扫描电镜的精确特性没有答案。分段(e.g.精确度与召回率)来优化PointPainting。在图4D中,Painted PointPillars预测由于两个复合错误,左侧有两个假阳性骑车人。第一,SEM。分段网络错误地将行人预测为骑车人,因为他们离停放的自行车太近。接下来,我们用于解决检测和分割标注之间骑车人定义差异的启发式方法(参见第3.2节)通过将所有自行车绘制为骑车人类别而加剧了问题。然而,在拥挤场景的其余部分中,绘制的点导致更好地定向行人、更少的误报以及更好地检测远处的汽车。
此处,我们对nuScenes数据集进行消融研究。所有研究均使用Painted PointPillars架构,并且与测试提交相比,训练时间为四分之一。使用单循环优化器[24],我们在nuScenes测试集上实现了33.9 mAP和46.3 NDS,而在Painted PointPillars+的完整训练上实现了44.85 mAP和57.34 NDS。
质量。在PointPainting,激光雷达点与语义分割图像的融合。我们研究语义分割质量的影响最终的检测性能。使用nuScenes,我们生成一系列的语义分割。通过使用多个网络不同分割质量的中间检查的培训。如图5所示,改进的语义分割(以mIOU衡量),导致3 d对象检测的提高。
对于上限,我们包括一个“oracle”,它使用地面实况 3D 框来绘制激光雷达点。这显着提高了检测性能(+27 mAP),这表明语义分割的进步将从根本上促进 3D 对象检测。
因为一些局限性使用oracle并不能保证一个完美的效果。首先,地面实况边界框可以包含无关的点(例如从地面)。第二,nuScenes注释所有对象包含一个激光雷达点。将一个激光点变成一个准确,面向三维边界框是很困难的。第三,我们训练的总时间为其他消融研究,但它可能会受益于再培训。最后,PointPillars随机采样的点云可以显著过滤器,或消除,包含语义信息的点如果地面实况对象只包含几个点。
(意思是根本是图像的语义分割,分割结果好,总的结果也好)
分数和标签。我们研究语义分割格式对检测性能的影响。所以我们分割分数转换成独热编码,有效地将每个像素作为类的最高得分。当使用标签而不是分数,NDS持平和mAP令人惊讶的是,+ 0.4高。然而,收益是边缘和噪声的训练。我们也为未来的研究假设,结合校准[8]分割分数和一个更大的PointPillars编码器会表现的更好。
将这些结果与分割质量消融进行比较表明,未来的研究更多地关注提高分割质量而不是表示。(意思是表示没啥影响,但是教师网络的软标签不是更好吗)
我们研究了激光雷达网络对语义信息延迟的敏感性。 在最简单的场景中,每个点云都与最新的图像匹配(并发匹配-图6 )。 然而,这将在实时系统中引入延迟,因为融合步骤将必须等待基于图像的半分数。 为了消除延迟,先前图像的半区段分数可以流水线进入激光雷达网络(连续匹配-图6 )。 这涉及自我运动补偿步骤,其中激光雷达点云首先在最后一帧中转换到自我车辆的坐标系,随后投影到图像中以获得分割分数。 我们的实验表明,使用先前的图像不会降低检测性能(表5)。 此外,我们测量PointPainting仅为Painted PointPillars架构引入了0.75毫秒的额外延迟(有关详细信息,请参阅补充材料)。 这表明PointPainting可以在具有最小添加延迟的实时系统中实现高检测性能。
(这个其实很有趣运动补偿步骤,但是也得算力够)
本文介绍了PointPainting,一种新颖的序列融合方法,用基于图像的语义描绘激光雷达点云。 点绘制作产生了KITTI和nuScenes挑战的艺术结果与多个不同的激光雷达网络。 PointPainting框架是灵活的,可以将任何分段网络的输出与任何激光雷达网络相结合。 这些结果的强度和一般适用性表明,PointPainting是将图像和激光雷达信息融合到3D对象检测的主要架构。
(简单概括,通过图像的语义分割,对点云先进行上色,上色就是点云同时带有类别信息,但是有一个问题文中没有看到,就是有的点云不可能正好在图像中有个类别该怎么办?上色后的点云用以前的方法纯点云网络继续处理,的出来3D位置坐标。其实是用语义分割干着物体检测的活。之前类似maskrcnn,显示出来一个框,框内继续选择像素出来语义分割。这是现有语义分割在出3D的框,感觉是个下放任务,个人觉得3D点云语义分割更难)