Shape Signature Networks for Multi-classObject Detection from Point Clouds
基于形状特征网络的点云多类目标检测
论文网址:SSN
多类别三维目标检测旨在从点云中对多类目标进行定位和分类。
由于点云的数据结构是无结构的、稀疏的和噪声的,一些有利于多类别区分的特征如形状信息被利用不足。本文提出了一种新的3D shape signature来探索点云中的形状信息。通过对称、凸包和切比雪夫逼近等操作,所提出的shape signature不仅紧凑有效,还对噪声具有鲁棒性,它可以作为一个软约束来提高特征对多类别区分的能力。基于所提出的shape signature,本文开发了形状签名网络(SSN)进行3D目标检测,其包含金字塔特征编码模块、基于shape的分组头模块和明确的shape编码目标函数。此外,本文的shape signature可以作为一个即插即用的组件,各种结果验证了它的有效性和良好的可扩展性。
自动驾驶汽车在城市场景中的成功很大程度上依赖于对复杂环境的处理能力,而准确、鲁棒的感知能力是其基础。 为实现这一点,自动驾驶汽车配备了各种传感器,包括摄像头、雷达和激光雷达,其中激光雷达被认为是最关键的一种。 激光雷达传感器可以提供精确的深度信息,这是比图像的一个显著优势。主流的三维检测框架往往侧重于汽车或行人等单类物体的检测,而在现实世界中,自动驾驶车辆需要同时检测多类物体。 这样,如何区分不同类别对多类三维目标检测的成功与否起着不可或缺的作用。
处理这一挑战的一个自然想法是利用外观或纹理上的差异来区分不同的物体。 不幸的是,这种方法对于点云是不可行的,因为它是基于点的表示,缺乏纹理或外观信息。 一个有吸引力的选择是探索形状信息来指导鉴别特征学习。
图 1显示了一个示例,该示例演示了两个类别之间的形状差异。 从图中可以发现,形状和规模随着类别的不同而不同。 然而,由于点云的稀疏性和噪声,如何建立有效的、鲁棒的形状编码仍然是一个广泛的问题。
本文提出了一个新颖的shape signature用于形状编码,它具有两个吸引人的特性:(1)紧凑且有效,可作为目标函数的一部分;(2)对稀疏性和噪声具有鲁棒性。具体而言,本文首先使用对称操作来完成部分观测结果。然后,我们将点云投影到三个视图中,以全面描述3D形状并减少参数。此外,凸壳用于表示视图的形状,使其对内部稀疏性具有鲁棒性。基于凸壳,我们使用角度-半径策略形成凸壳的函数。最后,我们应用切比雪夫逼近对函数进行逼近,得到最终的形状编码。
基于所提出的shape signature,本文开发了用于多类三维目标检测的shape signature网络。 其基本思想是结合形状信息,更好地区分多个类别。SSN由四个部分组成:点到结构(点云的无结构性决定了首先需要将其转换为结构化表示)、金字塔特征编码部分(提取融合特征)、形状感知分组头(将形状相似的对象聚集在一起,以共享权重)和形状特征目标函数(作为辅助目标函数,从而提高特征对多类区分的能力)。
在这里,形状感知分组头将形状相似的物体聚集在一起,从而根据物体的大小分担权重(例如公共汽车和卡车需要比小汽车更重的头部); 形状特征作为辅助目标函数,有利于多类别识别的特征能力。
本文还对所提出的shape signature进行了深入的研究,证明了它在不同的骨干网和不同的数据集上都具有良好的可扩展性。shape signature向量的TSNE可视化也验证了其软约束的作用。
本文的贡献主要体现在以下四个方面:
Surface matching for object recognition in complex three-dimensional scenes在被称为spin images的三维点云上引入了基于局部形状的描述符。基于spin image,Shape-based recognition of 3d point clouds in urban environments.将上下文特征纳入形状描述符。这些局部描述符通过局部邻域构造编码,而全局描述符对整个三维点云的几何和结构信息进行编码。 在文献Straight to shapes: Real-time detection of encoded shapes中引入了一种隐式形状特征,以分割为例,利用自动编码器学习低维形状嵌入空间。 视点特征直方图(VFH)利用视点方向分量和表面形状分量对点云进行形状编码。 然而,大多数形状特征都不追求紧凑的表示和对稀疏性的鲁棒性,这是我们的形状特征与它们的主要区别。 本文所提出的形状特征对完备性具有对称性,对内稀疏性具有凸包性,对短向量具有切比雪夫拟合性。 这些操作的配合导致了紧凑和鲁棒的形状编码。
大多数三维目标检测方法可以分为两大类:基于图像的方法和基于激光雷达的方法。对于基于图像的方法,关键在于估计可靠的深度信息来替代激光雷达。基于单目或立体视觉的深度估计方法Depth completion from sparse lidar data with depth-normal constraints.极大地推动了该领域的发展。Multi-level fusion based 3d object detection from monocular images.引入了一种多级融合方法,将图像拼接并生成深度图。Robust object proposals re-ranking for object detection in autonomous driving using convolutional neural networks将视差图和到地面的距离等深度特征纳入检测框架。然而,尽管基于图像的方法已经取得了显著的进展,但这类方法的性能仍然远远落后于基于激光雷达的方法。
由于激光雷达能够提供精确的三维信息,基于激光雷达的方法是三维探测任务的主流。大多数基于激光雷达的方法都以不同的表示方法处理非结构化点输入。在VoxelNet,Second,Reconfigurable voxels中,将点云转换为体素,使用基于SSD的卷积网络进行检测。PointPillar使用pillar用PointNet对点云进行编码。还有些方法将点云数据转换为BEV表示,然后将其输入到结构化卷积网络中。Pointrcnn, Std将两级检测器引入到三维检测中,首先生成粗建议,然后使用精化阶段得到最终的预测。Frustum pointnets for 3d object detection from rgb-d data以原始点云为输入,提取二维物体检测得出的截锥区域,对三维物体进行定位。与这些研究相比,本文提出的方法的本质区别在于,它有效地挖掘了形状信息,而形状信息在区分多类对象时起着至关重要的作用。
给定一个点云,本文的目标是定位和分类的多类目标物体。与单类检测器不同,本文希望得到一个能够有效区分不同类别物体的检测器。为此,本文提出了一种基于形状信息探测的多类三维检测框架。其基本思想是利用形状特征目标和形状感知分组头两个关键成分的形状信息,有利于多分类。
如图所示,SSN的框架由四个部分组成,即Point to Structure、金字塔特征编码、形状感知分组头和多任务目标,其中点到结构和金字塔特征编码是灵活的(即有多种选择)。 SSN的关键部件是形状特征目标和形状感知分组头。 特别是在训练过程中,形状特征目标可以通过反向传播来指导识别特征的学习,有利于多类识别。 训练后不再需要形状签名目标。 在下面,我们将介绍形状签名和SSN的细节。
在给定目标的ground真值点的情况下,利用所提出的shape signature参数化目标的形状信息,然后将得到的shape signature向量作为软约束,提高了多类识别的特征能力。如上所述,理想的shape signature应该具有两个属性:(1)紧凑和有效的作为目标的一部分;(2)对稀疏性和噪声的鲁棒性。为了实现这一点,本文引入了几个操作来处理点云问题。如下图所示,shape signature包含形状补全和形状编码两部分,其中形状补全包括Transform和Symmetry,形状编码包括投影、凸包、角半径和Chebyshev拟合。
由于激光雷达传感器的扫描只覆盖了部分观测,限制了形状的研究。因此,本文引入形状补全来解决这个问题,它包括以下步骤。
本文引入以下操作来实现紧凑有效的形状嵌入。
在shape signature的基础上,本文设计了SSN来实现有效的多类三维检测。
由上图所示,SSN有4个组成部分,,形状感知分组头和形状特征目标函数是两个关键的组成部分。
SSN网络的前向传播过程:
1.真实点云数据首先进行形状补全和形状编码,得到shape signature向量。
2.点云数据经过点结构化(Point to Structure),得到结构化的表示,比如pillar。
3.结构化的点云输入到CNN网络中进行特征提取,得到特征表示。
4.特征表示同时输入到两个分支:
4.1 基于形状的分组头,得到分类和回归预测
4.2 shape signature向量经过一个全连接层,得到shape signature预测
5.利用分类、回归和shape signature的预测与ground truth计算损失,进行网络训练。
6.测试时只使用基于形状的分组头,分类和回归分支进行推理。
所以形状签名主要作用是在训练阶段增强网络的形状判别能力,测试时可以去除这一分支。
由于点云的组织是非结构化的,第一步是将点云转换为结构化的表示。转换的过程可以有多种形式:例如转换为Voxel(体素),Pillars或鸟瞰图表示。在获得结构化表示后,可以应用后续的2D卷积或3D卷积网络。在本文的实现中,选择了基于Pillars的表示来构造点云。另外,本文也用其他的结构表示(Voxel)对shape signature进行了测试,所提出的shape signature具有很好的可扩展性。
本文遵循FPN的思想进行特征编码。 首先应用自顶向下的卷积网络从多个空间分辨率中提取特征。 然后通过上采样和级联将所有特征融合在一起。
由于多类目标物体在规模和形状上有很大的差异,我们提出了形状感知分组头来适应这种思想来进行多类识别。其基本思想是创建多个头部,其中具有相似比例和形状的物体共享权重。 其原因主要在于:1)不同尺度、形状的物体应有不同的头部。例如,公共汽车的头部需要比自行车的头部更重(或更深),因为它的规模大,因为更重的头部,更大的感受野。 (2)形状分组头可以进行粗形探测,也可以减轻其他分组头的影响。
如上图所示,形状感知分组头的设计遵循“物体越大,头越重”的精神。 根据目标物体的形状和尺度,将客车、卡车和挂车以较重的头归类,自行车和摩托车以较轻的头归类,小汽车以中等的头归类。 每个头只覆盖相应分类的预测。 通过对上述组件的集成,形成了一个基于SSD的检测框架。
在本文的框架中,有三个目标,即多类分类,定位回归和形状向量回归。 对于多类分类,本文沿用前人的工作使用Focal Loss。
对于localization loss和shape loss,本文使用smooth L1 loss。
因此,三项任务的总损失为:
实验中应用了两个大规模数据集Nuscenes数据集和Lyft数据集。
本文设计了一个新颖的shape signature,它作为一个软约束,从而提升了特征对多类别区分的能力。它具有两个吸引人的特性:紧凑且有效作为目标函数的一部分;对稀疏性和噪声具有鲁棒性。基于所提出的shape signature,本文开发了SSN网络进行物体检测,它通过形状感知头的分组和shape signature探究,有效地进行了多类别检测。本文进行了大量的实验比较以及ablation研究,其中本方法持续取得显著的性能收益。所提出的3D shape signature可以作为一个即插即用的组件,与不同的backbone网络相结合使用表现出了良好的可扩展性。