DeepRoute Lab | AAAI22新工作:基于稀疏跨尺度注意力网络的高效LiDAR全景分割

By-元戎感知组

今天和大家分享工作的是自动驾驶中的点级别的全景分割感知任务。内容主要是解读我们组最新的一篇被AAAI22接收的点云全景分割的工作 Sparse Cross-scale Attention Network for Efficient LiDAR Panoptic Segmentation.

image.png

Introduction & Motivation

About Panoptic Segmentation

对于自动驾驶而言,仅仅是提取感兴趣物体的检测信息(位置、大小、速度和类别等)是不够的,这种信息只能描述一个驾驶场景中的部分信息,另一部分信息包括建筑物,树木、栅栏等非物体信息同样对驾驶的决策起着重要作用。其次,物体框级别的信息对于某些场景就不够用了,比如多段车场景等,这时候就需要精确到点级别的感知能力。
因此,除了检测任务,自动驾驶重同样有一个重要的任务——分割。其中点云语义分割的任务是要给点云中的每一个点打上一个标签,比如车辆、行人、树木、栅栏等等;而点云实例分割的主要任务是判断点是否属于一个物体,并且属于哪个物体,即给每个点打上所属物体的id标签。点云全景分割可以看做是点云语义分割和实例分割的结合,参考下图:
image.png
基于LiDAR点云的不同的分割任务【1】

Related Work

点云有一些特性:稀疏性(sparse),表面聚集性(surface-aggregated)。这使得处理全景分割这样的任务时会有一些问题:

  1. LiDAR只能照射到物体表面,因此对于一些大车来说,表面点距离其中心很远,往往会导致过分割,如下图b
  2. 有些距离很近的小物体,比如聚集的人群,往往又会在距离空间和特征空间上被错误的合并在一起,形成欠分割,如下图a,c
    image.png

学术界提出了不同的方法来处理全景分割的问题,可以简单分为两大类:

  1. 第一种是借助聚类的方法来获得物体的实例标签,比如VoteNet,PointGroup,DS-Net等等,这些方法本质上是探索更高性能的聚类方式;
  2. 第二种是倾向于高效方式的全景分割,比如EfficientLPS,Panoptic-PolarNet等方法在BEV上获得2D特征,并且使用中心点预测+点云offset的回归方式来进行高效聚类

Motivation

由于车规级的限定,目前自动驾驶更关注于高效的处理方式,因此我们也聚焦在第二种高效聚类上。但是BEV下2D conv会向一些原本没有点的无效voxel扩散很多特征,导致一些中心点误检和小物体的欠分割。因此我们引入了sparse convolutions网络进行3D特征的提取。其次,过去的工作往往忽视了对long-range特征的捕捉,比如大型车辆的首尾之间的关联,这种关联在sparse的3D特征中又更难提取到。

因此为了同时照顾到上述问题中的过分割欠分割,我们提出了高效的sparse cross-scale attention network (SCAN)

· 通过cross-scale global attention模块来直接建模这种long-range关联信息,将低尺度下的强空间信息特征和高尺度下弱空间信息的特征进行融合来适应点云表面聚集的特性

· 同时我们也引入了全稀疏的网络架构:

  • 提出了BEV sparse distribution的物体中心点表达
  • 使用multi-scale sparse supervision进行监督

最终我们的方法在保证实时性的前提下达到了SORT的效果,如下图所示:

image.png

Approach

类似于Panoptic-PolarNet【2】,我们将3D全景分割分为几个子任务:点级别的语义预测(point-wise semantic predictions),BEV下的中心点分布预测(BEV centroid distribution)和逐点的距中心点偏移量(centroid-related point offsets)。

除了这三个head之外,我们新加了一个多尺度稀疏语义预测head作为auxiliary head来优化多尺度下注意力的特征。

网络的整体结果见下图。Backbone这里采用了点云分割的SORT,也是我们之前的工作DRINet【3】。DRINet有4个block,其中每个block处理的voxel尺度分别为1,2,4,4。本工作作为一种plugin,也可以应用到其他backbone中。原始点云经过backbone网络的每一个block,分别输出该block下的point-wise features和sparse voxel features,其中point-wise feature继续参与下一个block的前向传播,而sparse voxel features则被提出的cross-scale attention module聚合来提取出稀疏的BEV centroid distribution。此外,point features和从attented sparse voxel features gather出的点特征进行concat,之后得到点级别的语义预测和逐点的偏移量。
image.png

Cross-scale Global Attention

跨scale的sparse attention主要分为三个步骤:

1.Sparse alignment operation: 由于输入都是sparse特征,由valid voxel的feature和对应的坐标组成,因此首要需要做cross-scale sparse features的对齐操作,这里主要使用hash query的方式来进行:

image.png

2.Cross-scale Global Attention Layer: 点云中的隐式多尺度信息是十分关键的。然而为了捕捉到大尺度下点云中的long-range信息,核心思路是在所有的有效voxel上进行global处理。为了兼顾计算效率,我们引入了sparse的特征,只处理有效voxels,并且在scale 4的特征上进行global attention来减少voxel数量。为了进一步减少计算量,我们在进行global attention时采用了Generalized Kernelizable Attention (GKA)【4】的实现。Key和Value由上一个block的特征对齐后得到,当前block的特征则作为Query特征。Cross-scale attention中的attention layer共享权重来学习稀疏特征之间的注意力。

image.png

3.Multi-scale Sparse Supervision: 目前的已有工作往往利用点级别或者dense的特征来进行语义监督。本文首次提出直接进行稀疏的特征监督方法。这样做有3个好处,一是可以作为语义预测的辅助任务,二是可以对Cross-scale attention中用到的sparse features进行辅助监督,得到更好的特征,三是sparse的监督可以极大减少显存的占用,使得Multi-scale的监督成为可能。相比于直接使用“hard”标签(直接使用voxel类别作为预测结果),我们选择使用“soft”方法,即预测voxel中所有点的各个类别的分布比例。
image.png
image.png

BEV Sparse Centroid Distribution

之前的方法大多使用基于点的聚类或者dense的中心点预测来进行实例分割,但点云中实例是空间可分的,因此离散化的中心分布表达很适合LiDAR实例分割。对于点云的中心点分布,我们比较了三种不同的表征方式,其中我们提出的BEV Sparse Distribution取得了最好的效果:

1.BEV Dense Distribution: 从2D实例分割中移植过来,丢掉z轴的信息,只在BEV下用2d卷积来获得。然而这种表征方式浪费了很多计算量在在无效voxel上;另外2d卷积也会将提取到的稀疏关联信息扩散到invalid voxels,这会confuse网络

2.3D Sparse Distribution: 使用3D的稀疏表征,一个是计算量和显存占用很高,其次是加入z向的自由度会使得任务更加难以收敛。好处则是能够更好利用到空间信息

3.BEV Sparse Distribution: 根据以上的一些rethinking,我们提出了BEV Sparse Distribution表征,可以同时保持稀疏性和提取到的关联性,并且维持计算高效性。通过对3D稀疏特征在z上取max,我们可以将3D稀疏特征降维成2D特征,之后可以再用上面提到的Sparse Supervision进行监督

实验

image.png
image.png

Ablation Study

image.png
image.png

【1】Aygun, Mehmet, et al. "4D Panoptic LiDAR Segmentation." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.

【2】Zhou, Zixiang, Yang Zhang, and Hassan Foroosh. "Panoptic-PolarNet: Proposal-free LiDAR Point Cloud Panoptic Segmentation." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.

【3】Ye, Maosheng, et al. "Drinet: A dual-representation iterative learning network for point cloud segmentation." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021.

【4】Choromanski, Krzysztof, et al. "Rethinking attention with performers." arXiv preprint arXiv:2009.14794 (2020).

关于DeepRoute Lab

深圳元戎启行科技有限公司(DEEPROUTE.AI)是一家专注于研发 L4级自动驾驶技术的科技公司,聚焦出行和同城货运两大场景,拥有“元启行”(Robotaxi自动驾驶乘用车)和“元启运”(Robotruck自动驾驶轻卡)两大产品线。

【Deeproute Lab】是我们创办的自动驾驶学术产业前沿知识共享平台。我们将会把公司内部的paper reading分享在这里,让你轻松读懂paper;我们也会在这里分享我们对行业的理解,期待越来越多的同学认识自动驾驶,加入这个行业!

你可能感兴趣的:(自动驾驶)