【论文阅读】【三维语义分割】Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR Segmentation

文章目录

  • Cylinder3D
    • Cylindrical Partition
    • backbone
    • DDCM
    • Point-wise Refinement Module
  • Experiment
    • ablation study
    • Generalization Analyses
  • 总结

Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR Segmentation
投递CVPR2021
目前Semantic-KITTI榜第一
代码:https://github.com/xinge008/Cylinder3D

Cylinder3D

本文认为,室外点云分割和室内点云分割的数据分布是不同的,室外点云分割的应用大多是自动驾驶,而点云是由车载激光雷达扫描而得到的。而车载激光雷达扫描的特性就是按照柱坐标的方式在扫描,本文也是提出了基于柱坐标的voxel的划分,从而与激光雷达扫描过程保持一致。能够有效的减少空voxel的比率。网络结构如下:
【论文阅读】【三维语义分割】Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR Segmentation_第1张图片

Cylindrical Partition

第一部分是将点云转换为voxel的过程,其中过程还是比较容易理解的:
【论文阅读】【三维语义分割】Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR Segmentation_第2张图片
这里MLP的使用没有说的太清楚,查看代码Cylinder3D-master/network/cylinder_fea_generator.py的Line77-78可以看到,这个MLP相当于对每个点的坐标升维,然后对每个voxel内做channel-wise的max,得到每个voxel的特征。

backbone

接下来就是Encoder和Decoder的过程。得到了柱坐标中的voxel,但这个表示形式了普通的三维栅格没有区别,都是规则化的八连接,所以就可以直接用3D Sparse Convolution。那么实际上也是这么做的。只不过具体实现上,不是用3x3x3的卷积核,而是使用非对称的卷积形式,也就是Asymmetrical Residual Block。这个我认为就是trick了。

DDCM

我认为这这个也算是trick了,就是在得到voxel-wise的feature之后,预测voxel-wise的label之前,加个这种卷积。

Point-wise Refinement Module

在得到voxel-wise的feature之后,可以映射回point-wise,这块我在代码中没有找到,简单的话可以认为是复制过去,复杂的话可以用插值的方法。然后再使用MLP得到point-wise的label。

Experiment

在SemanticKITTI数据集上取得第一的效果

ablation study

【论文阅读】【三维语义分割】Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR Segmentation_第3张图片

baseline是直接对点云进行三维栅格化,然后再用3D Convolution做。可以看到,Cylinder和Asym-CNN都有不错的涨点。

【论文阅读】【三维语义分割】Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR Segmentation_第4张图片
第二个Ablation Study则说明了Asym-CNN要比普通的3D卷积好很多。

Generalization Analyses

这个就更全面了。将Cylinder用于全景分割和3D目标检测中。虽然3D目标检测用的baseline比较老旧,但展示了其效果。如果能在其中加入将PV-RCNN中的栅格划分改为Cylinder的对比就更好了,可以看看在一个强baseline中,这种柱坐标的划分是否还有提升效果。

总结

其实Cylinder这种表示很早就有了,3D sparse Convolution也早就有了。而发现柱坐标的voxel和普通三维栅格的表示相同,都可以用3D sparse Convolution做特征提取这个问题就很妙。

本文的效果也许可以再次证明,sparse convolution的特征提取效果可能要优于point-based network的方法的。

你可能感兴趣的:(论文阅读)