【点云系列】Point-Voxel CNN for Efficient 3D Deep Learning

文章目录

  • 1. 概要
  • 2. 动机
  • 3.方法
    • 3.1 Point分支
    • 3.2 Voxel分支
      • 3.2.1 正则化 (Normalization)
      • 3.2.2 体素化(Voxelization)
      • 3.2.3 特征聚合(Feature Aggregation)
      • 3.2.4 去体素化(Devoxelization)
    • 3.3 融合
  • 4. 实验及效果
    • 4.1 部件分割对比
    • 4.2 场景分割 比对
    • 4.3 目标检测
    • 4.4 可视化分析
    • 4.5 效率分析
  • 5. 思考
  • 6. 参考

好文不嫌晚,思想最主要,Trade-off,不变的宗旨。

1. 概要

会议:NIPS19 spotlight
论文:https://arxiv.org/abs/1907.03739
机构:MIT &上交
方法:PointCloud + Voxel 的表达= Point-Voxel融合的表达
代码:https://github.com/mit-han-lab/pvcnn
讲解:https://www.bilibili.com/video/av87529356

2. 动机

Voxel-based的点云处理方法 :

  • 优点: 具有良好的内存存储性(有序存储、方便访问)
  • 缺点:需要较高分辨率,消耗较多GPU内存,如图2(a)所示。
    这主要是由于体素信息所需分辨率越高时,需要的计算成本和内存需求就越高。例如:输入尺寸 64 × 64 × 64 64 \times 64 \times 64 64×64×64,Batch size大小为 16 16 16时,所需要的GPU内存>10G

Point-based点云处理方法:

  • 优点:GPU内存更低
  • 缺点:需要较多随机内存,且容易引起存储体冲突(Bank conflicts),这会大幅降低访问速度,如图1(b)。且考虑到硬件因素,内存的操作比算术做做代价更大,如图1(a)。
    这是由于点是随机分布在整个三维空间的,所需需要较多随机内存访问,而这种随机内存方法效率非常低。例如PointNet++里的邻居聚合就需要复制一整份点云,导致内存消耗 o ( n 2 ) o(n^2) o(n2),还有一部分来源于动态内核计算,这是由于相对位置的不固定引入的,如图2(b)所示。
    【点云系列】Point-Voxel CNN for Efficient 3D Deep Learning_第1张图片
    【点云系列】Point-Voxel CNN for Efficient 3D Deep Learning_第2张图片
    总的来说,就是voxel占内存,而Point则花费了大量时间在内存读取和kernel生成上。
    所以,为了解决Voxel-based和Point-based存在的问题,提出了Point-Voxel CNN(PVCNN)结构。其优势在于:
  • 利用点云的稀疏表示减少内存占用,比Point-based最先进方法快7倍速
  • 利用体素的卷积获得连续内存表示,比baseline内存消耗少10倍

3.方法

整体的框架如下图所示:包含了两个分支:Point分支+Voxel分支,核心部分在于如何将voxel的特征最后嵌入并融合到点云当中。
【点云系列】Point-Voxel CNN for Efficient 3D Deep Learning_第3张图片

3.1 Point分支

目的:提取全局特征
做法:常用MLP,类似PointNet结构。

3.2 Voxel分支

目的:提取局部特征
步骤:1. 正则化;2. 体素化;3. 特征聚合; 4. 去体素化;

3.2.1 正则化 (Normalization)

目的:针对点云坐标做一个规范化处理(只针对坐标处理,不针对特征),范围在[0,1]内。为后续的体素化做好准备。
将点坐标记做: p k p_k pk, 处理后的正则化点为: { p ^ k } \{\hat{p}_k\} {p^k}

  1. 首先,将所有点以重心为原点进行坐标系转换
  2. 然后,将所有点坐标除以 m a x ∣ ∣ p k ∣ ∣ 2 max||p_k||_2 maxpk2,缩放到[-1,1]之间
  3. 最后,将[-1,1]坐标线性映射到[0,1]范围内。用平移和缩放来做。

3.2.2 体素化(Voxelization)

目的:转为体素化表示,便于做后面的3D卷积
做法:取每个体素中所有点的特征的平均值作为该体素的特征。
注意:这里的体素化时分辨率不需要很大,也可以获得不错的效果,并且不带来较大内存占用。
复杂度: o ( n ) o(n) o(n)
公式:正则化的点云 { ( p ^ k ) , f k } \{(\hat{p}_k),f_k\} {(p^k),fk}, 体素网格 { V u , v , w } \{V_{u,v,w}\} {Vu,v,w}。对于落在3D网格 ( u , v , w ) (u,v,w) (u,v,w)里的所有点特征进行平均池化操作。
在这里插入图片描述

  • r r r:体素分辨率
  • I [ . ] \mathbb{I}[.] I[.]: 指示函数。标明坐标点 p ^ k \hat{p}_k p^k是否属于体素网格 ( u , v , w ) (u,v,w) (u,v,w)。属于则为1,否则为0
  • f k , c f_{k,c} fk,c: 点 p ^ k \hat{p}_k p^k的第 c c c个通道的特征
  • N u , v , w N_{u,v,w} Nu,v,w: 正则化因子,例如:在一个体素网格中的点数

3.2.3 特征聚合(Feature Aggregation)

目的:获取特征表达。采用常规3D CNN。在每个3D卷积后+ Batch Norm + 非线性激活函数。

3.2.4 去体素化(Devoxelization)

目的:将voxel提取的特征转换到point特征中,方便与point的特征分支进行特征融合。
做法:三线性插值
注意:体素化与去体素化均是可微的,因此可以端到端训练。
复杂度: o ( n ) o(n) o(n)

3.3 融合

目的:融合所有特征,得到具有代表性的特征。
做法: 代码里是通过加法融合的。
复杂度: o ( k n ) o(kn) o(kn), k k k为point分支的采样点

4. 实验及效果

4.1 部件分割对比

设置

  • 数据集:ShapeNet Parts
  • 验证策略:同[23]与[6],2874测试模型的平均IoU
  • 输入:2048个点,batch size为8

模型

  • 用PVConv层替代PointNet里的MLP层;
  • point-based基准线:PointNet,ReNet,PointNet++,DGCNN,SpiderCNN,PointCNN
  • voxel-vased基准线:3D-UNet

结果:见下表
【点云系列】Point-Voxel CNN for Efficient 3D Deep Learning_第4张图片
【点云系列】Point-Voxel CNN for Efficient 3D Deep Learning_第5张图片

4.2 场景分割 比对

设置

  • 数据集S3DIS,策略同[38]、[23]

【点云系列】Point-Voxel CNN for Efficient 3D Deep Learning_第6张图片
【点云系列】Point-Voxel CNN for Efficient 3D Deep Learning_第7张图片

4.3 目标检测

设置

  • 数据集:KITTI, 策略同[29]
  • val: 3768, training: 3711. 衡量平均20次结果的AP。

模型

  • 基于F-PointNet的两个版本模型:
  • efficient: 仅替代实例分割网络里的MLP层
  • complete:替代实例分割与检测网络里的MLP层

【点云系列】Point-Voxel CNN for Efficient 3D Deep Learning_第8张图片

4.4 可视化分析

【点云系列】Point-Voxel CNN for Efficient 3D Deep Learning_第9张图片

4.5 效率分析

【点云系列】Point-Voxel CNN for Efficient 3D Deep Learning_第10张图片

5. 思考

有时候专注在联合现有方法,挖掘各自优势集结起来可形成更不错的方法。
专注与低层的一些分析,很值得学习和借鉴。
方法看似简单,却蕴含着很多细致的分析。

6. 参考

https://zhuanlan.zhihu.com/p/436205533
https://zhuanlan.zhihu.com/p/209229692

你可能感兴趣的:(点云类,深度学习,cnn,3d)