VoexlNet学习笔记

VoexlNet学习笔记

  • 介绍
  • 动机
    • 1.目前的三维目标检测方法
    • 2.大量点云数据带来的问题
    • 3.手工特征提取
    • 4.作者的贡献
  • 方法论
    • 1.Feature Learning Network
    • 2.Convolutional Middle Layers
    • 3.Region Proposal Network
    • 4.Loss
  • 实验
  • 总结

介绍

这篇文章主要是对来自2017年苹果公司基于点云的3D物体检测论文"VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection"进行解读。

动机

1.目前的三维目标检测方法

  • 融合方法,即同步融合RGB图像和预处理后的三维点云的区域特征,需要成熟的2D检测框架将底层点云投影到鸟瞰视图(BEV)中,可能会导致一定程度的信息丢失。
  • 2D检测驱动方法,在RGB图像的检测结果2D bbox扩展后的3D子空间中进行后续的目标检测(视锥方法),RGB图像中缺少目标可能导致检测失败。
  • 基于点云的方法,探索点的特征和内部拓扑来检测三维目标。

2.大量点云数据带来的问题

大量点云数据导致计算量很大,作者提出VFE模块删除大量空体素,并对非空体素进行随机采样,从而减少了计算量。

3.手工特征提取

以往采用3D体素的方法,会对体素进行手工特征提取。在3D形状细节上很丰富的时候是能得到比较好的效果,但是对于变化后的场景和复杂的场景则不能。最大的问题是不能自己学习会存在bottleneck。

4.作者的贡献

  • 我们提出了一种新的端到端可训练的基于点云的三维检测深层架构VoxelNet,它直接操作稀疏的三维点,避免了人工特征工程带来的信息瓶颈。
  • 我们提出了一种实现VoxelNet的有效方法,该方法既受益于稀疏点结构,又受益于体素网格上的高效并行处理。
  • 我们在KITTI benchmark上进行了实验,结果表明,VoxelNet在基于激光雷达的汽车、行人和自行车检测基准中产生了最先进的结果。

方法论

VoexlNet学习笔记_第1张图片
VoexlNet分为三层:

  • Feature Learning Network
  • Convolutional Middle Layers
  • Region Proposal Network

1.Feature Learning Network

VoexlNet将输入的点云进行提及划分,在经过一系列的VFE模块进行特征提取最后输出4D的tensor。
VoexlNet学习笔记_第2张图片
输入的点云数据是4维数据,其中ri指的是反射率。
在这里插入图片描述
经过Fully Connected Neural Net聚集周围信息
在这里插入图片描述
实际上就是将点的坐标与体素的中心坐标做差,这样就可以联系一个体素内的所有点。
再经过一层线性层,BN层,RELU层后与本身的最大池化结果连接作为该模块的输出。

2.Convolutional Middle Layers

每个卷积中间层依次应用3D卷积、BN层和ReLU层。卷积中间层在逐渐扩展的感受野中聚集体素特征,为形状描述添加更多的信息。

3.Region Proposal Network

VoexlNet学习笔记_第3张图片
网络中有三个全卷积的block其中除了第一个block对其余的都进行下采样。网络中每个block的第一层采用步长为2的2D卷积将尺寸(L,W,H)缩小为(L/2,W/2,H/2)。再将3个block进行反卷积并连接起来得到768维的block分别进行两个2D卷积得到概率得分图和回归图,因为框的size是7维的对应2维的概率得分就有14维的回归图。

4.Loss

VoexlNet学习笔记_第4张图片
box参数的定义,包括长宽高、角度以及中心坐标:在这里插入图片描述
我们假设预测的anchor位置为:
在这里插入图片描述
在这里插入图片描述
最后一项采用的是SmoothL1损失。

实验

文章主要针对KITTI数据集中的Car、Pedestrian和Cyclist进行测试,多模型效果对比如下所示:
VoexlNet学习笔记_第5张图片
其中HC是手工特征处理的网络,可以看出RPN网络进行非手工特征处理的优越性。

总结

  • VoexlNet具有基于点云的3D检测的端到端可训练的深层结构。
  • 无需手工特征提取。
  • 解决了大量点云数据带来的问题。
  • 可以并行处理。
  • 在KITTI数据集上取得了sota效果。

你可能感兴趣的:(3D目标检测,计算机视觉,深度学习,机器学习)