【论文阅读】【三维目标检测】StarNet: Targeted Computation for Object Detection in Point Clouds

文章目录

  • StarNet
    • Center selection
    • Featurizing local point clouds After
    • Constructing final predictions from bounding box proposals
    • 实验
  • 讨论

StarNet: Targeted Computation for Object Detection in Point Clouds
Waymo出品,2019年12月更新

StarNet

文中强调,本文的创新点和优势有如下:

  • 本方法不对空白区域进行计算,减少对算力的要求
  • 本方法由于不适用全局特征,所以在inference的时候,可以调整proposal的数量和每个proposal中点的数量,这种设计对于运算平台是友好的,算力强的平台可以更精确,算力不强的也可以用,只不过精度低一些。
  • 在不增加额外计算的情况下,可以加入对场景先验知识,或者加入连续帧中的信息。

这里先讲一下方法的整体流程:

  • 首先选取一些点
  • 然后以这些点做为局部坐标系的中心点,用CNN计算特征u
  • 然后在每个点的周围放置GxG个个anchor,将特征f通过CNN计算每个anchor对应的特征
  • 通过特征u,使用CNN回归box与anchor的偏差,得到预测值

伪代码在arxiv中的v1版本的paper中可以找到:
【论文阅读】【三维目标检测】StarNet: Targeted Computation for Object Detection in Point Clouds_第1张图片
接下来我们一步一步讲。

Center selection

这部分就是如何选取一些点,首先除去地面的点。例如,除去某个高度以下的点,其实还可以通过平面拟合等方式除去地点。然后在剩下的点中使用FPS得到选取的中心点,FPS详见PointNet++。文章在实验部分还提到了,使用连续帧来选取center,可以提高检测效果。

Featurizing local point clouds After

得到选取的点后,以此作为中心点,在半径为R的邻域内选取K个点,作为CNN的输入,然后通过下图结构,得到384维的特征f。
【论文阅读】【三维目标检测】StarNet: Targeted Computation for Object Detection in Point Clouds_第2张图片
其中具体StarNet Block与VoxelNet中的Feature Extractor类似。

Constructing final predictions from bounding box proposals

首先对于每个点,放置GxG个anchor,然后对于每个anchor,通过f计算一个D维度的特征,然后通过该特征,回归box和anchor之间的回归量。

实验

实验使用了两个数据集,KITTI和Waymo Open Dataset。实验证明如下结论:

  • 首先验证了FPS的相比于Random Sampling的有效性
  • 对比StarNet和PointPillars的效果,StarNet在运算速度相当时,精度高很多
  • 验证了随着center点采样数量和每个proposal中点的数量(也就是计算特征f的点的数量)的增多,效果是增强的,但时间耗费更多
  • 验证了使用连续帧的效果,将上一帧的检测结果作为当前帧做center selection的先验知识的有效性

讨论

1、文中提到,在KITTI数据集上,更多的提高在于数据增强,checkpoint的选择等,而不是模型的提升。

We found that the gains in predictive performance due to data augmentation (up to +18.0, +16.9 and +30.5 mAP on car, pedestrian and cyclist respectively) were substantially larger than gains in performance observed across advances in detection architectures. Additionally, we found checkpoint selection to be extremely important due to the small size of the dataset, and submission filtering (e.g. remov- ing detections where the 2D projected height of our 3D bounding box predictions were smaller than 25 pixels so they are not erroneously labeled as false positives) unique challenges to the KITTI benchmark.

你可能感兴趣的:(论文阅读)