【论文阅读】【三维目标检测】STD: Sparse-to-Dense 3D Object Detector for Point Cloud

文章目录

  • STD
    • Proposal Generation Module
    • Proposal Feature Generation
    • Box Prediction Network
    • Loss
    • 实验
  • 讨论

STD: Sparse-to-Dense 3D Object Detector for Point Cloud
2019ICCV文章,3D Object Detection

STD

方法仍然为two stage的方法,先进行proposal,后进行优化。整个网络结构如下:
【论文阅读】【三维目标检测】STD: Sparse-to-Dense 3D Object Detector for Point Cloud_第1张图片

Proposal Generation Module

该论文提出了基于球形anchor的proposal generation的方法,这一点我觉得仍待讨论,但不影响我们对论文的理解。

首先,提出这种球形anchor的motivation如下:
For example, the amount of points is prohibitively huge where high redundancy exists in anchors. They cost much computation during training and inference. Also, the way to assign ground-truth labels for anchors needs to be specially designed.
也就是说,用每个激光点预测一个proposal是过量的冗余了。
(这也是我不明白的第一点,在最后我会统一讨论)

每一个球形anchor是对应着每一个激光雷达点的,可以认为每一个点以自身为中心,一定半径产生了一个球,这个球就是anchor。然后使用PointNet++得到每个点的segmentation label score和feature。然后进行NMS得到大约500个球形anchor。(这里是我不明白的第二点)这个使用Pointnet++得到score和feature的过程如下:
【论文阅读】【三维目标检测】STD: Sparse-to-Dense 3D Object Detector for Point Cloud_第2张图片

然后对每个anchor内部的点使用PointNet,进行Classification是否属于前景从而生成proposal,同时进行Regression回归从anchor到proposal需要的参数(长宽高,中心偏移量和角度),回归的这部分参数是针对于特定大小的一个长方体的。然后进行NMS,得到300个anchor。这部分网络如下:
【论文阅读】【三维目标检测】STD: Sparse-to-Dense 3D Object Detector for Point Cloud_第3张图片
为了训练这个这一块网络,确定一个anchor是否是属于预测前景的anchor,本文提出了PointIoU的方式将ground truth box与anchor匹配。简单的说就是,PointIoU=(属于anchor与ground truth box相交部分的点的数量)/(属于anchor与ground truth box相并部分的点的数量)。用这个来判断一个anchor的label。

Proposal Feature Generation

得到了proposal之后,对proposal进行体素化,这一块可以参考VoxelNet。文中也说明了体素化的优点是既快,效果又好。

Box Prediction Network

体素化后得到结构栅格化的feature,就可以表示为标准的4维tensor,之后使用不同的分支(由全连接层构成),分别预测proposal的label score,IoU和与box之间的位置大小偏差。然后使用label score乘以预测的IoU做NMS得到最后的box。

Loss

proposal:

  • 每个点的segmentation的loss,使用focal loss
  • 每个anchor的loss,cross-entropy loss
  • anchor到proposal的位置的大小的loss, smooth-L1 loss
  • anchor到proposal的位置的大小的loss, bin loss(可以参考PointRCNN或者FrustumNet)

Head:

  • proposal与box之间位置大小和方向的差别,使用与anchor到proposal的loss与loss相同
  • 预测IoU,3D IoU loss
  • 8-corner loss

2D IoU Loss如下,可参考论文UnitBox: An Advanced Object Detection Network
【论文阅读】【三维目标检测】STD: Sparse-to-Dense 3D Object Detector for Point Cloud_第4张图片

实验

首先本文在KITTI数据集的test和val上分别做了测试,而且测试proposal模块的召回率,要比其他方法中的proposal模块召回率高。

Ablation studies:

  • 测试了使用球形anchor和长方体anchor的召回率,球形anchor要比长方体的anchor高。
  • 测试了在第二个stage使用segmentation feature和将xyz转到proposal坐标系的必要性。加入segmentation feature提升非常大,在之前的论文中有测试过将xyz转到proposal坐标系下的必要性,提升也很大。
  • 测试了最后使用IoU做NMS的必要性

讨论

我认为本文值得讨论的地方是这种是否球形anchor。在我的理解anchor是一种凭借经验设置的框,用于生成proposal,减少生成proposal这个过程的学习难度。在本文中在生成proposal的过程中也使用了固定长宽高的长方体框,我的理解是这个才应该叫做anchor。那个球形邻域则是为了判断中心点产生的proposal类别而聚合的特征。

另外一点是,整个网络输入的点是16k,与PointRCNN是一样多的,第一步生成的anchor也是16k,因为每个点对应着一个anchor,是靠着NMS减少的anchor的,但这一点同样可以在PointRCNN中实现。所以,在上面提到使用球形anchor的motivation是减少冗余的anchor,这样不太能说的通。我的理解是相比于使用方向不同的大小不同的多个anchor,是可以成倍减少anchor的。

另外一点是文章中没有说的太清楚,就是在第一次NMS是用什么来排序的,但从文章中可以推测,应该是使用的是每个点的label的score。

你可能感兴趣的:(论文阅读,#,三维目标检测)