CVPR 2019
在本文中,我们提出了PointRCNN用于从原始点云进行3D目标检测。 整个框架由两个阶段组成:第1阶段用于自底向上的生成3D proposal,第2阶段用于在canonical coordinates中refining proposal以获得最终的检测结果。我们的第1阶段子网络不是像以前的方法那样从RGB图像生成proposal或将点云映射到BEV鸟瞰图或voxel,而是通过自底向上的方式将整个场景的点云分为前景点和背景,从而直接生成少量高质量的3D proposal 。第2阶段子网络将每个proposal的pooled points转换为规范坐标,以学习更好的局部空间特征,并与在第1阶段中学习的每个点的全局语义特征相结合,以进行准确的box refinement和confidence prediction。我们提出的网络仅使用点云作为输入,在KITTI数据集的3D检测基准上进行的大量实验,实现了SOTA。
backbone:PointNet++1
We observe that objects in 3D scenes are naturally separated without overlapping each other.All 3D objects’ segmentation masks could be directly obtained by their 3D bounding box annotations
Foreground point segmentation
用了focal loss
Bin-based 3D bounding box generation
其中**(x(p),y(p), z(p))是感兴趣的前景点的坐标(xp,yp, zp)**是是其相应目标的中心坐标,**bin(p)x和bin(p)z**是沿X和Z轴的ground-truth bin assignments. res(p)x和res(p)z是ground-truth residual,可用于在assigned bin中进一步细化位置,C是归一化的bin长度.S是前景点的search range,每个1D search range均分为相同长度δ的bin,以表示X-Z平面上不同目标的中心(x,z).bin-based classification for the X and Z axes用cross-entropy loss。X或Z轴的(localization loss)定位损失由两个项组成,一个是沿每个X和Z轴的bin classification,另一个是classified bin中的residual regression。 对于沿垂直Y轴的中心位置y,我们直接利用smooth L1 loss进行回归,因为大多数目标的y值都在很小的范围内。
我们将方向2π划分为n个bin,并以与x或z预测相同的方式计算bin classification target **res(p)θ**和residual regression target res(p)θ。 通过计算残差(res(p)h, res(p)w,res(p)l)可以直接回归目标大小(h,w,l)。 w.r.t整个训练集中每个类的平均目标大小。
为了删除多余的proposals,我们从鸟瞰角度出发基于the oriented IoU进行nonmaximum suppression(NMS),以生成少量高质量的proposals。
Canonical transformation:
(1)原点位于the box proposal的中心;
(2)局部的X’和Z’轴大致平行于地面,其中X‘指向proposal的头部方向,而另一个Z’轴垂直于X’;
(3)Y’轴与LiDAR坐标系相同。
note:坐标转换会损失目标的深度信息。引入点距离作为作为点p的特征。对于每个proposal,其关联点的local spatial features和额外特征[r(p),m(p), r(p)]首先被串联并馈送到几个fully-connected layers,以将其局部特征编码为全局特征f§的相同维度。 然后根据1的结构将局部特征和全局特征concatenated并接入网络,以得到用于后续的confidence classification和box refinement的discriminative feature vector。(**m(p) **predicted segmentation mask,**r(p)**反射率)
d ( p ) = ( x ( p ) ) 2 + ( y ( p ) ) 2 + ( y ( p ) ) 2 d^{(p)}=\sqrt{(x^{(p)})^2+(y^{(p)})^2+(y^{(p)})^2} d(p)=(x(p))2+(y(p))2+(y(p))2
we use the focal loss2 to handle the class imbalance problem(Foreground point segmentation)
3D bounding box regression loss Lreg
项目地址
[1] Charles Ruizhongtai Qi, Li Yi, Hao Su, and Leonidas J Guibas. Pointnet++: Deep hierarchical feature learning on point sets in a metric space. In Advances in Neural Information Processing Systems, pages 5099–5108, 2017.
[2] Tsung-Yi Lin, Priyal Goyal, Ross Girshick, Kaiming He, and Piotr Doll´ar. Focal loss for dense object detection. IEEE transactions on pattern analysis and machine intelligence, 2018.# PointRCNN: 3D Object Proposal Generation and Detection from Point Cloud