PointRCNN (2019.5.16,港中文)

概述:

本论文(点击下载)工作只使用点云数据作为输入。对点云来说,对每个点进行分类就是在做语义分割

  • stage-1 直接在点云上学习特征,通过将点云分类为前景和背景(对点云数据这就是语义分割的mask)来生成少量的bbox提议。
  • stage-2 将之前得到的提议的点云特征做池化。池化后的点云坐标转化为归一化的坐标,与池化后的特征 和 stage-1得到的分割mask 一起,来学出相对坐标
  • 提出了BIN-based loss 回归损失函数,召回率更高。

性能:

截至2018.11.16,在Kitti数据集立体检测榜排名第一。

详细介绍:

1. stage-1 : 基于点云分割的3D RPN

做点云分割的同时,在分割好的前景上生成3D提议。避免了使用大量anchors, 相比于基于anchor的RPN, 召回率更高

1.1 提取点云特征(backbone):

使用PointNet++ 作为骨干网络提取特征。类似的有VoxelNet等

1.2 前景点云分割:

前景点云分割和3D提议生成是同时进行的。

模块输入为提取的点云特征,在segmentation head 输出前景mask,在 box regression head 输出3D提议。

获取分割结果的Ground Truth:对点云来说,分割的真值直接由3D ground truth 提供。

损失函数: focal loss(因为前景点云少,背景点云多,数量不均衡)
PointRCNN (2019.5.16,港中文)_第1张图片
阿尔法=0.25,伽马=2

1.3 基于箱子的损失函数(Bin-based loss)

训练时,box regression head 只负责回归前景点的bbox坐标,注意此时,背景点仍然为生成提议框提供信息(由于点云网络的感受野)

box编码方式: (x,y,z,h,w,l,θ)

将每个前景点的周围区域(xz平面)用箱子(bin)划分开以确定提议框的中心点坐标。使用二值分类和交叉熵比直接用SMooth L1 loss 更好。

  • 中心点的x,z坐标的loss: 箱子分类loss + 箱子内的残差回归loss。对于y 的loss,由于待检测目标在y轴分布比较集中,直接使用smooth L1 loss 即可。
    PointRCNN (2019.5.16,港中文)_第2张图片
  • 偏向角 θ 的预测:将2π 分为n个bin,和预测x,z一样预测偏向角的bin类别和回归的残差。
  • 框尺寸(h,w,l)的预测:直接预测残差res_h§, res_w§, res_l§ ,需要知道训练集的平均目标尺寸。

在inference阶段:

  • 对参数 x, z, θ:选取预测置信度最高的箱子的中心得到x、z,加上残差得到最终的x,z.
  • 对参数 y, h, w,l:直接在初始值上加上残差得到预测值

总的回归loss:

PointRCNN (2019.5.16,港中文)_第3张图片

采用NMS去除多余的提议框:

​ 训练时保留前300个,输入到二阶段网络

​ inference保留前100个

2.stage-2:二阶段回归

2.1 点云pooling
  • 对提议框 b = (x,y,z,h,w, l,θ)进行略微放大得到

    b= (x,y,z,h + η,w + η,l + η,θ)

  • 保留处于提议框内的点云特征(包括点云坐标xyz,反射强度r,分割mask(0或1),特征向量f(c维))。

  • 去除掉在提议框以外的点云

2.2 标准坐标转换

经过pooling的点云输入到stage-2的子网络。

  • 坐标转换:新的坐标系的xz轴平行于水平面,x轴指向提议框的头部朝向(较长端?),z轴与x轴垂直。y轴与激光雷达y轴相同。

  • 注意,坐标系是根据提议框确定的,而不是GT box

    对在提议框内的所有点云进行所在框坐标系下的转换。

2.3 Feature learning

网络输入为:点云坐标p(即xyz),以及特征向量f(c维),注意损失了深度信息,为此,加入距离:

d§ = ( (x§2 + (y§)2 + (z§)2 )^0.5 到点云特征中。

  • 获得local features:将特征(p,r,m,d)连接并输入到全卷积网络,得到与global feature(即特征向量f) 相同维度的local feature
  • local feature 与 global feature 连接,然后送入另一个网络,得到用于输出cls和reg的特征向量
2.4 二阶段loss

与gt box的IOU大于0.55的提议框将和该GT box一起计算loss。

坐标均经过标准化:
PointRCNN (2019.5.16,港中文)_第4张图片
提议框的x,z的 bin loss 和 res loss 与stage-1相同,但是搜索范围s更小:
PointRCNN (2019.5.16,港中文)_第5张图片
对参数 y, h, w,l:只有res loss

对于偏向角C:\Users\Mr.Duke\AppData\Roaming\Typora\typora-user-images\1567863547827.png
假设其值在[−π/4, π/4],(因为IOU>0.55) 因此将该范围直接按照步长w等分,最后得到的loss:
PointRCNN (2019.5.16,港中文)_第6张图片
stage-2 total loss:
PointRCNN (2019.5.16,港中文)_第7张图片

NMS

采用 oriented NMS :去除在鸟瞰图下IOU大于0.01的框。

你可能感兴趣的:(激光雷达,目标检测,自动驾驶,三维立体检测)