PIXOR: Real-time 3D Object Detection from Point

PIXOR: Real-time 3D Object Detection from Point

  • 简介
  • 3D目标检测整体框架
  • 数据输入
  • 网络框架
  • loss

简介

LiDAR方法最精准安全,但LIDAR每扫一圈要产生10^5个无规则点,对现在的探测器是很大的挑战。
主要解决方法是将点云结构化从而可以使用标准卷积操作,结构化方法大致分为以下两类:

  1. 3D voxel grid 由于三维点云被自然分割,体素网格非常稀疏,因此大量的计算是冗余的。
  2. 2D projections 有RV和BEV两种,他它们在投影和离散的过程中造成了信息的损失,MV3D方法试图融合2D投影和相机图像,但计算代价过高,无法应用到实时应用中。

这篇论文提出了PIOXR方法,我们选用BEV是因为同三维体素网格比起来,它计算更友好,保留了度量空间,让模型可以探索物体分类的尺寸和形状。

3D目标检测整体框架

PIXOR: Real-time 3D Object Detection from Point_第1张图片

数据输入

  • 点云转化为img形的矩阵(Input representation):
    三维体素网格方法计算量很大,因为需要让三维卷积核在三个维度进行卷积。本论文只使用BEV,将三维降至二维,但我们仍然留有高度信息,就像RGB图的三个通道一样。我们可以得到更紧凑的表达,只要我们对BEV信息使用二维卷积,因为所有的车辆都是在同一水平面上的。BEV还有一个优点,当待检测物体没有重叠时,我们可以知道物体的物理维度信息阐述BEV投影和离散过程:结合三维张量和二维图片反射: L d L × W d W × ( H d H + 1 ) \frac{L}{d_L}\times\frac{W}{d_W}\times(\frac{H}{d_H}+1) dLL×dWW×(dHH+1),举例来说,对于[0,70],[-40-40], [-2.5-1]米这个感兴趣区域,划分分别率为0.1米,那么这个Input representation就变为了700 * 800 * 35了,另外一个是反射率特征是针对整个高度上的一个特征,所以其Z轴上为一个单位,长宽不变,所以有700 * 800 * 1,这也就是网络的输入为700 * 800 * 36的原因。

  • 一个重要假设:
    所有目标均在地面上,上面的点才能表述目标的高度信息;没有这个假设,本文模型的特征表示不成立;当然这个假设也符合客观事实:人、车等不会飞;

网络框架

PIXOR: Real-time 3D Object Detection from Point_第2张图片
网络说明:第一点增加更多小通道数的卷积层:发觉细致的特征;第二点使用特征金字塔:将低分辨率和高分辨率的特征图融合,对不通尺寸的目标具有鲁棒性。

loss

学习的目标参数为{cos(θ), sin(θ), log(dx), log(dy), log(w), log(l)},参数事先在训练集上规范化,具有零均值和单位方差。其中航向角要回传,就要保证航向角的连续性,这里用sin(theta)和cos(theta)表示,所以上面检测头的部分一共有6+1个输出,6个回归量,一个类别。
PIXOR: Real-time 3D Object Detection from Point_第3张图片

你可能感兴趣的:(机器学习,3D检测)