PIXOR: Real-time 3D Object Detection from Point Clouds

Abstract

无人驾驶领域，基于点云的实时三维物体检测。
更高效的从Bird's Eye View场景中使用3D数据。

1.Introduction

LiDAR方法最精准安全，但LIDAR每扫一圈要产生10^5个无规则点，对现在的探测器是很大的挑战。
主要解决方法是将点云结构化从而可以使用标准卷积操作，结构化方法大致分为以下两类：

3D voxel grid 由于三维点云被自然分割，体素网格非常稀疏，因此大量的计算是冗余的。
2D projections 有RV和BEV两种，他它们在投影和离散的过程中造成了信息的损失，MV3D方法试图融合2D投影和相机图像，但计算代价过高，无法应用到实时应用中。
这篇论文提出了PIOXR方法，我们选用BEV是因为同三维体素网格比起来，它计算更友好，保留了度量空间，让模型可以先探索物体分类的尺寸和形状。

2.Related Work

One-stage\Two-stage的区别：
DIff

3.PIXOR Detector

3.1 Input Representation

三维体素网格方法计算量很大，因为需要让三维卷积核在三个维度进行卷积。本论文只使用BEV，将三维降至二维，但我们仍然留有高度信息，就像RGB图的三个通道一样。我们可以得到更紧凑的表达，只要我们对BEV信息使用二维卷积，因为所有的车辆都是在同一水平面上的。BEV还有一个优点，当待检测物体没有重叠时，我们可以知道物体的物理维度信息阐述BEV投影和离散过程：结合三维张量和二维图片反射：

TIM截图20190112000134.png

3.2 Network Architecture

PIXOR使用为深度物体检测的全卷积神经网络，整个结构可以划分为两个子网络，Backbone Network 和Header Network. BN的作用是将卷积特征图中一般信息提取出来。HN实现任务细节预测。

3.2.1Backbone Network

卷积层用来从输入特征中提取完整表达，池化层用来下采样特征图的大小，节约计算并使表达更鲁棒。Down-sampling因子通常是16。若待测物体太小会引起问题，解决方法如下，用16*下采样因子，但做两处更改，我们在底层多加几个有小通道数的层来提取细节信息，第二我们用类似FPN的方式，将高分辨率和低分辨率特征结合。

3.2.2Header Network

解决物体识别和定位。
分类分支在sigmoid激活函数之后产生单通道特征图，回归分支产生6个通道非线性特征图。两个分支之间存在权重的平衡问题。
我们将每个物体量化成一个带方向的方框b= {θ, xc, yc, w, l}，并带有角度。对在（px，py）的物体，回归分支代表为 {cos(θ), sin(θ), dx, dy, w, l}，Learning target为{cos(θ),sin(θ), log(dx), log(dy), log(w), log(l)}。

PIXOR

PIXOR: Real-time 3D Object Detection from Point Clouds

Abstract

1.Introduction

2.Related Work

3.PIXOR Detector

3.1 Input Representation

3.2 Network Architecture

3.2.1Backbone Network

3.2.2Header Network

3.3 Learning and Inference

4.Experiments

4.1 BEV Object Detection on KIT

4.1.1 Implementation Details

你可能感兴趣的:(PIXOR)