PIXOR

PIXOR: Real-time 3D Object Detection from Point Clouds

Abstract

无人驾驶领域,基于点云的实时三维物体检测。
更高效的从Bird's Eye View场景中使用3D数据。

1.Introduction

LiDAR方法最精准安全,但LIDAR每扫一圈要产生10^5个无规则点,对现在的探测器是很大的挑战。
主要解决方法是将点云结构化从而可以使用标准卷积操作,结构化方法大致分为以下两类:

  1. 3D voxel grid 由于三维点云被自然分割,体素网格非常稀疏,因此大量的计算是冗余的。
  2. 2D projections 有RV和BEV两种,他它们在投影和离散的过程中造成了信息的损失,MV3D方法试图融合2D投影和相机图像,但计算代价过高,无法应用到实时应用中。
    这篇论文提出了PIOXR方法,我们选用BEV是因为同三维体素网格比起来,它计算更友好,保留了度量空间,让模型可以先探索物体分类的尺寸和形状。

2.Related Work

One-stage\Two-stage的区别:
DIff

3.PIXOR Detector

3.1 Input Representation

三维体素网格方法计算量很大,因为需要让三维卷积核在三个维度进行卷积。本论文只使用BEV,将三维降至二维,但我们仍然留有高度信息,就像RGB图的三个通道一样。我们可以得到更紧凑的表达,只要我们对BEV信息使用二维卷积,因为所有的车辆都是在同一水平面上的。BEV还有一个优点,当待检测物体没有重叠时,我们可以知道物体的物理维度信息阐述BEV投影和离散过程:结合三维张量和二维图片反射:
TIM截图20190112000134.png

3.2 Network Architecture

PIXOR使用为深度物体检测的全卷积神经网络,整个结构可以划分为两个子网络,Backbone Network 和Header Network. BN的作用是将卷积特征图中一般信息提取出来。HN实现任务细节预测。

3.2.1Backbone Network

卷积层用来从输入特征中提取完整表达,池化层用来下采样特征图的大小,节约计算并使表达更鲁棒。Down-sampling因子通常是16。若待测物体太小会引起问题,解决方法如下,用16*下采样因子,但做两处更改,我们在底层多加几个有小通道数的层来提取细节信息,第二我们用类似FPN的方式,将高分辨率和低分辨率特征结合。

3.2.2Header Network

解决物体识别和定位。
分类分支在sigmoid激活函数之后产生单通道特征图,回归分支产生6个通道非线性特征图。两个分支之间存在权重的平衡问题。
我们将每个物体量化成一个带方向的方框b= {θ, xc, yc, w, l},并带有角度。对在(px,py)的物体,回归分支代表为 {cos(θ), sin(θ), dx, dy, w, l},Learning target为{cos(θ),sin(θ), log(dx), log(dy), log(w), log(l)}。

3.3 Learning and Inference

Mulity-Class Loss.png

4.Experiments

4.1 BEV Object Detection on KIT

4.1.1 Implementation Details

从零开始训练模型,而不需要任何预先训练的模型。

你可能感兴趣的:(PIXOR)