【论文笔记】PIXOR: Real-time 3D Object Detection from Point Clouds

1、概述

本文在自动驾驶的背景下,研究了基于点云的三维物体实时检测问题。我们解决了自主驾驶环境中点云实时三维物体检测的问题。 因为物体检测是自动驾驶安全的必要组成部分,而其中检测速度至关重要。 然而点云的数据维度高,现有方法计算量很大。 本文通过鸟瞰图(BEV)来表示场景,从而更有效地利用3D数据,并且提出PIXOR模型,一种无建议的单级检测器,基于像素级神经网络进行三维物体估计。 文章在输入的表示、网络结构和模型优化等方面进行了专门的设计,以达到高精度和实时性的平衡,并在Kitti Bev对象检测数据集和大规模3D车辆检测数据集ATG4D上验证了PIXOR,在这两个数据集上都表明本文所提出的检测器在平均精度(mAP)上都优于其他最先进的方法,同时运行速率达到了10FPS。

2、背景介绍

许多方法利用卷积神经网络来生成单个图像的二维物体检测[12,11,28,4,27,23]。在自动驾驶等应用中,检测3D空间中的对象对安全路线规划至关重要。
3D对象检测方法可利用不同传感器的数据。基于摄像头的方法利用单目[1]或立体图像[2] 难以从2D图像进行精确的3D估计,尤其是在长距离范围内。与单眼方法相比,利用RGB-D传感器的深度信息与RGB图像融合的方法[32,33]可以获得显着的性能提升。在自动驾驶的背景下,高端传感器如LiDAR拥有更高的精度,因为安全性需要。

处理LIDAR数据的主要困难有:1、传感器产生的点云数据非结构化。2、每360度扫描包含的3D点数多,计算量大。
为了将卷积神经网络应用在3D对象检测中,需要研究可以应用标准卷积运算的点云结构化表示。目前主要分为两种类型:3D体素网格和2D投影。

3D体素网格将点云变换为规则间隔的3D网格,其中每个体素单元可以包含标量值(例如,占用率)或矢量数据(例如,从该体素单元内的点计算的手工制作的统计数据)。 3D卷积通常用于从体素网格中提取高阶表示[6]。然而,由于点云本质上是稀疏的,因此体素网格非常稀疏,因此大部分计算是多余的且不必要的。因此,典型系统[6,37,20]仅以1-2 FPS运行。
2D投影是将点云投影到平面上,然后将其离散化为基于2D图像的表示,再将其应用于2D卷积。在离散化过程中,手工制作的特征(或统计数据)被计算为2D图像的像素值[3]。常用的投影是范围视图(即360度全景视图)和鸟瞰视图(即俯视图)。这些基于2D投影的表示更紧凑,但它们在投影和离散化期间带来信息损失。例如,范围视图投影将使对象大小和形状失真。为了减轻信息损失,MV3D [3]提出将2D投影与摄像机图像融合以带来更多信息。然而,融合模型相对于输入模态的数量具有接近线性的计算成本,使得实时应用不可行。

本文提出一种精确的实时三维物体探测器,称为PIXOR(基于像素的三维物体检测神经网络)。 PIXOR是一个单阶段,无提议的密集物体探测器,利用2D鸟瞰图(BEV)表示点云。BEV与3D体素网格相比具有计算友好性,并且还保留了度量空间,允许模型探索关于对象类别的大小和形状的先验。我们的检测器在鸟瞰视图中输出真实世界尺寸的精确定向边界框。请注意,这些是3D估计,因为我们假设物体在地面上。这是自动驾驶场景中合理的假设,因为车辆不会飞行。
我们在两个数据集中证明了我们的方法的有效性,即公共KITTI基准[10]和大规模3D车辆检测数据集(ATG4D)。具体而言,PIXOR在所有先前发布的方法中实现了KITTI鸟瞰视觉对象检测基准的最高平均精度(AP),同时在其中运行速度最快(超过10 FPS)。我们还提供有关KITTI的深入研究,以研究每个模块的性能增益,并通过将其应用于大规模ATG4D数据集来证明PIXOR的可扩展性和泛化能力。

3、相关工作

2.1 基于CNN的对象检测

卷积神经网络(CNN)应用于对象检测时,通过在代表对象候选者的裁剪区域上运行推理来自然地利用它们。 Overfeat [30]在不同的位置和比例上滑动CNN并且每次预测每个对象的边界框。自引入阶级不可知对象提案(class-agnostic ob- ject proposals)[36,26]以来,基于提案的方法加上Region-CNN(RCNN)[12]及其faster 的版本[11,4]是最开创性的工作。 RCNN首先使用ImageNet [5]预训练的CNN提取整个图像特征图,然后通过整个图像特征图上的RoI池操作预测置信度得分以及每个proposals的框位置[13]。Faster-RCNN [28]利用CNN生成区域proposals并与检测共享特征表示,来进一步提高性能和速度。基于proposals的物体检测在许多公共基准测试中都表现出色[7,29]。但是,典型的两级流水线使其不适合实时应用。

2.2单级物体检测

与首先预测建议,然后对其进行精炼的两阶段检测流程不同,单级检测器直接预测最终的检测结果。 YOLO [27]和SSD [23]是具有实时速度的最具代表性的作品。 YOLO [27]将图像划分为稀疏网格,并对每个网格单元进行多类和多尺度预测。 SSD [23]还使用预定义的对象模板(或锚点)来处理对象大小和形状的大变化。对于单类物体检测,DenseBox [17]和EAST [38]表明,单级检测器也可以很好地使用手动设计的锚点。它们都采用完全卷积网络架构[24]进行密集预测,其中每个像素位置对应一个候选对象。最近RetinaNet [22]表明,如果正确解决了训练过程中的类不平衡问题,单级探测器可以胜过两级探测器。我们提出的探测器遵循单级密集物体探测器的想法,同时重新设计输入表示、网络架构和输出参数化,进一步将这些想法扩展到实时3D物体探测。我们还通过重新定义对象定位的目标函数来移除预定义对象锚的超参数,从而导致更简单的检测框架。


与首先预测建议然后对其进行精炼的两阶段检测管道不同,单级检测器直接预测最终的检测结果。 YOLO [27]和SSD [23]是具有实时速度的最具代表性的作品。 YOLO [27]将图像划分为稀疏网格,并对每个网格单元进行多类和多尺度预测。 SSD [23]还使用预定义的对象模板(或锚点)来处理对象大小和形状的大变化。对于单类物体检测,DenseBox [17]和EAST [38]表明,单级检测器也可以很好地使用手动设计的锚点。它们都采用完全卷积网络架构[24]进行密集预测,其中每个像素位置对应一个候选对象。最近RetinaNet [22]表明,如果正确解决了训练过程中的类不平衡问题,单级探测器可以胜过两级探测器。我们提出的探测器遵循单级密集物体探测器的想法,同时通过重新设计输入表示,网络架构和输出参数化,进一步将这些想法扩展到实时3D物体探测。我们还通过重新定义对象定位的目标函数来移除预定义对象锚的超参数,从而导致更简单的检测框架。

你可能感兴趣的:(目标识别)