在三维环境中认识世界是城市自主驾驶的重要组成部分。一般来说,昂贵的激光雷达传感器和立体RGB成像的结合对于成功的3D目标检测算法来说是至关重要的,而单目图像方法的性能则大大降低。我们建议通过将单目三维检测问题重新定义为一个独立的三维区域建议网络来减少间隙。我们利用二维和三维透视图的几何关系,允许三维盒子利用图像空间中生成的众所周知的强大卷积特征。为了解决复杂的三维参数估计问题,我们进一步设计了深度感知卷积层,实现了特定位置特征的开发,从而提高了三维场景的理解能力。与以往的单目三维检测相比,我们的方法只包含所提出的三维区域建议网络,而不依赖于外部网络、数据或多个阶段。M3D-RPN能够在KITTI城市自主驾驶数据集中显著提高单目3D目标检测和鸟瞰任务的性能,同时有效地使用共享的多类模型。
我们建立了一个具有共享二维和三维检测空间的独立单目三维区域提议网络(M3D-RPN),同时使用先验统计作为每个三维参数的强初始化。
1.提出深度感知卷积以改善3D参数估计,从而使网络能够学习更多空间感知的高层特征。
2.提出了一种简单的方位估计后优化算法,该算法使用三维投影和二维检测来改进θ估计。
3.在城市KITTI[15]的单目鸟瞰和3D检测基准上,使用单一的多类网络,实现了最先进的性能。
我们期望能够利用2D检测的能力来指导和提高3D检测的性能,理想的情况是在一个统一的框架内,而不是作为单独的组件。因此,重新构造3D检测问题,使得2D和3D空间都利用共享锚和分类目标。从可靠分类对象的角度来看,3D检测器自然能够与2D检测器的性能相当。因此,剩下的挑战被简化为在摄像机坐标空间内的三维定位。
本文使用 3D bounding box estimation using deep learning and geometry作为3D目标框工具
将三维锚构造成主要在图像空间中工作的锚,并对其每个三维参数使用先验统计对所有锚进行初始化。因此,基于固定摄像机视点的一致性以及2D尺度与3D深度之间的相关性,每个离散锚具有很强的3D推理先验。
2D边框与3D边框一致性推理
其次,设计了一种新的深度感知卷积层,该卷积层能够学习空间感知特征。传统上,卷积操作优选为空间变化的[21,22],以便在任意图像位置检测对象。然而,虽然它可能有利于低层特征,但我们表明,当提高了对其深度的认识,并且假设相机场景几何结构一致时,高层特征会得到改善。
在后优化算法中,利用3D→2D投影一致性损失对方位估计θ进行优化。因此,在假设可靠的2D边界框的同时,有助于校正θ估计内的异常。