BEVDepth: Acquisition of Reliable Depth for Multi-view 3D Object Detection

BEVDepth: Acquisition of Reliable Depth for Multi-view 3D Object Detection

    • 相关论文
    • 摘要
    • 简介

AAAI2023 - BEVDepth: Acquisition of Reliable Depth for Multi-view 3D Object Detection

相关论文

DETR3D:DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries

摘要

在这项研究中,文章提出了一种新的具有可靠深度估计的3D物体检测器,称为BEVDepth,用于基于相机的鸟瞰图 (BEV) 3D物体检测。文章的工作基于一个关键观察——鉴于深度对于相机 3D 检测至关重要这一事实,最近的方法中的深度估计出人意料地不足。BEVDepth通过利用显式深度监督解决了这个问题。 还引入了相机感知深度估计模块以促进深度预测能力。 此外,文章设计了一种新颖的深度细化模块来应对不精确的特征反投影带来的副作用。借助定制的 Efficient Voxel Pooling 和多帧机制,BEVDepth 在具有挑战性的 nuScenes 测试集上实现了最新的 60.9% NDS,同时保持了高效率。

简介

LiDAR 和摄像头是当前自主系统用于检测 3D 物体和感知环境的两个主要传感器。 虽然基于 LiDAR 的方法已经证明了它们能够提供值得信赖的 3D 检测结果,但基于多视图相机的方法最近因其成本较低而受到越来越多的关注。
LSS 中很好地解决了使用多视角相机进行 3D 感知的可行性。 他们首先使用估计的深度将多视图特征“提升”到 3D 截锥体,然后将截锥体“splat”到参考平面上,通常是鸟瞰图 (BEV) 中的平面。 BEV 表示非常重要,因为它不仅支持多输入摄像头系统的端到端训练方案,而且还为 BEV 分割、对象检测等各种下游任务提供了统一的空间和运动规划。 然而,尽管基于 LSS 的感知算法取得了成功,但几乎没有研究此管道中的学习深度。 我们问——这些检测器中学习深度的质量是否真的满足精确 3D 对象检测的要求? 我们首先尝试通过可视化基于 Lift-splat 的检测器中的估计深度来定性地回答这个问题。 尽管检测器在 nuScenes基准测试中达到了 30 mAP,但它的深度出奇地差。只有少数特征区域预测合理的深度并有助于后续任务,而大多数其他区域则没有。 基于这一观察,我们指出现有 Lift-splat 中的深度学习机制带来了三个不足:
• Inaccurate Depth。由于深度预测模块间接受到最终检测损失的监督,绝对深度质量远不能令人满意;
• Depth Module Over-fitting。大多数像素无法预测合理的深度,这意味着它们在学习阶段没有得到适当的训练。 这让我们怀疑深度模块的泛化能力。
• Imprecise BEV Semantics。Lift-splat 中学习的深度将图像特征取消投影到 3D 平截头体特征中,这些特征将进一步汇集到 BEV 特征中。 像 Lift-splat 那样深度较差的情况下,只有部分特征未投影到正确的 BEV 位置,导致 BEV 语义不精确。
BEVDepth: Acquisition of Reliable Depth for Multi-view 3D Object Detection_第1张图片

此外,我们揭示了通过将 Lift-splat 中学习的深度替换为从点云数据生成的地面实况来提高深度的巨大潜力。 结果,mAP 和 NDS 都提高了近 20%,mATE也从 0.768 下降到 0.393。 这种现象清楚地表明,增强深度是高性能相机 3D 检测的关键。
BEVDepth: Acquisition of Reliable Depth for Multi-view 3D Object Detection_第2张图片

因此,在这项工作中,我们介绍了 BEVDepth,这是一种新的多视图 3D 检测器,它利用源自点云的深度监督来指导深度学习。 我们是第一个对深度质量如何影响整个系统进行全面分析的团队。 同时,我们创新性地提出将相机内参和外参编码到深度学习模块中,使检测器对各种相机设置具有鲁棒性。 最后,进一步引入深度细化模块来细化学习到的深度。 为了验证 BEVDepth 的强大功能,我们在 nuScenes 数据集(3D 检测领域的一个著名基准)上对其进行了测试。 在我们定制的高效体素池和多帧融合技术的帮助下,BEVDepth 在 nuScenes 测试集上实现了 60.9% NDS,成为这一具有挑战性的基准测试的最新技术水平,同时仍保持高效率。

你可能感兴趣的:(计算机视觉,人工智能,深度学习)