【DETR用于3D目标检测】DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries

DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries

  • 论文简介:
  • 论文贡献:
  • 具体实现:
    • 总体框架
    • 特征学习
    • 检测头
  • 实验结果:

论文简介:

本文介绍了一个用于多摄像机三维目标检测的框架。现有的工作是直接从单目图像中估计三维边界框,或使用深度预测网络从二维信息中生成三维目标检测的输入,与此不同,本文的方法直接在三维空间中操作预测。

DETR3D 从多个相机图像中提取二维特征,然后使用一组稀疏的 3D 对象查询来索引到这些二维特征中,使用摄像机转换矩阵将 3D 位置链接到多视图图像,然后对每个对象查询进行边界框预测,使用集合到集合的损失来测量地面真实值和预测之间的差异。

这种自上而下的方法优于自下而上的方法,即对象边界盒预测遵循每像素深度估计,因为它不受深度预测模型引入的复合误差的影响。此外,该方法不需要后处理,如非最大抑制,显著提高了推理速度,并在 nuScenes 自动驾驶基准测试上取得了最先进的性能。

论文贡献:

  • 本名为提出了一个基于 RGB 图像的三维目标检测模型。与现有的工作不同,DETR3D 在最后阶

你可能感兴趣的:(▶,深度学习-计算机视觉,目标检测,3d,计算机视觉,深度学习,人工智能)