Transformer BEV 3D object detection

传统方案:利用2D模型在各自的相机视角获取3D检测结果。再通过后处理算法将各个视角的3D检测框投影到ego frame,融合到一起。这样的做法简单有效,但也有如下缺点:

  1. 将多视角融合的步骤排除在模型学习之外,导致其难以检测相邻环视相机重叠部分中被截断的物体。
  2. 难以实现与3D点云传感器(LiDAR)的数据级/特征级融合。

你可能感兴趣的:(paper,人工智能,计算机视觉)