BEV(Bird’s-eye-view)三部曲之三:demo和验证

1. PYVA: Projecting Your View Attentively (CVPR 2021)

  • 数据集:KITTI
  • paper,github,35 FPS
  • 输入:单张摄像头前向图
  • 输出:road layout estimation and vehicle occupancy estimation

BEV(Bird’s-eye-view)三部曲之三:demo和验证_第1张图片

目标检测

BEV(Bird’s-eye-view)三部曲之三:demo和验证_第2张图片

道路分割

BEV(Bird’s-eye-view)三部曲之三:demo和验证_第3张图片

2. FIERY (ICCV 2021)

github
主页
数据集:NuScenes
输入:6个视角的相机图像+内参+外参
模型推断输出示意图:
BEV(Bird’s-eye-view)三部曲之三:demo和验证_第4张图片

3. HDMapNET( ICRA 2022)

暂时没有预训练好的模型,但可以可视化其如何如何处理标注

  • paper,github,主页,知乎
  • 输入:多摄像头or/and 雷达
  • 输出:HD语义地图分割
  • 数据集:NuScenes
    其处理结果如下:
    BEV(Bird’s-eye-view)三部曲之三:demo和验证_第5张图片
    BEV(Bird’s-eye-view)三部曲之三:demo和验证_第6张图片

4. Lift, Splat, Shoot (ECCV 2020,NVIDIA)

  • paper,github,主页, 35 hz on a Titan V
  • 输入:6个摄像头
  • 输出:语义分割,道路和交通参与者
  • 数据集:NuScenes

模型推断结果的例子:
BEV(Bird’s-eye-view)三部曲之三:demo和验证_第7张图片
BEV(Bird’s-eye-view)三部曲之三:demo和验证_第8张图片

5. 一个比赛:nuScence 3D Camera-Only Detection

主页

BEV(Bird’s-eye-view)三部曲之三:demo和验证_第9张图片

5.1 BEFormer: 基于Transformer的BEV编码器

BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers

  • paper,github,中文blog,中文论文,测速V100上,R101-DCN,input size 900X1600,大约2FPS

  • 输入:多视角相机图像

  • 输出:3D目标检测/语义分割

  • 论文汇报的与带LiDAR方法对比:与基于lidar的基线性能相当; 对速度有很好的估计结果.
    BEV(Bird’s-eye-view)三部曲之三:demo和验证_第10张图片

  • 衡量标准:

    • mAP:根据地平面上的中心距离计算,而非IoU上的3D IoU
    • ATE: 平移
    • ASE: 尺度
    • AOE:方向
    • AVE:速度
    • AAE:属性
      BEV(Bird’s-eye-view)三部曲之三:demo和验证_第11张图片
  • 一些细节:

    • 主干网络:ResNet-101 / VoVnet99
    • BEV特征的中心默认对应自我车的位置
    • 鸟瞰图询问query Q为一组网格形状的可学习参数,维度为HxWxC,H, W为BEV的高和宽,一一对应到BEV平面中的网格单元区域。大小为200x200,感知范围[-51.2m, 51.2m].
    • 空间交叉注意力机制:
      • 将BEV空间上的每个query向量提升到一个柱状查询向量
      • 采样 N r e f N_{ref} Nref个3D参考点,将其投影到二维视图(需要知道相机投影矩阵),对于一个BEV query,只能命中部分视图。(这里的坐标系为以本车为原点的三维坐标系,根据BEV的坐标和分辨率获取真实的x,y, 通过锚点采样得到z)
      • 将这些命中视图中的二维点作为参考点,围绕参考点从命中视图中抽取特征
      • 对这些采样的特征进行加权求和,作为空间交叉注意力的输出.
    • 时间注意力机制:融合t时刻的BEV query向量和t-1时刻的历史BEV特征
    • BEV特征的应用:拿到的是HxWxC的通用的二维特征
      • 对于3D检测任务,设计DETR的检测head,预测三维检测框和速度,无需NMS
      • 对于地图分割,采用Panopic SegFormer作为地图分割头

5.2 其它名次的算法

  • MV-FCOS3D++ 基于MMDetection3D,无具体的github代码
  • FCOS3D-MVDet3D 基于MMDetection3D,无具体的github代码
  • DETR4D :无任何描述
  • DMVT*:无任何描述

你可能感兴趣的:(目标检测,CV,自动驾驶,人工智能,计算机视觉,深度学习,BEV,自动驾驶)