视觉感知——【Transformer】BEVFormer: Learning BEV Representation from Multi-Camera Images

目录

  • 文章侧重点
  • 网络架构

论文链接:BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers(内附官方中文版)
提取码:z3un
源码:https://github.com/zhiqi-li/BEVFormer

文章侧重点

BEVFormer应用 Transformer 和时态结构,通过预定的网格状 BEV 查询向量从多摄像头输入中生成鸟瞰图 (BEV) 特征(图像特征转换为 BEV 特征)。
视觉感知——【Transformer】BEVFormer: Learning BEV Representation from Multi-Camera Images_第1张图片

网络架构

  1. 采用两种backbone网络——ResNet101-DCN+VoVnet-99获取6个相机视角下的图像特征。 F t = F t i i = 1 N v i e w F_t={F_t^i}_{i=1}^{N_{view}} Ft=Ftii=1Nview
    视觉感知——【Transformer】BEVFormer: Learning BEV Representation from Multi-Camera Images_第2张图片

  2. 时序自注意力机制:利用时间戳 t−1 的 BEV 特征。在每个编码器层,首先使用 BEV 查询向量 Q 通过时间自注意力从先验 BEV 特征 Bt−1 查询时间信息。对于每个序列的第一个样本,时间自注意力将退化为没有时间信息的自注意力。

  • BEV 查询向量Q :预定义了一组网格形状的可学习参数〖∈ℝ〗^(××),位于 Q 的 p = (x, y) 查询 Qp∈R1×C 负责 BEV 平面中对应的网格单元区域。BEV 平面中的每个网格单元对应于真实世界的 s 米大小。
  • BEV 特征的中心默认对应自我车的位置。

视觉感知——【Transformer】BEVFormer: Learning BEV Representation from Multi-Camera Images_第3张图片

  1. 空间交叉注意力机制:利用 BEV 查询向量 Q 从多摄像机特征 Ft 中查询空
    间信息。
    (x′, y′)表示p = (x, y) 的查询向量 Qp对应的真实世界位置。 在三维空间中,位于 (x′, y′) 的物体会出现在 z 轴的高度z′ 处.
    视觉感知——【Transformer】BEVFormer: Learning BEV Representation from Multi-Camera Images_第4张图片
    视觉感知——【Transformer】BEVFormer: Learning BEV Representation from Multi-Camera Images_第5张图片
    有关于其他细节请见中文版/英文版的论文~
    链接失效可留言更新
    QQ~

你可能感兴趣的:(论文阅读,transformer,深度学习,计算机视觉)