BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal论文阅读

一、概要

提出新框架BEVFormer,用spatiotemporal transformer学习统一的BEV表示,来支持多个自动驾驶感知任务。空间上,用cross-attention让每个BEV query从roi across camera views中提取空间特征;时间上,用 self-attention循环融合历史BEV信息。9.0 points higher than previous best arts on nuScenes test set。

二、方法

BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal论文阅读_第1张图片

1. Spatial Cross-Attention

lift query,sample 3D reference points from the pillar, project(从车辆坐标系到世界坐标系,再由相机内外参投影到各相机的像素坐标系) these points to 2D views。regard these 2D points as the reference points(参考点可理解为物体中心的初始推测) and sample features around them。weighted sum of the sampled features as output of spatial cross-attention。

其中,Qp是点p处的query,P是第j个3D点投影到第i个视图的2D点,Fi是i-th camera view的特征。

2. Temporal Self-Attention

点p处当前的bev query与前一时刻的bev query做可变注意力。不同于vanilla 可变注意力,生成offsets的输入是Q与V的拼接。

实现细节:每个query在3D空间对应4个高度不同的target point,对2D空间的每个reference point,用周围的4个sampling points为每个头采样。


相关知识补充

可变卷积:普通卷积的感受野是固定矩形,可变卷积的感受野形状是可变的,给每个位置学了一个offset。实现时用一个conv从img feature学offset,然后offset和img feature一起生成可变卷积的结果。

可变注意力:原理和可变卷积差不多,通过offset改变注意力的感受野。用一个子网络学offset(输入查询q,输出每个reference point的offset),在原始输入x加上offset后的位置上采样(双线性插值)得到deformed x,进而得到deformed k和v,然后和q做注意力处理。

注意力使得模型calibration error friendly。

你可能感兴趣的:(计算机视觉,计算机视觉,目标检测,BEV,transformer)