BEV感知系列分享是整数智能推出的一个全新分享系列,在这个系列中,我们将介绍BEV感知相关的算法和数据集等内容。BEV感知系列主要分为以下几篇文章:
BEV感知,是下一代自动驾驶感知算法风向吗?
BEV感知的开源数据集分享
BEV常见的开源算法系列
BEV空间的生成
BEV下的多模态融合
BEV下的时序融合
在本系列中,我们将介绍截至目前为止发布的优秀BEV算法。我们将该系列分为BEV空间的生成、BEV下的多模态融合算法、BEV下的时序融合算法。
本篇中我们将介绍BEV下的时序融合算法。
在BEV空间内,由于坐标系相同,可以很容易地融合时序信息,形成4D空间。在4D空间内,感知网络可以更好地实现一些感知任务,如测速等,甚至可以直接输出运动预测(motion prediction)给到下游的决策和规控。
【论文地址】
https://ieeexplore.ieee.org/abstract/document/9697426/
【简介】
作者研究了使用单个车载摄像头作为输入,以语义BEV映射的在线估计形式的场景理解。对于该任务,作者研究了三个关键方面:图像级理解、BEV级理解和时间信息的聚合。基于这三个支柱,作者提出了一个结合这三个方面的新架构。
【算法结构】
BEVStitch主要由三个部分组成,包括:
图像级分支:在图像级分支中,主干特征由静态图像解码器和目标图像解码器处理,这两个分支结构相似,主要是在最后一层不同。两者都对主干特征进行解码,并利用来自主干的跳过连接,生成像素级的分割
时序聚合模块:这是整个算法架构的核心,它直接在BEV上进行,融合了时空信息。该模块包括两个关键操作:
时间扭曲
聚合从主干网络、对象解码器和静态地图解码器获得的三个输入
BEV解码器:给定时间聚合的BEV特征图后,由BEV解码器生成最终的BEV预测,该解码器使用残差网络架构来处理时间聚合的BEV特征图
【实验结果】
【论文地址】
https://arxiv.org/abs/2206.01256
【简介】
基于PETR,PETRv2探索了时间建模的有效性,它利用前一帧的时间信息来提高3D目标检测的准确率。更具体地说,作者扩展了PETR中的3D位置嵌入(3D PE)用于时间建模。3D PE实现了对不同帧目标位置的时间对齐。为了提高3D PE的数据适应性,作者进一步引入了一种特征导向位置编码器。
【算法结构】
上图为PETRv2的整体架构,其算法的主要流程为:
二维图像特征通过二维主干(例如ResNet-50)从多视角图像中提取,三维坐标是由PETR中描述的相机地壳空间生成
考虑到自我车的运动,前一帧t-1的三维坐标首先通过姿势变换被转换成当前帧t的坐标系
将相邻帧的二维特征和三维坐标分别串联起来,输入到特征引导的位置编码器(FPE)
FPE被用来为变换器解码器生成键和值,此外,检测查询和分割查询分别从可学习的三维锚点和固定的BEV点初始化,被输入到变换器解码器,并与多视图图像特征进行交互
最后更新的查询被分别输入到检测和分割头,以进行最终预测
【实验结果】
【论文地址】
https://arxiv.org/abs/2203.17054
【简介】
单帧数据所包含的信息有限,这限制了现有的基于视觉的多摄像机三维目标检测范式的性能。为了从根本上突破该领域的性能边界,作者提出了一种名为BEVDet4D的新范式,将可扩展的BEVDet范式从纯空间3D工作空间提升到时空4D工作空间。作者将前一帧的特征与当前帧中相应的特征融合在一起,使BEVDet4D能够通过查询和比较两个候选特征来访问时间线索。此外,作者简化了速度预测的任务,将其退化为两个相邻特征的位置偏移预测。这使得BEVDet4D将速度误差降低了62.9%,让基于视觉的方法在这方面首次可以与基于激光雷达或雷达的方法媲美。
【算法结构】
BEVDet4D的总体框架由四种模块组成:图像-视图编码器、视图转换器、BEV编码器和特定任务头,这些模块的所有实现细节和BEVDet保持不变,改进的方面在于:视图转换器采用额外的BEV编码器对候选特征进行调整,使其能够将前一帧中保留的特征与当前帧中的特征合并。
【实验结果】