猿创征文|论文速读 -- BEVerse

论文速读 – BEVerse: Unified Perception and Prediction in Birds-Eye-View for Vision-Centric Autonomous Driving

先赞后看,养成好习惯。有帮助的话,点波关注!我会坚持更新,感谢您的支持!

参考
1. BEVerse
2. 3D视觉工坊解析
3. 评价指标mAP
4. nuScenes数据集评价指标

一. 摘要

文中提出了BEVerse网络,是一个统一的架构,完成基于多视觉的感知和预测任务。利用多时间戳和多视角图像进行共享特征提取,提升(lifting)生成4D BEV表征。自运动补偿之后,利用时空编码器进一步BEV特征提取。最后,使用多任务解码器进行联合推理和预测。在解码器上,提出栅格采样器(grid sampler)来生成支持不同范围和粒度的BEV特征。此外,还设计一个迭代流(iterative flow)方法,实现内存高效的预测。实验发现,时域信息可以提升3D目标检测和语义地图的构建,而多任务学习也有利于运动预测。


二. 介绍

猿创征文|论文速读 -- BEVerse_第1张图片
主要工作

  • 提出了统一了感知和预测任务,多相机视角BEV表征的框架BEVerse。
  • 提出了迭代流的方法,进行高效的未来预测和多任务学习。
  • BEVerse 作为多任务模型,在3D目标检测、语义地图构建和运动预测任务上,达到sota水平。

相关工作
3D目标检测:FCOS3D、PGD、DETR3D、PETR、BEVDet
语义地图构建:HDMapNet(在线构建)、BEVSegFormer
运动预测:非监督学习方式居多、FIERY (第一个BEV运动预测框架)、StretchBEV
多任务学习:工作集中在怎样设计共享结构、怎样平衡优化多任务。FAFNet、MotionNet

三. 网络和方法

BEVerse从N个时间戳中获取M个环视摄像头图像,并将车辆自运动(ego-motion)和摄像头参数作为输入。数据结果包含当前帧障碍物的3D boundingbox语义地图。BEVerse由四个子模块组成:图像-视图编码器、视图转换器、时空BEV编码器和多任务解码器
猿创征文|论文速读 -- BEVerse_第2张图片

3.1 图像-视图编码器

采用SwinTransformer做主干网络(backbone),创建多层次特征C2、C3、C4、C5,每一层宽高减半。采用BEVDet中上采样C5,将其与C4进行concatenate。

3.2 视图转换器

因为要学习3D时序信息,视图转换器将多视图特征F 和输出的BEV特征G。采用LSS(LiftSplat-Shoot)方法,特征F使用1*1卷积处理预测分类深度分布F’。

3.3 时空BEV编码器

先将过去帧进行时间对齐,使用FIERY方法,BEV编码器由一组时域块组成。主要包含3D卷积和全局池化和中间特征压缩层。

3.4 任务解码器

多任务解码器是并行和独立的一组解码器组成,每个任务解码器包括栅格采样器(grid sampler)、任务编码器(task encoder)和任务头(task head)。栅格采样器作用是裁剪任务特殊区域,通过bi-linear插值转化到理想的分辨率。任务编码器是按照BEVDet,使用ResNet中的基础模块取构建主干网络,并结合与图像-视图解码器类似的多尺度特征。

3.5 输出头

3D物体检测头。与激光存在的维度间隙(dimension gap)已经消失,直接使用CenterPoint第一阶段作为3D检测头。
语义地图构建头
运动预测头。不同于以上只关心当前帧的头,运动预测是对未来状态的预报。FIERY预测模块有效性受两个重要因素制约:(1)每个BEV像素共享采样的全局潜向量φt,不能代表许多个体的不确定性。(2) 仅从采样潜向量初始化未来状态,这样会提高预测的难度。与FIERY不同,我们提出了迭代流的方案,直接预测和采样潜在图,可以分离不同目标的不确定性。
猿创征文|论文速读 -- BEVerse_第3张图片


四. 实验和结果

数据集:Nuscenes, 1000个自动驾驶视频片段,每个片段20s

  • 700 --> 训练
  • 150 --> 验证
  • 150 --> 测试

评价标准
3D目标检测:nuScenes数据集评价指标
mAP:PR曲线下面积,各类的平均值
ATE、ASE、AVE、AOE、AAE
语义地图构建:mIoU,主要包含元素有车道线,人行横道,道路边界
运动预测:IoU和VPQ(Future Video Panoptic Quality)
猿创征文|论文速读 -- BEVerse_第4张图片

结果
猿创征文|论文速读 -- BEVerse_第5张图片

你可能感兴趣的:(文章解读,深度学习,人工智能,计算机视觉,算法,自动驾驶)