1_Occupancy network

1、Occ3D: A Large-Scale 3D Occupancy Prediction Benchmarkfor Autonomous Driving

        本文构建了3D占据栅格标注数据流程以及标准数据集,并提出了粗到精的占据栅格网络且性能相较于BEVDet和BEVFormer有一定提升。

GitHub - Tsinghua-MARS-Lab/Occ3D

数据构建流程

(1)数据采集;标注数据流需要3D数据库,每个场景包含如下数据,分别是多摄像头的图像序列;3D雷达点云序列;IMU的3D位姿序列;所有传感器的内外参;除此以外,我们需要人工标注常见目标并选择性标注点级别的语义标签;

(2)点云重建;通过slam实现点云重建,重点将点云和IMU位姿进行联合优化。同时,我们处理动态和静态目标,动态目标根据每帧进行聚集。采用K紧邻来投票确定语义标签;

(3) 雷达可视化。通过光线追踪,将每个voxel确定为占据、空闲和未观测三种类别;

(4)遮挡推断和摄像头可视化;通过占据点与摄像头连线,得到观测和非观测,没有每扫描到的点也设置为非观测点。

        确定voxel是否3D占据是非常重要的,评估只是在雷达和摄像头的可观测的部分进行。

2、A Simple Attempt for 3D Occupancy Estimation in Autonomous Driving

        (1)本文设计了一种简单的3D Occupancy网络结构,在2D特征转到3D空间时没有使用参数,而是直接投影;

        (2)BEV特征通过3D卷积进行特征提取;

        (3)通过三种loss进行模型训练,分别是体渲染loss、深度图loss、分类loss;

        本文另一个创新点是使用公开的点云数据集进行性能评估,而不需要额外的转换点云到voxel。

1_Occupancy network_第1张图片

 3、BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers

        本文主要有两个创新点:

        (1)通过交叉注意力机制将BEV的query来query对应图像投影位置的特征;循环6次;

        (2) 通过将前一次的BEV feature存储下来进行特征自注意力,则融合了时域的信息,此时可以预测目标移动速度或者遮挡目标等;

1_Occupancy network_第2张图片

4、VoxelNeXt: Fully Sparse VoxelNet for 3D Object Detection and Tracking

本文创新点证实了使用全稀疏栅格体素表征来进行3D目标检测和跟踪。对于目标没有经过稀疏到2D稠密特征变换,而是通过体素作为目标候选点进行检测。是针对激光点云的网络。

5、TBP-Former: Learning Temporal Bird’s-Eye-View Pyramid for Joint Perception and Prediction in Vision-Centric Autonomous Driving

        (1)本文通过位姿一致BEV编码器将多个摄像头、多时间的图像特征统一到BEV特征下,做法是通过每一帧图像的内外参构建转换矩阵T,将bev上的空间位置x,y,z投影到对应像素点,之后同一位置x,y,z对应的特征进行平均;

1_Occupancy network_第3张图片

 1_Occupancy network_第4张图片

          (2)对于未来BEV状态的预测采用了时空金字塔转换,即queries为下采样8倍大小,之后与BEV不同尺度的特征进行cross attention,逐步得到原分辨率大小。

1_Occupancy network_第5张图片

你可能感兴趣的:(2_论文学习,深度学习)