论文速读 -- BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View

论文速读 – BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View

参考
BEVDet:High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View 论文笔记

一. 网络

论文速读 -- BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View_第1张图片

网络主要分为四部分:图像视角编码器(image-view encoder)、视角转换器(view-transformer)、BEV编码器(BEV encoder)、特定任务头(task-specific head)


1.1 图像视角编码器 image-view encoder

编码输入图像到高层次的特征,该模块主要包含用于高层次特征提取的backbone多分辨率特征融合的neck
backbone: ResNet / Swintransformer; DenseNet HRNet也可以替换。
neck: FPN-LSS; PAFPN、NAS-FPN未实验过

1.2 视角转换器(view-transformer)

将图像视角转换为BEV视角,将上一步特征作为输入,采用分类的方式稠密预测深度。最后使用垂直方向pooling算子生成BEV特征。实践中,使用1.25倍r,拓展了默认检测范围到[1,60m]。

1.3 BEV编码器(BEV encoder)

与1.1内容类似,由backbone和neck组成,感知高精度的重要信号,如尺度、旋转、速度。使用带有参差模块的ResNet作为backbone、FPN-LSS作为neck。

1.4 特定任务头(task-specific head)

CenterPoint网络中CenterHead第一阶段

二. 数据增广策略

2.1独立的视觉空间:

常用方式: 图像的翻转(flipping), 裁剪(cropping), 旋转(rotating)。注意在视图转换时,为保证空间一致性,需要进行逆变换。

2.2 BEV特征空间:

BEV空间的特征学习因数据量问题,容易陷入过拟合。常规的翻转、裁剪、旋转方式也可以用于view transformer输出特征图。注意对视图转换器的输出以及检测目标进行同样操作,以保证空间一致性。

三. 尺度NMS方法

在图像空间,一般采用经典的NMS方法来调整预测结果。BEV空间,iou交集几乎为0,如锥桶、行人此类比BEV分辨率还小。
为解决上述问题,本文提出尺度NMS方法,先根据预测类别放缩物体,再进行NMS操作。在实践中,我们将Scale-NMS应用于除屏障外的所有类别,因其大小变化大。缩放因子是类别相关的。
论文速读 -- BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View_第2张图片

你可能感兴趣的:(文章解读,3d,目标检测,人工智能)