Lift, Splat, Shoot图像BEV安装与模型详解

Lift, Splat, Shoot图像BEV安装与模型详解_第1张图片 左侧6帧图像为不同的相机帧,右侧为BEV视角下的分割与路径规划结果

1 前言

计算机视觉算法通常使用图像是作为输入并输出预测的结果,但是对结果所在的坐标系却并不关心,例如图像分类、图像分割、图像检测等任务中,输出的结果均在原始的图像坐标系中。因此这种范式不能很好的与自动驾驶契合。

在自动驾驶中,多个相机传感器的数据一起作为输入,这样每帧图像均在自己的坐标系中;但是感知算法最终需要在车辆自身坐标系(ego coordinate)中输出最终的预测结果;并提供给下游的规划任务。

当前也有很多简单、使用的方法用于扩展单帧图像到多视角图像的方法。简单实用的有来自所有相机的每一帧图像均进行目标检测,然后可以根据各相机的内参与外参对检测的结果进行旋转和平移至ego坐标系中。这一种单帧扩展到多视角的的方法有如下3个重要的对称性质:

        1 平移对称性(Translation equivariance):在图像坐标系中所有的像素偏移会导致输出的结果同样带有此偏移。

        2 排列不变性(Permutation invariance):算法结果不会因为不同相机输入帧的排列组合不同导致输出结果不一致。

        3 ego坐标系的等距性(Ego-frame isometry equivariance):物理世界是三维世界,因此ego在物理世界中,遵循T∈SE

你可能感兴趣的:(3D目标检测,python,深度学习,图像处理,自动驾驶,人工智能)