TPVFormer论文与模型代码注析

TPVformer使用多相机图像输入来生成周环境的占据栅格;并且网络训练只需要使用稀疏的激光点云进行监督训练。

文章地址:

https://arxiv.org/pdf/2302.07817.pdf

官方代码地址:GitHub - wzzheng/TPVFormer: An academic alternative to Tesla's occupancy network for autonomous driving.

1 前言

        当前以视觉为中心的自动驾驶感知算法主要在BEV空间下特征来表达3D场景;BEV方法对比voxel类的方法拥有更好的效率,但是却难以在一个BEV平面下精细的描述无图的三维结构;因此为了解决这个问题,作者提出了TPV(tri-perspective view)模块来从物体的三个垂直面的视角来对物体进行编码。为了将图像特征升维到TPV空间中,提出了基于transformer的TPV encoder来高效的获取TPV特征,然后对物体在空间中的每个点特征在三个平面上的投影进行累加

你可能感兴趣的:(3D感知论文分析与代码实战,自动驾驶,深度学习,计算机视觉,python,神经网络)