TPVFormer论文阅读笔记

Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction论文,代码链接:TPVFormer (wzzheng.net)

BEVFormer存在的问题

BEV特征空间中的一个特征表示的是其对应世界坐标系中如下图所示红色的部分的特征,可见,在z轴方向上的特征是没有划分的。在做实例分割时(图中蓝色框),由于缺少特征z轴方向上的信息,而导致人头露出在了bounding box外面。所以作者想寻求一种特征表示方法来描述场景更加细粒度的结构,也就是加入z轴方向的信息。

TPVFormer论文阅读笔记_第1张图片

作者对比了另一种方法:将三维空间体素化,每一个小的体素网格存储表示该网格对应空间的特征信息。

TPVFormer论文阅读笔记_第2张图片

但是这种方法存储和计算复杂度与O(HWD)成正比,这使得它们在实时车载应用中的部署具有挑战性。

TPVFormer

TPVFormer的主要贡献:提出了一种三维特征的表示方法,通过三个正交平面上的特征来近似表示三维点/三维栅格的特征。这种表示形式可以用于3D点云语义分割、3D语义补全等任务。

TPVFormer论文阅读笔记_第3张图片

如图所示,从BEVFormer改进而来,设计了空间中相互垂直的三个BEV特征平面,放到集合T中,这样空间中的一点(x,y,z)就可以由front,side,top三个特征平面中的特征表示。

TPVFormer论文阅读笔记_第4张图片

表示将三维空间中的点(x,y)投影到特征空间中。

S(,(h,w))表示从特征空间中采样下标为(h,w)的特征。因为(h,w)是一个离散的值,所以用双线性插值整合它四个方向的特征。存储和计算复杂度: O(HW + DH + W D),稍比BEVFormer的复杂度大但是远比体素法小。

TPVFormer的总流程如下:

TPVFormer论文阅读笔记_第5张图片

首先六张图片通过编码器获得6个特征图,然后通过Cross-Attention和Hybrid-Attention机制将特征提取到特征空间中。对于三维空间中的每一个点都可以找到TPV三个特征图中对应的三个位置。这三个位置的特征做叠加就可以得到该三维点的特征。通过预测头输出该位置所在三维体素是否被占据+类别。

image cross-attention (ICA)

从六张图片生成的特征图中通过注意力机制提取特征。

以底部的TPV特征平面为例,通过底部TPV特征平面上的一个query点,作一个经过这个query点的垂直于该TPV特征平面的一条垂线,如图所示,从这条线上采样一些三维点投影到各个视角的图片中,作为Deformable Attention的参考点(记为二维参考点)。

TPVFormer论文阅读笔记_第6张图片
TPVFormer论文阅读笔记_第7张图片

比如说该三维点投影在了两幅图像的里面,则以两幅图片的投影点作为query,分别做deformable attention,获得这两个query的特征向量。这两个query的特征向量相加,得到的是该三维采样点的特征向量。将所有三维采样点的特征向量相加取平均值,得到该TPV特征空间中query所对应的特征。用公式表示如下:

TPVFormer论文阅读笔记_第8张图片

cross-view hybridattention (CVHA)

跨视图混合注意允许来自相同或不同视图的TPV查询之间的直接交互。

TPVFormer论文阅读笔记_第9张图片

通过这一步,可以让底部的TPV中的query和前面和侧面TPV中的query交换信息,从而获得不同视角的特征。

TPVFormer的应用

3D semantic occupancy prediction:预测三维体素网格的占用率和语义。

TPVFormer论文阅读笔记_第10张图片

你可能感兴趣的:(论文阅读,transformer,自动驾驶)