FB-BEV:BEV Representation from Forward-Backward View Transformations

参考代码:FB-BEV

动机与出发点
基于几何关系的BEV投影过程,依据BEV特征获取方式进行划分:图像角度使用类似LSS方案“push”过程或者BEV特征角度使用类似Fast BEV方案的“pull”过程。前者产生的BEV特征是稀疏的矩阵,后者产生的BEV特征在深度上是不可知的,也就是无法感知实际物体中的深度。对此,文章结合两种BEV投影的方法构建了一个BEV转换策略,既是首先使用“push”的方法构建一个base BEV特征,由于这些特征比较粗糙使用一个“RPN”细化并区分其中的前景和背景,再将确定的前景背景点去“pull”信息来优化BEV,在这个过程中都会用到估计出来的深度分布和假定的深度分布(用于与估计的深度分布联合计算特征融合概率)。这篇文章的方法在逻辑上没有问题,肯定能带来性能的提升,但是实车部署起来有点难度,业界还是希望那种简洁高效(时耗与计算效率)一点的BEV转换模块,比如Fast BEV、BevLaneDet中的VPN。下表是文章的方案在时耗上的比较:
FB-BEV:BEV Representation from Forward-Backward View Transformations_第1张图片

方法设计
下图中绘制了文章方法的两个支路:F-VTM和B-VTM,前面支路的结构作为下面支路的RoI输入,这样级连优化BEV特征表达
FB-BEV:BEV Representation from Forward-Backward View Transformations_第2张图片

对于F-VTM就是使用LSS这样的方法去构建一个BEV特征,这个特征构建是一个稀疏的矩阵,由这个矩阵预测一个二值mask M ∈ R H ∗ W M\in R^{H*W} MRHW,这个二值mask使用dice和交叉墒损失函数进行约束。在此基础上通过给定阈值 t f t_f tf来确定前景和背景点,再通过采样方式确定一些前景和背景点给B-VTM分支。这路分支拿到这些采样点之后使用,如Fast-BEV、BEVFormer这样的方法去优化这些采样点特征的表达。这里需要注意的一点是在优化过程中会依据估计的深度概率分布(下图中对应的 α \alpha α)和BEV网格构建的深度分布(下图中对应的 β , γ \beta,\gamma β,γ)进行特征点加权概率值计算。这个加权概率值描述的是从ego投射出去的一条射线,这个射线映射会到图像特征上,那么这个概率是图像特征在射线每个位置点上的出现概率,也就是下图中对应的 w c w_c wc

FB-BEV:BEV Representation from Forward-Backward View Transformations_第3张图片

实验结果
nuScenes val上的性能表现:
FB-BEV:BEV Representation from Forward-Backward View Transformations_第4张图片
nuScenes test上的性能表现:
FB-BEV:BEV Representation from Forward-Backward View Transformations_第5张图片

你可能感兴趣的:(BEV,Perception,计算机视觉)