MapTR v2文章研读

MapTR v2论文来了,本文仅介绍v2相较于v1有什么改进之处,如果想了解v1版本的论文细节,可见链接。

相较于maptr,maptr v2改进之处:

  1. 在分层query机制中引进解耦自注意力机制,有效降低了内存消耗;
  2. 在训练阶段,额外引进一对多预测分支,增加正样本数量,有效加速模型收敛;
  3. 在透视图(perspective view)和鸟瞰图(bev)增加密集监督,有效提升模型性能;
  4. 加入center-line类别,利于下游的规划控制;
  5. 提供更多关于模型工作的理论分析;
  6. 将模型框架由2D地图元素结构扩展至3D地图元素预测;
  7. 额外增加关于Argoverse2数据的实验结果。

下面依据改进之处展开说一下。首先看一下v2版本的模型整体结构示意图:

MapTR v2文章研读_第1张图片

Encoder

在encoder阶段,maptr v2支持多种pv转bev方法,如CVT、LSS、Defirmable Attention、GKT和IPM。为了引入深度信息,默认使用基于LSS的BEVPoolv2作为转换方式。

Decoder

在decoder阶段,作者引入新的self-Attention变体和cross-Attention变体。

self-Attention变体

maptr采用一般的自注意力机制来交换queries信息,计算复杂度为 O ( ( N + N v ) 2 ) O((N+N_v)^2) O((N+Nv)2),其中 N N N N v N_v Nv分别代表实例queries数量和每个queries点的数量,点的数量是固定的,但随着实例数的增加,其消耗的内存资源也是逐步增加的。在maptr v2中,作者提出使用解耦的自注意力机制代替普通的attention,具体就是分别在实例queries之间和queries内部做self-attention,具体可见上图,计算复杂度为 O ( N 2 + N v 2 ) O(N^2+N_v^2) O(N2+Nv2)。有效的降低了内存消耗,实验表明,这种方式使得模型有更高的性能。

cross-Attention变体

作者在maptr v2文章中提出三种cross-attention方式,分别是基于bev的 cross-attention、基于pv的cross-attention和两者集合的cross-attention。其中,基于bev的 cross-attention和maptr中的一样,这里不在详述;基于pv的cross-attention,得到预测的参考点集后,在特征图上采集各点周围的特征值;两者结合的cross-attention,就是将结合上述两种方式的attention方法。具体可见上图。

loss函数

一对多损失

MapTR v2文章研读_第2张图片

maptr v2引入一对多损失方法,在训练时额外添加一对多的匹配分支。其中一对一损失即为maptr中定义的损失函数。一对多损失,如上图所示,将真值的地图元素复制k份,地图元素数量增加至 T T T,新的真值定义为 Y ′ = { y i ′ } i = 0 T − 1 Y'=\left\{y'_i\right\}_{i=0}^{T-1} Y={yi}i=0T1。然后同样在Y和Y使用分层的二分匹配,计算损失。对于一对多的匹配分支,一个真值地图元素可以匹配k个预测的地图元素。在训练时增加了正样本数量,使得decoder收敛更快。
在这里插入图片描述

辅助的密集预测损失(Dense Prediction Loss)

为了更好的利用语义和几何信息,maptr v2 引入三种辅助的损失函数:
在这里插入图片描述

Depth Prediction Loss

在这里插入图片描述

BEV Segmentation Loss

在这里插入图片描述

PV Segmentation Loss

在这里插入图片描述

总的损失函数:

在这里插入图片描述

Centerline

在v2,作者根据LaneGAP提出的路径规划模型,在类别中加入一种特殊的地图元素centerline,它可以提供方向信息,在规划控制里很重要。
MapTR v2文章研读_第3张图片
加入centerline类别后,模型分别在nuscenes和argoverse2数据集上测试结果如上表。

结果

在nuscenes验证集上测试结果
MapTR v2文章研读_第4张图片

在Argoverse2验证集上测试结果

MapTR v2文章研读_第5张图片

你可能感兴趣的:(深度学习)