纯视觉BEV再度突破!DETR4D:时序融合新思路(南洋理工最新)

点击下方卡片,关注“自动驾驶之心”公众号

ADAS巨卷干货,即可获取

点击进入→自动驾驶之心【3D目标检测】技术交流群

后台回复【3D检测综述】获取最新基于点云/BEV/图像的3D检测综述!

摘要

利用环视图图像进行3D物体检测是自动驾驶的一项基本任务。本文提出了DETR4D,这是一个基于Transformer的框架,它探索了用于多视图图像中3D目标检测的稀疏注意力和直接特征查询。论文为query-image交互设计了一种新的投影交叉注意力机制,以解决现有方法在交叉视图目标的几何线索探索和信息丢失方面的局限性。此外,论文引入了一种热力图生成技术,该技术通过查询初始化有效地桥接3D和2D空间。此外,与融合中间空间特征用于时序聚合的常见实践不同,论文通过引入一种新的混合方法提供了一种新视角,该方法在过去的目标查询和图像特征上进行跨帧融合,从而实现了对时间信息的高效和鲁棒建模。在nuScenes数据集上的大量实验证明了所提出的DETR4D的有效性和效率。

总结来说,本文的主要贡献如下:

  • 论文提出了一种多目3D目标检测框架,该框架遵循从图像特征直接查询的简单设计。引入了一种新的投射交叉注意力机制,以更好地利用几何线索并解释交叉视图目标。此外,一个有效的热力图生成过程被用于上下文感知查询初始化;

  • 引入了一种新的混合时间建模方法,该方法以最小的额外计算量有效地聚合来自先前目标查询和图像特征的时间信息;

  • 论文在nuScenes数据集进行了广泛的评估,以验证DETR4D的有效性。实验结果表明,DETR4D以具有竞争力的性能实现了显著的效率。

纯视觉BEV再度突破!DETR4D:时序融合新思路(南洋理工最新)_第1张图片

往期推荐:

纯视觉BEV再度突破!DETR4D:时序融合新思路(南洋理工最新)_第2张图片

相关工作

基于Transformer的2D目标检测:Transformer[35]是自然语言处理任务中首次提出的基于注意力的模块,以其建模长距离依赖性的能力而闻名。最近,一些工作[4,7,23,41,45]使Transformer适应视觉任务,并取得了显著进展。特别是,DETR[4]引入了一种新的端到端模式,用于使用Transformer架构进行目标检测,以取代先前检测器[20,31]中的启发式设计。在DETR中,目标实例由目标查询表示,目标查询通过Transformer的交叉注意力机制与编码的图像特征交互以进行迭代更新。然而,DETR存在全局注意力操作带来的缓慢收敛和高计算量。为解决这些问题,提出了一系列后续工作[8,16,25,32,40,43]。其中,可变形DETR[49]提出用可变形注意力代替DETR中的全局注意力,这是一种稀疏注意力,每个查询只与value中固定数量的采样位置交互。一些工作[18,46]通过将3D查询投影到图像以进行特征聚合,将可变形注意力扩展到3D感知任务。论文提出的投影交叉注意力与它们的不同之处在于预测3D空间中的采样偏移,以利用更多特定于实例的几何线索,并减少交叉视图目标的信息损失。

基于纯视觉的3D目标检测:许多早期工作[1,6,12,13,26,37]在单目中实现基于相机的3D目标检测,并在很大程度上遵循2D检测方法以在图像空间中生成3D预测。FCOS3D[37]扩展了2D检测器FCOS[34],并直接从图像中预测3D边界框。DD3D[27]证明,大规模深度估计预训练可以有效提高3D检测的性能。最近的一些工作探索了直接在3D空间中实现3D检测,它们可以大致分为基于深度的方法和基于查询的方法。基于深度的方法[11,17,28,29,38]采用自下而上的方法来生成图像像素的深度估计,并将图像特征反投影到3D空间以进行3D边界框预测。这些方法通常需要来自其他输入模式(如点云)的显式深度监督。另一方面,基于查询的方法[5,18,21,22,39]受到DETR[4]的启发,目标查询用于表示目标,并与具有注意力机制的多视图图像特征交互。DETR3D[39]将目标中心投影到图像以进行特征采样。PETR[21]将3D坐标编码为位置嵌入,并将其与图像特征融合。BEVFormer[18]密集地对3D空间上的点进行采样,并使用可变形注意力[49]来生成BEV特征,目标查询与BEV特征交互以生成检测预测。论文提出的方法遵循DETR3D的高效设计,以稀疏注意力直接查询图像特征。最近的研究[10,18,22]已经证明了时间建模的重要性,大多数现有方法都使用BEV特征进行时间融合。论文提出的DETR4D通过聚合来自之前的查询和图像特征的信息,为有效的时间建模提供了另一个视角。

方法

概览

图2说明了所提出的DETR4D的整体架构,该架构在很大程度上遵循DETR3D的结构[39]:目标由查询表示,直接用于从多视图图像特征中提取特征以进行迭代更新。论文提出的方法与DETR3D的不同之处在于以下设计:基于热力图的查询初始化(第3.2节)、投影交叉注意力(第3.3节)和时间建模(第3.4节)。对于基于热力图的查询初始化,论文通过基于网格的特征采样生成表示鸟瞰图(BEV)中的objectiveness的热力图。预测的热力图和BEV特征用于指导目标查询的初始化,以促进查询和图像特征之间的后续交互。投影交叉注意力从可变形注意力[49]延伸出来,它基于3D空间中的目标中心生成采样位置,并将其投影到图像中,用于基于注意力的特征聚合。对于时间建模,论文在推理过程中将先前的目标查询和图像特征存储在记忆库中,并使用注意力机制从中提取有用的信息。在每个Transformer层之后,输出目标查询被传递到检测头,以按照[49]的流水线生成检测预测。

纯视觉BEV再度突破!DETR4D:时序融合新思路(南洋理工最新)_第3张图片

基于热力图的查询初始化

现有的基于查询的方法[18,21,39]以随机方式实现目标查询初始化。然而,典型的自动驾驶场景通常具有较大的规模,而目标只占据空间的一小部分。通常需要大量的目标查询以确保覆盖整个场景(例如,输入范围为100m×100m的1000个查询),从而导致冗余计算。因此,论文有动机将查询的初始化引导到目标出现概率较高的区域。此外,DETR3D[39]仅将目标中心投影到图像以进行局部特征采样,导致感受野受限,对上下文信息的访问受限,这阻碍了后续查询更新的有效性。为此,论文提出了一个基于热力图的查询初始化过程来解决上述问题。

具体来说,给定一组输入图像,首先使用图像主干(例如,ResNet[9])来提取图像特征。然后,论文形成对应于场景范围的3D采样网格G,并使用已知的相机参数将网格内的所有采样位置投影到图像。论文将投影采样网格表示为G'。然后通过双线性采样和跨视图求和获得体素特征:

e2dce473176db6beebaa87425a063fa9.png

必须强调,论文的体积采样过程不同于现有的基于深度估计的方法[11,17,28],因为它是非参数的,并且效率更高。然后通过沿着通道维度级联来压缩,并使用卷积层对特征进行编码,以获得展平的BEV表示。热图M由具有轻量级卷积神经网络(例如ResNet-18)的生成,其表示BEV空间中的objectiveness。为了监督预测的热力图,论文通过绘制具有固定半径的标注边界框的高斯分布来生成GT热力图。最后使用高斯focal loss计算热图力损失[15]:

3b299c324c9b70267d30114570ee1bfe.png

随后,选择热力图中具有高响应的位置作为目标查询的初始位置。实际上,在选择top value之前,论文在热图上使用固定大小的执行NMS,以防止过度密集的查询初始化,其中是目标查询的数量。使用线性投影层对所选位置的坐标进行编码,以形成查询位置编码,论文将此过程命名为位置初始化。为了便于使用上下文信息进行以下特征聚合,论文在选定位置从中采样特征作为初始目标查询,论文将其称之为特征初始化。

投影交叉注意力

如图1(a)所示,DETR3D[39]仅对投影物体中心的图像特征进行采样,导致有限的感受野和对不准确物体位置的耐受性较差。一些后续方法[5,18]通过预测每个图像视图中的采样偏移,将可变形注意力[49]扩展到3D-to-2D查询,以使用注意力机制自适应地聚集特征。然而,当涉及到目标查询和图像特征之间的直接交互时,这种方法仍有一定的限制。首先,仅目标中心的投影提供了有限的几何线索,有助于目标的3D定位。其次,如图3(a)所示,当目标中心仅落在单个视图上时,它会导致交叉视图目标的潜在信息丢失。为了解决上述问题,论文通过扩展可变形注意力,为查询图像交互提出了一种新的投射交叉注意力机制[49]。

具体而言,如图3(b)所示,对于每个目标查询,论文首先通过线性投影来预测相对于目标中心的3D采样偏移量,其中h和s分别表示注意力头和采样位置。然后通过相机参数将3D采样位置投影到图像视图,以获得相应的图像特征:

a2a64a6dee37e34ad8e15851fa810019.png

投影交叉注意力(PCA)的输出通过以下公式计算:

87c3031501e535edae621d678adf5f94.png

利用所提出的注意力机制,论文将实例相关的几何信息结合到查询过程中,以便于目标定位。此外,投射交叉注意力可以很容易地扩展,以利用多尺度图像特征,遵循可变形注意力的实践[49]。

时序建模

最近的研究[10,18,22]证明了时间建模在提高基于相机的3D检测中的性能方面的有效性。然而,现有方法通常对中间空间特征(例如,BEV特征)进行时间融合,这不适用于论文提出的利用直接query-image交互的方法。为此,论文提出了一种新的混合方法,该方法包括查询聚合和特征聚合,以对时间关系进行建模。如图2所示,创建了一个内存库来缓存过去的目标查询和图像特征。存储上一帧的最后一个Transformer层输出的目标查询。在推理过程中,可以直接从记忆库中提取过去的信息,以避免重复计算。对于查询聚合,先前的目标查询包含前一时间戳的实例的分类和位置信息,这自然为当前帧的检测任务提供了有用的先验知识。为了将信息传递到当前帧,只需将来自两个帧的目标查询与标准多头注意力(MHA)模块融合[35]。

具体来说,论文将当前和过去的查询表示为和 。将设置为MHA的查询,并将和 concat以形成key和value。形式上,论文的时序self-attention(TSA)操作定义为:

eedc09f09c4533c37236e6c1395a3922.png

请注意,每个目标的中心位置被编码为目标查询的位置编码(参见第3.2节),论文基于自车运动纠正先前目标查询的定位,以在将其转换为位置编码之前消除自车运动的影响。虽然目标查询包含高级实例信息,但论文还结合了细粒度的先前图像特征,以进一步改进检测结果。提出的投影交叉注意力提供了易于扩展到跨帧特征聚合的灵活性。对于当前帧中的目标查询及其对应的目标中心,论文首先进行自车运动对齐以将中心转换为先前的时间戳。变换后的中心位置表示为。然后从当前和先前的图像特征并行进行特征聚合,并对查询的特征进行平均,以生成最终输出。该过程可以表示为:

纯视觉BEV再度突破!DETR4D:时序融合新思路(南洋理工最新)_第4张图片

由于投射交叉注意力的稀疏性,所提出的跨帧特征聚合只给算法带来了很小的计算开销。如前所述,查询聚合和特征聚合侧重于时间建模的不同视角,并以互补的方式工作。

为了用时间建模来训练模型,对于时间戳处的每个训练样本,论文从过去2秒中随机抽取另一帧作为前一帧。首先运行前一帧的前向过程,以生成过去的目标查询和图像特征,在这个过程中不需要梯度。然后将当前帧与过去的查询和特征一起输入,以进行如上所述的查询和特性聚合。在推理过程中,使用内存库来缓存过去的查询和图像特征,以避免重复计算。默认情况下,上一帧和当前帧之间的时间间隔为1.5秒。

实验

数据集

论文在nuScenes[3]上进行实验以进行评估。nuScenes数据集由1000个序列组成,每个序列的持续时间约为20秒。序列中的每个样本由面向不同方向的摄像机采集的6幅图像组成,所有图像的组合覆盖360° FOV。数据集分为训练、验证和测试数据集,分别具有700、150和150个序列。标注每0.5秒提供一次,标注样本称为关键帧。论文只在实验中使用关键帧。使用官方评估指标,包括mAP、mATE、mASE、mAO)、mAVE、mAAE以及nuScenes检测分数(NDS)。

基准结果

论文将DETR4D模型与nuScenes数据集上现有的纯视觉检测方法进行了比较。为了公平比较,论文不包括使用额外点云数据进行显式深度监督的方法。为了研究时间建模的有效性,论文还使用单帧输入训练模型,并将其表示为DETR4D-S。表1和表2分别报告了验证集和测试集的结果。尽管采用了直接query-image交互的简单设计,DETR4D在两个集合上都获得了与最先进的方法BEVFormer[18]相当的性能。与基础模型DETR3D[39]相比,单帧版本DETR4D-S实现了显著改进的检测结果,包括验证集上mAP提升3.7%。通过提出的基于多帧输入的时序建模,DETR4D在DETR4D-S的基础上进一步提高了性能。

纯视觉BEV再度突破!DETR4D:时序融合新思路(南洋理工最新)_第5张图片 纯视觉BEV再度突破!DETR4D:时序融合新思路(南洋理工最新)_第6张图片

消融实验

论文进行实验来研究模型组件的影响。结果报告在nuScenes数据集的验证集上。为了减少训练时间,除非另有说明,否则以1280 x 512的缩减输入大小进行所有实验。

基于热力图的查询初始化的效果:论文提出的基于热力图的查询初始化包括位置初始化和特征初始化。前者提供objectiveness的先验知识,而后者为目标查询提供上下文信息。论文用单帧模型进行了实验,以研究它们的效果,并将结果报告在表3中。可以观察到,它们中的每一个都在提高检测性能方面发挥了积极作用,这验证了查询初始化策略的有效性。此外还可视化了图4中的初始化过程。可以看出,查询在前景概率较高的区域初始化。

纯视觉BEV再度突破!DETR4D:时序融合新思路(南洋理工最新)_第7张图片 纯视觉BEV再度突破!DETR4D:时序融合新思路(南洋理工最新)_第8张图片

投影交叉注意力的效果:为了研究所提出的PCA的效果,论文将其替换为[18]中提出的空间交叉注意力机制,这也是可变形注意力[49]的扩展,但在2D图像中生成采样位置。如表4所示,PCA在性能上比比较方法有显著的优势,因为它提供了增强的几何线索,并减少了交叉视图目标的信息丢失。

纯视觉BEV再度突破!DETR4D:时序融合新思路(南洋理工最新)_第9张图片

时间建模的效果:论文提出的时间建模采用了一种混合方法,该方法结合了基于过去目标查询的查询聚合和基于过去图像特征的特征聚合。通过实验研究了这两种成分的影响。如表5所示,与单帧基线相比,每种聚合方法单独引入了显著的性能改进,同时它们相互补充,当两者都应用时,可以获得最佳性能。结果验证了我们在3.4节中的分析,即查询和特征聚合解决了时间建模的不同方面。

纯视觉BEV再度突破!DETR4D:时序融合新思路(南洋理工最新)_第10张图片

自车运动对齐的效果:在时间建模中,论文对目标位置进行自车运动对齐,以排除自车运动的影响。从表6中可以看出,缺乏自车运动对齐会导致模型性能急剧下降,这表明了其重要性和必要性。

纯视觉BEV再度突破!DETR4D:时序融合新思路(南洋理工最新)_第11张图片

帧之间的时间间隔:论文研究了前一帧和当前帧之间的时间间隔的影响。如表7所示,当将时间间隔从0.5秒增加到1.5秒时,模型性能会提高,但随着时间间隔的进一步扩大,模型性能就会降低。这种行为是预期的,因为更大的间隔导致与相邻帧的特征更明显,因此可能提供更有意义的信息。此外,相邻帧也可以被视为形成立体的双目系统,这导致更精确的深度估计。然而,当间隔太大时,它会使跨帧关联变得困难,并导致性能下降。

纯视觉BEV再度突破!DETR4D:时序融合新思路(南洋理工最新)_第12张图片

推理速度:论文评估了不同主干的推理速度,并将DETR4D与最先进的基于查询的方法BEVFormer[18]进行了比较。如图6所示,DETR4D在保持可比性能的同时实现了更高的效率。使用较小的主干模型或输入大小时,推理速度的差异更大,因为当应用较大的主干时,计算由图像主干控制。

纯视觉BEV再度突破!DETR4D:时序融合新思路(南洋理工最新)_第13张图片

可视化结果如图5所示:

纯视觉BEV再度突破!DETR4D:时序融合新思路(南洋理工最新)_第14张图片

结论

本文提出了一种基于查询的多视图3D检测方法DETR4D。DETR4D跳过了中间特征的生成,并通过聚集图像中的特征来直接预测检测结果。论文介绍了一种用于增强几何信息探索的新的投影交叉注意力模块和一种用于引导查询初始化的高效热力图生成过程。此外通过引入从过去的目标查询和图像特征中提取信息的混合方法,为时间建模提供了一个新的视角。大量实验表明,DETR4D具有显著的效率和竞争性能。

限制:与点云等其他数据模式相比,图像具有缺乏深度信息和对天气和照明等环境条件敏感的缺点。作为一种基于相机的方法,论文的方法也受到这些方面的影响。为了解决这一局限性,可以在未来的研究中进一步研究多模态方法。

纯视觉BEV再度突破!DETR4D:时序融合新思路(南洋理工最新)_第15张图片

纯视觉BEV再度突破!DETR4D:时序融合新思路(南洋理工最新)_第16张图片

自动驾驶之心】全栈技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多传感器融合、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、硬件配置、AI求职交流等方向;

纯视觉BEV再度突破!DETR4D:时序融合新思路(南洋理工最新)_第17张图片

添加汽车人助理微信邀请入群

备注:学校/公司+方向+昵称

你可能感兴趣的:(计算机视觉,人工智能,深度学习,transformer)