作者
介绍
3D多对象跟踪(MOT)和轨迹预测是目前3D感知系统中的两个关键组件,需要对多主体交互进行精确建模。我们假设将两个任务统一在一个框架下以了解代理交互的共享特征表示是有益的。为了评估此假设,作者提出了3D MOT和轨迹预测的统一解决方案,其中还合并了两个其他新颖的计算单元。首先,我们通过引入图形神经网络(GNN)来提出一种功能交互技术,以捕获多个代理相互交互的方式。GNN能够对复杂的层次结构交互进行建模,改善MOT关联的判别性特征学习,并为轨迹预测提供具有社交意识的上下文。其次,我们使用多样性采样函数来改善预测轨迹的质量和多样性。经过训练的学习采样功能可以有效地从生成轨迹分布中提取各种结果,并有助于避免生成许多重复轨迹样本的问题。我们对KITTI和nuScenes数据集进行了评估,表明我们的具有特征交互和多样性采样的统一方法在3D MOT和轨迹预测上均实现了最新的性能。
图1 :(顶部)以前的工作分别研究了3D MOT和轨迹预测。整个管道采用级联方式,将跟踪输出馈送到预测模块(底部)。我们提出的模型共同实现了跟踪和预测。此外,我们提出了两项创新:(1)使用GNN(显示为蓝色)进行功能交互,以在存在多个代理的情况下改善跟踪关联和轨迹预测;(2)多样性采样(显示为橙色),以提高采样效率并生成多样且准确的轨迹样本。
为了在MOT和轨迹预测模块中启用错误反馈机制,作者建议共同优化两个模块。具体来说,不是像图1(顶部)所示那样单独运行两个模块,而是作者提出的方法如图1(底部)所示同时执行跟踪和预测。
结果两个头部中计算出的误差可以传播回去,从而影响两个任务的特征学习,我们相信这将通过我们的联合学习带来更好的共享特征表示。由于轨迹预测可以隐式地迫使网络学习对象运动动力学,因此我们认为它可以为3D MOT关联带来更多区分特征学习,反之亦然可以改善下游轨迹预测模块。在存在多个代理的情况下,建模交互至关重要,但是在以前的工作中,尤其是在3D MOT中,这已被忽略。
如图1(顶部)所示,3D MOT中的现有工作独立地提取每个对象的特征,即,一个对象的特征不与其他对象的特征交互。我们发现,这种独立的特征提取对于判别式特征学习而言不是次优的。这是因为不同对象的特征相似性应取决于MOT。
例如,如果两个对象的特征相似性是使用GNN和DS 3进行联合3D跟踪和预测,则应降低这两个对象中任何一个与其他对象之间的特征相似性,以避免MOT关联中的混淆。为了在3D MOT中建模对象交互,我们提出了一种新颖的特征交互机制,如图1(底部)所示。我们通过将图形神经网络(GNN)引入3D MOT来实现这一目标。
我们的工作是第一个将GNN应用于MOT的工作。具体来说,我们构造一个图形,每个节点都是场景中的一个对象。然后,在GNN的每一层,每个节点都可以通过聚合其他节点的特征来更新其特征。该节点特征聚合过程非常有用,因为生成的对象特征不再被隔离,而是根据其他对象进行了调整。
作者在实验中观察到,经过几层GNN层后,亲和力矩阵变得比没有特征相互作用的亲和力矩阵更具判别力。除了将GNN用于3D MOT之外,GNN的功能交互还与轨迹预测头共享。尽管之前的一些论文已经将GNN用于轨迹预测,但我们还是第一个在统一的3D MOT和轨迹预测方法中使用GNN。由于对象的未来轨迹由于未观察到的因素(例如,意图)而是随机的和多模态的,因此轨迹预测的先前工作通常使用诸如条件变化自动编码器(CVAE)和条件生成器之类的深度生成模型来学习未来的轨迹分布。
生成网络(CGAN)在测试时,这些方法从生成模型中随机采样了一组将来的轨迹,而没有考虑采样之间的相关性。结果,样本可能非常相似,并且仅覆盖有限数量的模式,从而导致不良的样本效率。这种效率低下的采样技术在实时应用中是有害的,因为生成大量样本可能在计算上昂贵并且会导致高延迟。
此外,如果不涵盖轨迹分布中的所有模式并考虑所有可能的未来,感知系统就无法安全地进行计划,这在诸如自动驾驶等对安全至关重要的应用中非常重要。为了提高轨迹预测中的样本效率,我们放弃了先前工作中的随机采样,而采用了多样性采样技术,该技术可以从预训练的CVAE模型中生成准确且多样的轨迹样本。想法是学习一个单独的采样网络,该网络将目标特征映射到一组潜在代码。然后将潜码解码为轨迹样本。这样,所产生的样本是相关的(与样本独立的随机样本不同),这使我们能够对样本施加结构约束,例如多样性。具体来说,我们使用确定点处理(DPPs;)来优化样本的多样性。
贡献
作者团队主要贡献如下几点:
联合3D MOT和轨迹预测模型,通过联合优化来改善两个模块的性能;
一种使用GNN的新颖的特征交互机制。据我们所知,我们是第一个为3D MOT引入GNN的人。
引入用于多主体轨迹预测的多样性采样,可以产生更准确和多样化的轨迹样本。
相关工作
3D多对象跟踪
使用按检测跟踪管道以在线方式接近3D MOT,其中性能主要受两个因素影响:3D检测质量和区分性特征学习。
轨迹预测
轨迹预测是为了预测未来目标物体的地面位置序列。
联合3D检测,跟踪和预测。
在一些先前的工程尝试针对三个模块的不同组合进行联合优化。学习联合3D检测器和跟踪器等。
图神经网络
图神经网络首次提出,可以使用神经网络直接处理图结构化数据。GNN的主要组成部分是节点特征聚合技术,可以通过与其他节点交互来更新节点特征。
多样性抽样
源于M-Best MAP问题,各种M-Best解决方案和多项选择学习能够产生各种解决方案和模型。
方法
提出的方法的目的是同时实现3D MOT和轨迹预测。获得的当前帧中N个对象的未关联检测的集合3D对象检测器。3DMOT的目标是将当前检测用于轨迹预测,其目的是预测未来轨迹。
作者的方法实现了整个网络的联合跟踪和预测
如图1所示(底部),它由五个模块组成:
(1)特征提取器编码过去物体轨迹的特征以及当前帧;
(2)一种使用GNN更新特征的交互机制基于其他对象特征的对象特征;(3)3D MOT头计算关联矩阵,以跟踪以下对象之间的数据关联当前帧中的 过去和检测到的对象;
(4)轨迹预测负责学习CVAE以基于GNN生成未来轨迹
图2 :(左)要利用位置和运动提示,(右)提出的基于GNN的特征交互机制用于更新对象节点特征
特征提取
为了利用过去对象轨迹的运动和位置信息以及当前帧中的检测信息进行跟踪和预测,我们首先学习特征提取器对信息进行编码,如图2(左)所示。
图神经网络用于特征交互
图的构造是特征提取后获得了M个特征{u01,。。。,u0M}用于过去的跟踪对象,并提供N个功能{v01,。。。,v0N}表示当前帧中检测到的对象。然后,我们构建一个L层图神经网络(GNN),其中每个层都包括M个跟踪对象和N个当前检测到的对象的节点(如图2所示(右))。
节点功能聚合为了对GNN中的节点特征交互进行建模,我们通过聚合每一层中邻域节点(即由边连接的节点)中的特征来迭代更新节点特征
边缘特征 由于MOT中亲和度矩阵的每个条目通常表示对象特征的相似性,因此很自然地使用与两个对象节点特征相关的边缘特征来计算亲和度矩阵
3D多目标跟踪头
为了解决3D MOT关联,我们需要基于从过去的M个跟踪对象和当前帧中的N个检测到的对象中提取的特征的成对相似度来学习亲和度矩阵A。结果,亲和度矩阵A具有M×N的维数,其中每个条目Aij代表被跟踪对象i和检测到的对象j之间的相似性得分。
图3:损失的3D MOT磁头
边缘回归:为了学习affinity loss矩阵A,我们采用如图3所示的边缘回归模块,该模块由具有非线性算子的两层MLP和Sigmoid层组成。
轨迹预测头
我们的轨迹预测头旨在学习条件生成模型pθ,该模型基于第i个被跟踪对象的未来轨迹fi和对应的节点特征,用来学习其未来轨迹的分布。
分集采样技术
为了从预训练的CVAE模型中获得多样化的未来轨迹样本,我们将多样性采样技术引入了我们的多主体轨迹预测中。如图4所示,我们使用γ参数化的多样性采样函数
图4:采用多样性抽样的轨迹预测。
结果
我们在表1中总结了KITTI和nuScenes数据集上的3D MOT结果。我们的方法始终优于sAMOTA,AMOTA和MOTA中的基线,这是排名MOT方法的主要指标。我们假设这是因为我们的利用GNN的方法获得了更多的判别特征,以避免在所有3D MOT中混淆MOT关联。
表1:对KITTI和nuScenes数据集的3D MOT评估
图5:在KITTI数据集的两个序列上的3D MOT可视化。
表2:对KITTI和nuScenes数据集的轨迹预测评估。
图6:KITTI数据集上的轨迹预测可视化。
结论
作者提出了一种3D MOT和轨迹预测方法,并证明通过共享特征学习在一个统一的框架下完成两项任务是有益的。
另外,作者将两种新颖的计算单元:
(1)基于GNN的特征交互机制,这是首次引入3D MOT以改进判别式特征学习;
(2)一种多样性采样技术,可提高多主体轨迹预测的采样效率。
通过实验,作者在3D MOT和轨迹预测上建立了新的最新性能,表明所提出的单元和联合优化方法对我们的方法有效。
论文地址源码下载地址:关注“图像算法”微信公众号 回复"MOT"