标题: 一种新的基于图的伪Oracle轨迹预测器
作者: Biao Y ang , Member , IEEE, Guocheng Y an, Pin Wang, Member , IEEE, Ching-Y ao Chan , Member , IEEE, Xiang Song , and Y ang Chen ,
动态场景中的行人轨迹预测在许多应用中仍然是一个具有挑战性的关键问题,如自动驾驶汽车和社会感知机器人。而其中的挑战则主要集中于捕捉步骤行人的运动模式、社会互动以及处理未来的不确定性。最近常用的RNN技术的缺点之一就是没有整合可能提高预测性能的特定避障经验(OAEs)。而本文则是提出了基于图形的轨迹预测器与假象(GTPPO),这是一种以行人未来行为为条件的基于编码器-解码器的方法。并且将GTPPO在几个典型的数据集上进行了实验,并取得了不错的成果。
Index Term——Encoder–decoder, graph attention network, latent variable predictor, social attention, trajectory prediction;
动态场景中的行人轨迹预测仍是一个至关重要的问题,如果能够有效的解决该问题,那么许多实际应用产品将得到十分显著的提升。例如,如果能很好地预测周围行人的未来轨迹,自动驾驶汽车就能规划出更安全的路径,以避免行人和车辆的碰撞。如下图所示:
如图1所示,根据用线标记的历史轨迹,需要预测行人用箭头标记的未来轨迹
这种预测是具有挑战性的原因有很多,例如不同的运动模式和人群的社会互动,包括复杂的人与人、人与物的互动。此外,由于轨迹预测的多模态特性,未来的不确定性难以处理。
过去的不足:
最新的DNN技术在理解行人的运动模式上有着较为出色的表现。然而,它的时空复杂度很高。而且很少有研究进一步研究了不同时间步长对运动模式编码的影响,所以可能会掩盖特定时间步长的轨迹预测关键信息。对此,本文引入了一种基于时间注意力的LSTM来编码每个行人的运动模式,旨在突出历史轨迹中的特定时间步骤;
对行人社交互动的捕捉对于精确轨迹预测来说是一个关键点。最近的研究调查了深度学习技术来捕捉人群的社会互动。这类研究主要分为基于池的方法和基于图的方法:
尽管如此,现实中很少有模型会引入OAE,这是因为很难检测到行人的头部方向。所以本文就将行人前进方向作为其头部方向;
由于基于生成模型的方法具有处理未来不确定性的能力,因此已成为主流。潜在变量与生成的多峰输出具有很强的相关性。然而,各种研究方案还是很难找到环境的通用表示。此外,与这些轨迹的编码嵌入相比,从历史轨迹中学习的潜变量具有有限的信息增益,因此导致有限的性能改进。本文通过最小化历史观测轨迹和实际轨迹之间的知识差距来生成一个有信息的潜在变量;
轨迹预测问题实际上就是一个时间序列分析问题,而轨道预测的目的在于**估计未来的弹道Ti,考虑历史轨迹Hi以及行人的社会互动 **。我们可以将轨道预测问题转化为训练一个参数模型来预测未来的弹道T~i ~(i = 1,…, n),可表示为:
其中,TI表示未来轨迹,Hi表示历史轨迹。θ表示科学系参数,n表示行人数量。
来介绍下编码器-解码器结构:
其中, ϕ ( ⋅ ) \phi(·) ϕ(⋅)表示线性层函数。mti是LSTM在时间步骤t的隐藏状态。Wee和WM分别代表 ϕ ( ⋅ ) \phi(·) ϕ(⋅)和LSTM(·)的可学习权重
其中,Ww和bw是激活函数tanh(-)的可学习权重和偏置。Wp是另一个可学习的权重,通过连续训练学习。si是TA模块的输出
其中,WD是LSTM(·)的可学习权重,δ(·)是将嵌入转换为相对位移的线性层。 dti是LSTM的隐藏状态。它的初始化包括TA模块si的输出、社会图注意模块 g i T o b s g^{T_{obs}}_i giTobs的输出以及潜变量zi;
在得到每个预测时间步的预测相对位移后,很容易将相对位移转换为未来的轨迹Ti;
引入了两种关注机制来汇总邻居的信息。前者是以数据驱动的方式学习的图形注意力αij,后者是社会注意力Aij,其灵感来自于人们总是影响后面行人的未来轨迹的OAE。社会注意力是根据行人的速度方向来计算的
充分利用了图注意的数据驱动的学习能力。此外,我们提出了社会关注,它将OAE引入数据驱动的学习过程:
其中,||是串联操作,Ni代表节点i的邻居。W和a分别是可学习的权重矩阵和向量;我们将Wmti和Wmtj连接起来,而不是通过点乘的方式,因为后者的操作可能导致对称的注意力系数(αtij= αtji)。因为需要不对称的注意力系数(αti j = αtji),因为代理人i对代理人j的影响不等于代理人j对代理人i的影响
在得到了系数αtij后,节点i在时间步骤t的一个图形注意层的输出计算如下
其中,σ(·)代表Sigmoid激活函数。在本文的实现中,我们堆叠了两个图形注意层,以进行稳定的训练。
其中n是一个场景中的行人数量。
之后,本文用两种注意力机制进一步处理cos(B),具体如下:
其中σ(·)表示Sigmoid激活,Conv(·)表示1 × 1卷积运算
其中,A是主力权重HA或者SA
最后,再使用一个普通的LSTM来处理mj,因为它看起来是一个序列数据。我们将其记为GLSTM,其公式如下:
其中,WG为GLSTM的可学习权值(·)。gti为GLSTM在时间步t时的隐藏状态
在训练阶段和测试阶段分别使用从真实轨道和观测轨道产生的潜变量。kl -散度用于最小化地面真相和观测轨迹(最好用彩色查看)的级联嵌入之间的知识差距
本文分别从历史轨迹和地面真实轨迹中提取位置、速度和加速度作为输入。然后用两个高斯lstms对这些输入进行编码,如下所示:
其中, Ψ \Psi Ψ(·)k和 Ψ \Psi Ψ^ (·)k是两个LSTM,分别具有可学习的权重WkLP和W^ kLP。四个线性层将两个LSTM的输出映射为四种4-D潜变量分布,分别具有可学习的权值Wkμ、W^ kμ、Wkσ和W^ kσ。I ki和I ki是第k种输入(位置、速度和加速度),我们分别从观测到的和真实的轨迹中提取。有冒号的就是预测的,没有的是真实情况。
**潜变量zi**的生成在不同阶段有着不同的方式:
其中Ti和tvi分别是真实的和预测的轨迹。v为超参数,根据SGAN设置为20
其中N是训练样本的总数,通过跨基准数据集的交叉验证将α设置为10
本文在公开的ETH、UCY和更具有挑战性的SDD数据集上进行了实验。所有场景都包含真实的行人轨迹,具有丰富的人-人-物交互场景,包括人们交叉,群体形成和分散,以及避免碰撞。
具体而言,本文的实验是在四个场景中训练模型,并在剩下的场景中测试它们。
对于所有数据集,观测和预测视界分别为8和12个时间步长。预测视界记为Tpred。更多细节可在表I中找到。
本文采用下采样来减少计算开销。而且只计算长度等于或大于20个时间步长的轨迹的数量(包括8个观测到的和12个预测的时间步)。此外,我们通过使用一个长度为20的滑动时间窗口和一个步幅大小为1的选择轨迹来生成训练样本
此外,所提出的方法还通过以下两个误差度量进行评估:
1.平均位移误差(ADE):在所有预测水平上,预测轨迹与地面真实轨迹之间的平均L2距离;
2.最终位移误差(FDE):在最后一个预测步骤中,预测目标与实际最终目标之间的欧几里得距离;
通过social pooling layer来计算周围其他行人对其的影响,计算思路是将该行人周围的区域划分成NxN个网格,每个网络都是相同的大小,落入这些网格中的行人将会参与交互的计算;
对抗训练(adversarial training)是增强神经网络鲁棒性的重要方式;
state refinement model:对行人状态进行细分;
为了评估本文方法的不同组合,我们将GTPPOv1、GTPPOv2和GTPPOv3分别表示为不含和含hard/SSA的方法。下表显示了我们的方法和最先进的方法之间的比较结果:
对于Trajectron++,将输入进行归一化处理以进行公平比较。还删除了Trajectron++中使用的数据增强策略;
从该表中可以得出以下结论:
- Social-LSTM和SCAN是典型的轨迹预测器。但是它们的性能并不像最近提出的方法那样令人满意;
- Sophie和S-Ways在捕捉社会互动方面都采用了注意力机制,比起CAN,他们的预测效果更好;
- SR-LSTM提出了一个状态细化模块来聚合邻居的信息。它实现了与S-Ways类似的预测性能;
- NMMP和STGAT使用图模型来捕捉社会互动。它们都比Social-LSTM、SGAN和Sophie表现得更好。比较结果显示,图模型善于对社会互动进行建模,这对准确的轨迹预测具有重要意义;
- CVM和transformer除了传统的轨迹预测方法外还分别采用了他们独有的结构。这两种方法的成功揭示了在没有LSTM的情况下进行预测的可能性。此外,CVM只估计一个输出,而其他方法从多个生成的输出中选择最佳输出;
- Trajectron++利用双向GRU编码模块和图结构来捕捉社会互动,Trajectron++实现了最低的平均ADE值和第二低的平均FDE值;
- 本文所提出的GTPPO方法,特别是v3,结合了图模型和注意力机制的优点。GTPPOv3获得了最低的平均FDE值和第二低的平均ADE值,将平均FDE的惊人表现归功于POP模块,因为它能够预测行人的未来行为(如短期目的地),并仅使用轨迹数据探索潜在的场景结构;
报告了5个DA试验中Tpred = 12米的平均ADE和FDE。TA表示基于时间注意力的lstm。GA代表图形注意力。HSA和SSA分别代表hard和ssa。Pop表示Pop(首选low,并用粗体标记);
通过该实验,可以得出如下结论:
- 前两行的结果表明,所提出的TA模块在编码行人运动模式方面优于普通的LSTM,因为前者可以以数据驱动的方式突出历史轨迹中的重要时间步骤;
- 第三行、第四行和第五行的结果表明:GA模块可以通过捕捉行人的交互来提高预测性能。引入的社会关注可以通过在图关注中引入OAE来进一步提高预测性能。此外,SSA的性能优于HSA,因为前者以灵活的方式模拟行人的交互,而后者以确定性的方式模拟行人的交互;
- 第一行和第六行之间的比较验证了所提出的POP模块在生成信息潜在变量方面的效果。具体而言,生成的潜在变量鼓励模型探索关于行人未来轨迹的知识;
总之,TA、GA、SSA和POP组合在平均ADE和FDE方面的表现最好。消融研究验证了我们贡献的效果;
两种方法在样本数逐渐减少的情况下,预测性能都有所下降。然而,STGAT-POP在很少采样的情况下仍然可以进行令人满意的轨迹预测。
一次采样的STGAT-POP的平均FDE优于20次采样的STGAT;
这些结果表明,POP模块可以在较少的尝试下预测精确的轨迹。此外,POP模块可以很容易地集成到基于生成模型的轨迹预测方法中,以提高预测性能
每种方法生成的20个样本中ADE值最低的轨迹为最佳轨迹。每个子图包括四个场景;
一般情况下,所有方法都能在行人呈现线性运动时准确预测其未来轨迹,如图7(b)第四场景中的目标1;
我们可以从图7中总结出我们方法的优越性:
- 在ETH, HOTEL, ZARA1, ZARA2中,trajectory ++可以预测最接近ground-truth轨迹的轨迹。然而,当行人在未来表现出突然的运动变化时,GTPPOv3可以预测更接近地面真实目的地的短期目的地(例如,图7(d)的第一个场景中的目标1),而这得益于POP模块。在图7(e)中,GTPPOv3通过生成更精确的轨迹而优于其他;
- 如图7(d)的第二个场景所示,GTPPOv2和GTPPOv3生成的目标3的未来轨迹表现为回避,因为目标1和目标2在前面。然而,GTPPOv1生成的目标3的未来轨迹不表现出回避。
这种差异表明了社交图注意模块在捕捉行人社交互动方面的作用;
除了最佳轨迹外,本文还比较了具有代表性的几种方法所生成的密度图,以评估它们的轨迹预测性能:
密度图由不同模型重复采样300次生成。上图给出了从ETH[见图8(a)]、HOTEL[见图8(b)]、ZARA1[见图8©]、ZARA2[见图8(d)]、COUP a[见图8(e)]、HY ANG集合[见图8(f)]中选取的六种场景下不同方法的密度图;
一般来说,不同方法生成的密度图在大多数情况下反映了行人未来轨迹的分布。而GTPPOv3在处理行人的突然运动变化和社会互动方面表现得更好,如下“
- 与其他方法相比,GTPPOv3生成的密度图更接近于真实的地面轨迹。更重要的是,GTPPOv3可以预测很多场景下的突然运动变化,如图8(d)和(e)中的目标1,图8(a)中的目标2,图8(f)中的目标3。而这是得益于POPO模块;
- 在HOTEL场景中,GTPPOv3为三个目标生成更多独立的密度图,而其他方法生成纠缠的密度图,这可能导致碰撞。这样的差异验证了GTPPOv3能够更好地捕捉行人的社交互动,并避免引入的OAE造成的碰撞
一般来说,GTPPOv3能够以社会可接受的方式预测准确和多样化的输出
本文提出了用编码器-解码器网络预测行人未来轨迹的GTPPO。具体来说就是:对于每个行人,使用TA模块对历史轨迹进行编码,来突出信息时间步骤。社会图注意模块捕捉不同行人之间的社会互动,并将OAE引入图注意中以提高预测性能。此外,还提出了一种全新的POP模块来通过潜变量来处理未来的不确定性。
通过之前的实验也不难看出本文的GTPPO有着十分出色的表现;
通过本文,我认识到了即便是复杂的社会行动轨迹预测,也能通过专业的深度学习知识来预测出来。
本文所提出的方法的优点如下:
其不足之处有: