在本文中,我们提出了Goal-GAN,这是一种用于人类轨迹预测的可解释且端到端的可训练模型。 受人类导航启发,我们将轨迹预测的任务建模为一个直观的两阶段过程:(i)目标估算,它预测代理商最可能的目标位置,然后是(ii)路由模块,估算一组 朝向估计目标的合理轨迹。 我们利用有关场景的过去轨迹和视觉上下文的信息来估计可能目标位置上的多模式概率分布,该分布用于在推理过程中采样潜在目标。 路由由循环神经网络控制,该神经网络对附近环境中的物理约束做出反应并生成通向采样目标的可行路径。 我们广泛的实验评估表明,我们的方法在几个基准上建立了新的技术水平,同时能够生成符合物理约束的逼真的,多样化的轨迹。
对于在公共场所运行的自动驾驶系统(例如自动驾驶汽车或社交机器人),人体运动建模是必不可少的。 在拥挤的场景中进行安全导航和预防碰撞不仅需要了解所有移动物体的当前位置,还需要了解所有移动物体的未来路径。 人体轨迹预测尤其具有挑战性,因为行人轨迹主要取决于他们的意图-并且行人的目的地对于外部观察者而言本质上是未知的。 考虑一个行人到达十字路口的示例,如图1所示。仅根据过去的观察,我们无法推断行人的未来路线:向右转,向左转或一直走都是同样可能的结果。
因此,功能强大的预测模型应该能够捕获此任务的多模态,即覆盖场景中独特模式的预测轨迹。 此外,它应该在每种模式下产生一组多样化的路径,反映出行走方式,速度和避免障碍的不同策略所固有的不确定性。
为了捕捉轨迹预测的随机性,最新技术利用了变分自动编码器(VAE)的生成能力[1,2,3]和/或生成对抗网络(GAN)[4,5,6]来预测每个观察结果的一组轨迹。
尽管生成方法被广泛用于生成各种输出,但是它们无法明确地捕捉到行人轨迹固有的多模态。 通常,这些方法会产生高度不同的轨迹,但往往会忽略环境的物理结构。 由此产生的轨迹不一定可行,并且通常不能完全覆盖行人可以采取的多个可能方向(图1a)。 捕获所有可行方向的更自然的方法是首先确定从合理位置分布中采样的中间目标,如图1b所示。 在第二步中,模型生成到达采样位置的轨迹(图1c)。
尽管对坐席之间的社交互动[7,4,5,6]和局部场景互动进行了广泛的研究,但几乎没有任何方法可以解决明确学习行人轨迹固有的多峰分布的挑战。
在本文中,我们旨在弥合这一差距,并明确关注未开发的问题,即生成符合物理约束的多种多峰轨迹。 受有关人类导航的最新研究影响[8],我们提出了一种端到端的可训练方法,该方法将轨迹预测的任务分为两个阶段。 首先,考虑行人和视觉场景环境的动态,我们估计可能目标的后验,然后预测到达这些估计目标的轨迹。
因此,由我们的模型生成的轨迹会同时考虑本地场景信息和代理的过去运动。 虽然估计的可能目标位置分布反映了场景中的多种模式,但路由模块会对局部障碍物做出反应并产生各种可行的路径。 我们通过在生成对抗性环境中训练我们的网络,确保输出轨迹的多样性和真实性。
总而言之,我们的主要贡献是三个方面:(i)我们提出了Goal-GAN,这是一种受人类导航启发的两阶段端到端可训练轨迹预测方法,它将预测任务分为目标位置估计和路线选择。 (ii)为此,我们设计了一种新颖的体系结构,可以明确估计未来目标位置的可解释概率分布,并允许我们从中进行抽样。 使用Gumbel Softmax技巧[9]使我们能够通过随机过程训练网络。 (iii)我们建立了基于几个公共基准的最新技术,并定性地证明了我们的方法可以预测实际的最终目标位置以及通往这些目标的合理轨迹。 Goal-GAN1的代码可公开获得。
有几种方法专注于对人与人[4,7],人与空间的相互作用[10,2,11]或两者[5]建模。 最近的方法利用生成模型来学习一对多映射,该映射用于对未来的多模态轨迹进行采样。
轨迹预测。 Helbing和Molar引入了社会力量模型(SFM)[12],这是一种基于物理的模型,能够考虑代理与代理和代理空间之间的相互作用。 该方法已成功应用于多目标跟踪领域[13,14,15,16]。 从那时起,数据驱动模型[17,18,7,19,4]的性能大大超过了基于物理学的模型。 基于编码器-解码器的方法[2,7]利用循环神经网络(RNN)[20]来建模具有长期短期记忆(LSTM)单元的轨迹的时间演化[21]。 这些确定性模型无法训练任务的随机性,因为它们经过训练以最小化预测和地面真实轨迹之间的L2距离。 这通常导致难以置信的平均路径轨迹。
最近的方法[22,11]专注于使用鸟瞰图图像[5]和占用网格[10,23]来预测与场景结构约束相关的轨迹的人空间交互。 我们的方法同样利用鸟瞰图。 但是,我们使用视觉信息来显式估计可行和可解释的目标位置,进而可以用来显式采样目标目标,以简化将来的轨迹估计任务。
轨迹预测的生成模型。 最近的工作[4,5,6]利用生成模型来采样不同的轨迹,而不仅仅是预测单个确定性输出。 大多数方法要么使用变分自编码器(VAE)[24,3,2,25,26,27,11],要么使用生成对抗网络(GAN)[28,4,5,6,29]。 社会GAN(S-GAN)[4]使用判别器来学习社会上合理的路径的分布。 Sadeghian等。 [5]通过引入软注意力[30]机制将模型扩展到人与环境的相互作用。 GAN对于轨迹预测任务已经显示出令人鼓舞的结果,但往往会遭受模式崩溃的困扰。 鼓励发电机产生更多样化的预测,[1]在训练过程中使用最佳抽样方法,而[6]则通过结合基于BicycleGAN [31]的训练来强制网络利用潜在噪声矢量。 当产生具有高方差的轨迹时,许多轨迹是不现实的,并且不同可行目的地之间的清晰划分(反映了固有任务的固有多模式性)也不清楚。 考虑到这一点,我们从以前的工作中获得启发,从而对特定目标目的地的轨迹预测进行了调整。
目标条件的预测。 与前述直接学习一对多映射的生成模型相反,几种方法提出了两阶段预测方法。 与我们的方法类似,这些方法会首先预测最终(目标)位置,然后预测以此位置为条件的轨迹生成。 [32]的早期工作使用粒子滤波器[33]对可能目标的分布进行了建模,而其他方法[34]提出了一种贝叶斯框架,该框架可同时估计目标点和轨迹。
但是,这些纯概率方法在训练过程中非常不稳定。 条件生成神经系统(CGNS)[35]使用带有软注意力的变异发散最小化[30],[36]提出了在有效结构化序列预测之前使用基于条件流的条件流VAE。 这些模型使用初始估计的潜在代码来调节其轨迹生成器,但未明确预测目标分布或未对明确的目标位置进行采样。 最近,[37]提出了一种P2TIRL,它使用最大熵逆强化学习策略来推断离散网格上的目标和轨迹计划。 P2TRL将奖励分配给由训练策略学习的未来目标,该目标速度慢且计算量大。 相反,我们使用(离散的)概率分布估计值与地面真实目标位置之间的二进制交叉熵损失,直接学习了可能目标上的多峰分布。 这使我们的工作成为第一种方法(就我们所知),该方法可以直接预测多峰目标的显式(和离散)概率分布,并且可以有效地进行端到端训练。
我们处理通过2D地平面中的x和y坐标参数化预测行人未来位置的任务。 作为输入,我们获得了它们过去的轨迹和从鸟瞰图中捕获的场景视觉信息。
我们观察到轨迹Xi = {((x t i,yt i)∈R 2 | t = 1,)。 。 。 }时,N个当前可见的行人和场景的自上而下的图像I(在时间步倒计时中观察到)。 我们的目标是预测未来位置Yi = {(x t i,yt i)∈R 2 | t = tobs + 1,。 。 。 ,tpred}。
在数据集中,我们仅获得了一条未来的流行途径,尤其是在实践中观察到的途径。 我们注意到,对于此观察到的输入轨迹,多个独特的轨迹可能是现实的。 我们的目标是,根据输入的过去轨迹Xi,生成k∈{1,。 。 。 ,K}的多个未来样本Yˆ k i所有行人i∈{1,。 。 。 ,N}。 这些应该涵盖所有可行的模式,并符合场景的物理约束。
当行人穿过公共场所时,他们的目标是达到预定目标[8],这取决于他们的意图和场景背景。 一旦设定了目标,人们便会沿途到达目的地,同时对障碍物或其他行人做出反应。 这种观察促使我们提出一种新颖的两阶段轨迹预测架构,该架构首先估算最终目标位置,然后生成朝估算目标的轨迹。
我们提议的Goal-GAN由三个关键组件组成,如图2所示。
–运动编码器(ME):使用长短期记忆(LSTM)单元以递归方式提取行人的动态特征,以捕获过去轨迹的速度和运动方向。
–目标模块(GM):结合视觉场景信息和动态行人特征来预测给定行人的目标位置。 该模块估算可能的目标(目标)位置上的概率分布,然后将其用于采样目标位置。
–路由模块(RM):生成从GM采样到的目标位置的轨迹。 虽然预测的目标位置由 GM,RM生成到达预定目标的可行路径,并通过使用视觉注意力对沿途的障碍物做出反应。
图2显示了我们模型的概述。 在以下各节中,我们将激励并详细描述不同的组件
**4.1运动编码器(ME)**将行人的过去轨迹编码到运动编码器(ME)中,该运动编码器用作动态特征提取器,以捕获行人的速度和方向,类似于[7,4]。 每条轨迹的相对位移矢量(∆xt i,∆yt i)都通过多层感知器(MLP)嵌入到更高维的矢量e t中。 然后将输出馈送到LSTM,该LSTM用于对轨迹进行编码。 其他模块使用LSTM的隐藏状态hME预测目标并解码每个行人的轨迹。
4.2 Goal Module (GM)
在我们的工作中,我们提出了一种新颖的目标模块(GM)。 目标模块结合了行人的视觉和动态特征,以估计可能的最终目标的分布。 如图1所示,场景指示了可能的轨迹的独特模式。 在这里,行人可以左,右或直行。 目标模块负责捕获所有可能的模式并预测最终目标位置,即选择三个选项之一。
建筑 为了估计目标分布,网络会评估视觉场景和行人动态。 视觉场景表示为从鸟瞰图捕获的大小为H×W的RGB图像(或语义图)。 该图像输入到目标模块
场景图像通过具有类似于[38]的跳过连接的编解码器CNN网络传递。 在解码器之前,将瓶颈层中的场景图像特征与运动编码器中的运动特征hME串联在一起。 凭直觉,CNN解码器应该分析过去的轨迹和场景,以估计未来的目标位置–目标。 模块输出一个概率分布,该分布反映了给定输入轨迹和场景的多模式方向。
通过采样进行培训 CNN解码器输出分数图α=(α1,α2,…,αn),对于每个分数,αi反映了特定小区成为代理的最终目标位置的可能性。
通过使用Gumbel-Softmax-Trick [9],离散概率分布α用于对最终目标进行采样。 这使我们能够在可能的目标位置上采样离散分布,同时能够通过随机过程反向传播损失。 从代表场景的2D网格中随机采样得到的二维目标位置g
目标抽样与软注意力。 我们工作的一个主要新颖之处是目标模块,它取代了软注意力[30]来处理场景上下文信息[5,11]。 两种方法均在图3中进行了说明。软注意力模块基于视觉CNN功能将注意力得分分配给空间相关位置。 在[5]中,注意力值与随机噪声组合,并馈送到轨迹解码器以生成场景感知的多模态轨迹。
但是,当网络仅忽略空间注意力得分或难以将注意力值与噪声组合以捕获场景中的所有模式时,这通常会导致结果不令人满意。
我们认为,注意力模块在预测实现目标的路线时很有用(如第4.3节所示),因为它鼓励了预测轨迹的可行性。 然而,如图1所示,仅依靠柔和的视觉注意机制的模型往往会生成无法捕获任务的多峰性质的轨迹。此外,在第5节中,我们通过实验确认,可以更好地反映任务的随机性 从目标模块产生的学习到的概率分布中进行抽样时,与仅依赖噪声注入相比。
我们可以直接使用Gumbel Softmax技巧[9]结合标准交叉熵损失训练模块以进行目标位置估计,该模型将基于观察到的(最终)地面位置直接应用于估计的目标分布 真相轨迹。 我们强调,除了标准培训集提供的数据外,我们不使用也不不需要任何其他数据。
在推断过程中,我们仅从学习到的概率分布中采样目标,然后将其传递给解码器。 由于目标模块已经评估了视觉环境,并且仅将低维输入传递到路由模块中,因此这大大简化了解码器的工作。
4.3 路由模块(RM)
路由模块(参见图2)是我们方法的第三部分。 它结合了动态功能和全局目标估算值,以生成最终结果轨迹预测。 RM由一个LSTM网络,一个视觉软注意力网络(ATT)和一个附加的MLP层组成,该层在每个时间步迭代地将注意力图与LSTM的输出组合在一起。
首先,我们将目标估计嵌入(例如)和对象动态嵌入hME(由运动编码器ME提供)转发到MLP,以初始化RM的隐藏状态h 0 RM。
然后,我们递归地估计未来时间步长的预测。 为此,RM中的LSTM获得三个输入:上一步预测Yˆ t-1,到估计目标的剩余距离dt-1 = g-Yˆ t-1和当前标量时间步长值t。
为了评估本地环境的可穿越性,我们对以行人当前位置为中心的图像块施加柔和的注意[30]。 如图3所示,我们将LSTM的输出与注意力图F t结合起来,以预测下一步Yˆ t。 视觉注意机制允许RM对障碍物或其他附近结构做出反应。 最后,我们使用动态和视觉特征来预测最终的预测值。
4.4生成对抗性训练
在我们的工作中,我们使用生成对抗性网络(GAN)来训练轨迹生成器,以输出现实的和物理上可行的轨迹。 GAN由在两个玩家的最小-最大游戏中竞争的生成器和鉴别器网络组成。 尽管生成器旨在产生可行的轨迹,但是鉴别者学会了区分真实样本和假样本,即可行和不可行的轨迹。 对抗训练是必需的,因为与预测准确性相反,不可能以封闭的数学形式来表示差分损失,该数学形式捕获了所生成轨迹的可行性和现实性的概念。
鉴别器网络由一个LSTM网络组成,该网络对观察到的轨迹X进行编码。此编码用于初始化第二个LSTM,该LSTM处理与视觉轨迹一起的预测轨迹Y(从CNN网络获得,该LSTM对围绕当前轨迹的图像斑进行编码 位置)。 最后,LSTMpred的最后一个隐藏状态用于鉴别器的最终输出。
4.5损失
为了训练我们的Goal-GAN,我们使用多个损失来处理模型的不同模块。 为了鼓励生成器预测与地面真实轨迹非常相似的轨迹,我们在预测Yˆ和地面真实Y之间使用了多个最佳距离[1]损失LL2 = minkkY-Y −(k)k2。 作为对抗性损失,我们采用lsgan [39]损失:
公式(1)
由于这一事实,使用具有S型交叉熵功能的分类器的原始公式[28]可能会导致梯度消失的问题。
为了鼓励网络将预测的目标位置考虑在内,我们提出了一个目标达成损失LG,用于衡量目标预测g与实际输出Yˆ tpred之间的L2距离,
公式(2)
另外,我们使用交叉熵损失
公式(3)
其中pi是从目标模块为与最终地面位置相对应的网格单元i预测的概率。 总损耗是由λ加权的部分损耗的总和:
公式(4)
在本节中,我们在三个用于评估行人轨迹预测模型性能的标准数据集上评估我们提出的Goal-GAN:ETH [40],UCY [41]和Stanford Drone Dataset(SDD)[19]。 为了评估我们的预测模型能够很好地涵盖不同的可能模式(分割未来的道路),我们引入了一个新的,综合生成的场景。
我们将我们的方法与几种最先进的行人轨迹预测方法进行了比较,并且定性地证明了我们的方法产生了多模式,多样,可行和可解释的结果。
评估措施。 我们遵循标准评估协议,并使用平均位移误差(ADE)和最终位移误差(FDE)报告预测精度。 两种度量均使用预测轨迹与地面真实轨迹之间的L2距离来计算。 生成模型在这些度量标准上进行了N – K种损失[1,4,5]。 与以前的工作[19,7]一样,我们观察了8个时间步长(3.2秒),并为场景中的所有行人同时预测了未来的12个时间步长(4.8秒)。
视觉输入和坐标。 与[5]中一样,我们使用单个静态图像来预测给定场景中的轨迹。 我们使用各个数据集提供的单应性转换将所有图像转换为自顶向下的视图。
这使我们能够在现实世界的坐标中执行所有预测。
5.1基准结果
在本节中,我们将与ETH [40],UCY [41]和SDD [19]数据集上最新技术的性能进行比较和讨论。
数据集。 ETH [40]和UCY数据集[41]包含5个序列(ETH:2,UCY:3),记录在4个不同的场景中。 所有行人轨迹均已转换 转换为实际坐标并每0.4秒进行插值以获得位置。 对于培训和测试,我们遵循标准的留一法,其中我们对4个数据集进行训练,然后对其余的数据集进行测试。 斯坦福无人机数据集(SDD)[19]由在斯坦福大学校园捕获的20个独特的视频序列组成。 这些场景具有各种标志性建筑,例如回旋处,十字路口,街道和人行道,这些都会影响行人的路径。 在我们的实验中,我们遵循[42]的火车测试,并关注行人。
基线。 我们将模型与几种公开的方法进行比较。 S-LSTM [7]使用带有社交池的LSTM编码器-解码器网络。 S-GAN [4]利用GAN框架,而S-GAN-P [4]使用max-pooling来建模社交互动。
SoPhie [5]通过视觉和社交关注模块扩展了S-GAN模型,Social-BiGAT [6]使用了基于BicycleGAN [43]的训练。 DESIRE [2]是基于逆最优控制的模型,它利用生成建模。
CARNet [11]是一个物理注意模型。 有条件的生成神经系统(CGNS)[35]使用有条件的潜在空间学习和变分散度最小化来学习产生轨迹的可行区域。 CFVAE [36]利用了基于条件归一化的基于流的VAE,而P2TIRL [37]使用了基于网格的策略,并学习了最大熵反强化学习策略。 由于上述方法均未提供公开的实施方式,因此我们概述了各自出版物中报告的结果。
ETH和UCY。 我们观察到一个明显的趋势–生成模型提高了确定性方法的性能,因为它们能够对各种轨迹进行采样。 与其他生成模型相比,Goal-GAN具有最先进的性能,与S-BiGAT和CGNS相比,总体误差降低了近15%。 尽管SoPhie和S-BiGAT也使用视觉输入,但是这些模型无法有效利用此信息来发现轨迹预测任务的主导模式,从而产生更高的预测误差。 必须指出的是,Goal-GAN降低了与目前的最新方法相比,平均FDE降低了0.12m。 我们可以使用新的目标模块来说明性能的急剧提高,因为我们可以涵盖所有可能的模式的分布,因此能够生成接近基本事实的轨迹。
斯坦福无人机数据集。 我们将模型与SDD上的其他基线方法进行比较,并报告像素空间中的ADE和FDE。 如表2所示,Goal-GAN在ADE和FDE指标上均达到了最新水平。 将Goal-GAN与最佳非目标条件方法SoPh进行比较,Goal-GAN将误差降低了25%。 该结果清楚地显示了采用仅使用软注意力模块的标准生成器方法进行目标估算的两阶段过程的优点,而并未明确地将其模型设定为未来目标。 此外,可以理解,多模态轨迹预测在SDD的场景中起主要作用。 而且,Goal-GAN超越了所有其他有条件限制的方法,并且与P2TIRL(在准备本文时尚未发布)相提并论。
5.2评估综合数据集的预测多模态
在本节中,我们将使用合成生成的场景进行附加实验,以研究预测的多模态。 我们比较了有和没有视觉柔和注意力的情况下,Goal-GAN与两个普通GAN基线的性能[30]。 综合数据集允许我们显式控制(生成的)地面真相轨迹的多模态和可行性,因为其他数据集没有提供该信息。
数据集 我们使用SDD数据集[19]的hyang 4场景中的社会力量模型[12]生成轨迹。 为了确保生成的轨迹的可行性,我们使用两类(手动标记)语义图,该图将可行(行进路径)与不可行(草)区分开。 我们模拟了接近和经过场景中两个十字路口的250条轨迹。
其他评估措施 除了ADE和FDE,我们遵循[26,44]来测量所生成轨迹的分布的多模态
保守党。 在这里,我们使用内核密度估计(KDE)从每个预测时间步的采样轨迹中评估地面真相轨迹的负对数似然(NLL)。 此外,我们定义了新模式覆盖率(MC)指标。 对于每个场景,MC会评估k个生成的轨迹y中的至少一个是否到达地面真值final的最终位置,最大距离为2m:
公式(5)
为了评估轨迹的可行性,我们报告了位于可行区域F内的轨迹的比率,即预测停留在路径上:
公式(6)
结果。 如表3所示,未获得可视信息的香草GAN基线[4]分别产生0.70 / 1.49的ADE / FDE。
添加视觉信息可以提高性能(0.68 / 1.27),但是,它仍然无法生成多模式和可行的路径。 当我们添加建议的目标模块(Goal-GAN)并使用我们的全部损失进行训练时,我们发现性能会大大提高。 多模式(按MC计增加7.36)和可行性(按F计增加10.26)。 为了消除我们的模型,我们使用不同的损耗成分来训练网络,从而激励网络训练网络的不同模块。 我们模型的一个变体,仅受目标成就损失LG和对抗损失LAdv训练,就可以学习产生多峰轨迹(MC为88.22),但是,ADE误差高达2.09。 L2损失LL2的增加显着提高了预测的准确性(ADE降低了1.47),与此同时,预测的质量和可行性(F增加8.26)。 这证实了我们提出的目标模块,该模块明确地模拟了未来目标的分布,对于准确和现实的预测至关重要。 此外,我们注意到,如果我们在没有使用Gumbel-Softmax技巧(GST)的情况下训练完整模型(参见第4.2节),则性能会急剧下降,这对于稳定训练而言至关重要,从而可以通过随机抽样过程进行损失的反向传播 目标模块。
5.3定性评估
在本节中,我们目视检查由模型生成的轨迹,并评估预测的质量。
合成数据集:在图4中,我们可视化了我们建议的Goal-GAN(顶部)和香草GAN基线[4](底部)的合成数据集的轨迹。
在预测的轨迹(橙色圆圈)旁边,我们显示由目标模块估算的目标位置的概率分布(黄色热图)。
如图4所示,Goal-GAN预测到特定估计模式的各种轨迹集。 在这里,我们观察到Goal-GAN输出了可解释的概率分布,使我们能够了解模型在哪里“看到”了场景中的主导模式。 比较预测的质量,我们可以证明Goal-GAN产生了不同的模式,而GAN基线趋向于将其轨迹跨越更宽的范围,从而导致不可行的路径。
真实数据:此外,我们在图5中给出了数据集ETH / UCY和SDD的定性结果。这两个图显示了对Hotel(图5a)和Zara 2(图5b)序列的预测。 我们的模型将高概率分配给场景中的大区域(如酒店序列),因为几个位置可能是合理的目标。 广泛的分布确保了在没有物理障碍的情况下我们可以生成各种轨迹。 注意,生成的轨迹不仅在方向上变化,而且在速度方面也变化。 在Zara 2中,模型会识别人行道上的可行区域,并不会预测街道或停放的汽车所覆盖区域中的概率质量。 在场景Hyang 4 SDD数据集中,我们观察到该模型成功地识别出行人在道路上行走,从而为树木过度生长的区域分配了极低的目标概率。 该场景还成功地通过合成数据进行了展示,这表明我们可以将合成数据集的结果与真实数据的行为进行比较。 Coupa 1所示的轨迹表明,该模型仅在混凝土上生成路径,但避免了通往树木区域的预测。
在这项工作中,我们提出了Goal-GAN,这是一种用于行人轨迹预测的新颖的两阶段网络。 随着人们对数据驱动模型的可解释性的兴趣日益浓厚,Goal-GAN使我们能够理解预测过程中的不同阶段。 这是当前生成模型的替代方法,后者使用潜在噪声矢量来鼓励轨迹预测的多模态和多样性。 如我们的实验所示,我们的模型在ETH,UCY和SDD数据集上获得了最新的结果,同时能够生成多峰,多样且可行的轨迹。