多个异质交通参与者的同时轨迹预测对于互联的自动车辆在现实世界中复杂驾驶环境下的安全高效运行至关重要。多智能体预测任务具有挑战性,因为交通参与者的运动受许多因素的影响,包括他们的个体动态,他们与周围智能体的相互作用,交通基础设施,以及目标智能体的数量和方式。为了进一步推动轨迹预测技术的发展,本文提出了一个三通道框架和一种新型的异质边增强图注意网络(HEAT),该网络能够处理目标智能体和交通参与者的异构性具体地说,使用特定类型的编码器从代理的历史状态中提取代理的动态。用有向边特征异构图表示智能体间的交互,然后利用提出的热网来提取交互特征。此外,通过引入选择门机制,地图特征在所有代理之间共享。最后,多智能体的轨迹被同时执行。使用城市和公路行驶数据集进行的验证表明,该模型可以实现复杂交通情况下多智能体的同时轨迹预测,并且在预测精度方面达到了最先进的性能,证明了其可行性和有效性。
准确预测与自动驾驶车辆共享道路的移动对象的未来轨迹是自动驾驶领域的一项重要任务。通过预测周围智能体的轨迹,自动驾驶车辆可以提前做出决定,避免可能发生的事故。这提高了自动驾驶的安全性、效率和舒适性。然而,由于智能体的运动受到许多因素的影响,特别是在城市驾驶场景中,轨迹预测是具有挑战性的,这些因素包括:智能体自身的动态、它与邻近智能体的相互作用以及道路结构。自动驾驶领域的研究人员已经提出了许多用于轨迹预测的工作,这些方法分为三类:基于物理的、基于机动的和交互感知的方法[1]。基于物理的方法[2]考虑了对象的个体动力学来预测其运动,忽略了受道路结构和邻近智能体的影响限制的可能的机动。基于机动的方法[3]考虑机动选项,在不考虑周围车辆影响的条件下预测机动轨迹。交互式感知方法[4]-[7]最近受到越来越多的关注:1)它们自然地将驾驶视为一种交互式活动;2)与纯物理方法和机动方法相比,具有更好的性能;3)它们可以扩展到考虑物理和机动。现有的交互感知方法大多表示共享坐标系中所有智能体的运动,对平移和旋转敏感,旨在预测单个智能体[4]、[6]-[9]的轨迹。然而,自动驾驶汽车需要同时预测周边多个agent(如车辆和行人)的未来状态,以便在复杂且高度动态的城市驾驶场景中导航。
本研究的重点是通过联合考虑个体动力学、个体之间的相互作用和道路结构,同时预测城市和高速公路驾驶的多个异质智能体的未来轨迹。假定代理的过去状态和感兴趣区域的俯视图图像可利用车辆到车辆和车辆到基础设施通信[10]。
本文提出了一个三通道的多智能体轨迹预测框架,该框架考虑了智能体在每个通道中的个体动力学、相互作用和道路结构。对于agent的动力学,该工作将每个agent放置在其专属的坐标系统中,以消除坐标移动的影响,因为其记录的状态无论放置在哪个坐标系统中,总是可以转换为自己的坐标系统,而不会影响其他agent。对于智能体之间的交互,本文将交互表示为具有边特征的异构图,提出了一种新的异构边增强图注意网络来对不同类型智能体之间的交互进行建模。对于道路结构,该工作通过一个门控地图选择器在所有代理之间共享一个图像地图。
本文主要工作如下:
交互感知轨迹预测方法近年来提出了多种表示智能体间交互的方法。卷积社会池[4]设计一个占用网格,其中每个单元包含属于其中的代理的特征,以建模网格中代理之间的交互。在[8]中修改网格表示,只观察对目标车辆行为影响最大的8个代理。该网格表示方法适用于高速公路行驶,因为高速公路几乎是直的,可以很容易地划分为网格。但在高速公路上开车就不是这样了。为了对高速公路驾驶之外的交互进行建模,多智能体张量融合[9]通过将智能体的个体特征与驾驶场景的俯视图图像对齐来对交互进行建模。这仍然忽略了代理之间的关系。越来越多的文献将交互表示为一个图,其中每个节点表示一个代理,边表示代理之间的关系。[11]的作者提出用高速公路行驶的齐次有向图来表示车辆之间的相互作用,其中每辆车都与其多达8个相邻车辆相连。同构图忽略代理的类型。
GRIP[5]也使用同构图对交互进行建模。ReCoG[6]建议将交互表示为异构图,其中节点表示代理或映射。一个代理连接到一个邻居内的其他代理。ReCoG忽略节点之间的边缘属性。VectorNet[12]和TNT[13]都使用分层异构图来表示交互,其中每个对象由一个子图表示,然后所有对象由一个全连接图表示。边缘属性在两种情况下都被忽略。SCALE-Net[14]提出用一个边缘特征同构图表示交互,其中边缘特征包含两个连接agent之间的相对状态。它忽略了交通参与者的异质性。Social-WaGDAT[7]提出为每个时间步生成一个动态的历史和未来图对。假设节点是齐次的,且具有固定的数量。EvolveGraph[15]学习一个考虑节点和边的类型和方向异质性的交互图。但是,不考虑边缘属性。
用图形表示agent之间的交互比使用图像或网格更自然。然而,现有的大多数图表示都将所有智能体置于同一个以目标为中心的坐标系中,这适合单智能体的轨迹预测,但由于坐标平移和旋转的影响,很难推广到多智能体的情况。SCALE-Net[14]将所有agent放置在自己的专属坐标系统中进行泛化,并使用边缘属性来保持agent之间的空间关系。但SCALE-Net中的图表示方法不够全面,无法涵盖弹道预测中各agent及其关系的异质性。本文提出将排他性坐标系下的智能体间交互表示为一个有向异构边特征图,不同的智能体用不同的节点表示,两个智能体之间的边同时具有属性和类型。
神经网络在数据结构良好的任务上已经证明了其强大的表达能力,例如,类似网格数据的图像分类[16],类似链数据的机器翻译[17]。但是,还有许多有趣的任务使用以图形[18]形式表示的数据。越来越多的研究提出将神经网络推广到图域。这些方法可以是光谱方法[19]-[21],也可以是非光谱方法[22]-[24]。谱方法即图卷积网络(GCN)[21])依赖于图的拉普拉斯特征基,对于较大的图很难计算,而非谱方法即图注意网络(GAT)[24]仅对局部邻域进行信息聚合,避免了拉普拉斯特征基的繁重计算。设计了适用于齐次图的GAT[24]。该算法在特征聚集中引入关注机制,允许根据节点特征对相邻节点进行加权。在GAT中,边是加权的,但边的属性没有被覆盖。边缘增强图神经网络(EGNN)[25]通过每个维度引导个体注意操作来处理连续的多维边缘特征。[26]利用了原始无向图的线图,并设计了两个图上的卷积运算来探索边缘特征。NENN[27]将节点级和边级的注意分层合并,学习对应层的节点和边嵌入。EGAT[28]扩展了带边嵌入的GAT,用于处理无向齐次图的连续边特征。上述工作忽略了图中节点和边的异构性。异构图注意网络HAN (Heterogeneous graph attention network)[29]提出了一种分层注意机制来处理图中的异构节点,节点级关注基于元路径的邻居,语义级关注不同的元路径。异构图转换器[30]提出了节点和边类型的依赖注意机制来处理图中节点和边的异构,其次是异构消息传递机制和针对目标的聚合来进行特性更新。这些GNNs处理图中的异构性,但忽略边缘特征。关于图神经网络的更多信息,请参考最近的评论[31],[32]。
现有的大多数图神经网络分别处理异构性和边缘特征,不能直接用于有向边特征异构图表示的交互建模。本文对GAT[24]进行了扩展,使其能够同时处理异构性和边缘特征,用于多智能体轨迹预测的交互建模。
基于图的交互表示方法在弹道预测领域引起了越来越多的关注,并引出了图神经网络在弹道预测中的应用。[11]测试了两种被广泛应用的GNNs (GCN[21]和GAT[24])及其在轨迹预测任务中的适应性,发现区分目标和周围agent的GNNs的适应性优于不区分对待它们的GNNs。他们在概念上证明了基于图的交互表示的有效性,但在他们的工作中注意到代理动力学。GRIP[5]提出了一个卷积模型,由卷积层和图操作层交替组成,总结交互agent的时间和空间特征。时间维度采用卷积层,空间关系采用图操作。然后使用基于LSTM的编码器-解码器进行最终预测。GRIP可以预测多个智能体的轨迹,但忽略了边缘属性。SCALENet[14]利用两个agent之间的相对测量值构造边缘属性,利用边缘增强的图卷积神经网络[25]总结考虑边缘属性的交互。上述模型忽略了交通参与者的异质性。Socil - WaGDAT[7]设计了Wasserstein Graph Double-Attention Network,动态地学习交互图的结构,并将运动学约束应用于预测轨迹。VectorNet[12]将GNN应用于完全连接的层次图,其中子图包含由向量序列表示的对象(代理或映射组件)的特征。在构造图时考虑了异构性,但全连通图忽略了相互作用的空间结构,边的数量随着节点的数量呈指数增长。TNT[13]采用VectorNet作为交互特征提取器,根据地图中选定的目标点,预测多个轨迹,进一步考虑驾驶的多模态性。它具有VectorNet的缺点。ReCoG[6]构造一个异构图来表示代理-代理和代理-基础设施关系,其中基础设施(一个顶视图地图)是图中的一个节点,并应用GAT和GCN提取交互特征。在ReCoG中忽略边缘属性和类型。
现有的轨迹预测方法都是针对特定的相互作用表示形式而提出的,难以应用于新的表示形式。
本节介绍提出的异构多智能体轨迹预测框架的高层结构及其关键组件,即智能体类型特定的历史编码器、基于HEAT的异构交互编码器、自适应地图选择器和智能体类型特定的轨迹预测器。该框架分别具有动态特征、交互特征和映射特征三个通道,然后联合考虑这些特征来预测异构agent的未来轨迹。这个三通道框架的说明见图1。
提出了多智能体轨迹预测框架。利用特定类型的历史编码器对智能体的历史状态进行编码,获得智能体各自的动态特征。智能体之间的交互用一个具有边缘特征的异构图表示,每个节点包含对应智能体的动态特征。然后将所提出的HEAT算法应用于交互图,并行提取各agent的交互特征。通过考虑智能体在地图上的动态特性,采用门机制对智能体的地图特征进行处理。然后将来自这三个通道的特征串联起来,并将其输入到特定车辆类型的轨迹预测器中,以预测所有车俩的未来轨迹。
输入和输出。该工作的任务(如图2所示)是同时预测一组异质交互agent的多agent轨迹,同时考虑agent之间的交互作用和场景语境(如图2左侧)。在t时刻,输入 X t X_t Xt包含每个agent的历史状态和场景地图(如图2左侧)。
输入、图形和输出。左,在一个迂回的场景中导航的多个不同类型的代理的一秒钟历史轨迹。中间,构造具有相邻连接的有向异构图的结构。为了清晰,自环被掩盖了。对,三秒内场景中多个异质体的未来轨迹。粉色和橄榄绿点分别表示车辆和行人/自行车代理的当前位置。左图中的红色实线是车辆在过去一秒内的历史轨迹。右边的绿色实线是3秒内对应的未来。此图取自INTERACTION数据集中一个名为DR USA roundabout FT的环形场景。
其中 H t = { h t 1 , h t 2 , ⋅ ⋅ ⋅ , h t n } H_t =\{h^1_t, h^2_t,···,h^n_t\} Ht={ht1,ht2,⋅⋅⋅,htn}包含 n n n个agent在 t t t时刻的历史状态,M为场景上下文。Agent i i i在时间 t t t的历史状态用 h t i = [ s t − T h + 1 i , s t − T h + 2 i , ⋅ ⋅ ⋅ , s t i ] h^i_t = [s^i_{t−T_h+1}, s^i_{t−T_h+2},···,s^i_t] hti=[st−Th+1i,st−Th+2i,⋅⋅⋅,sti]表示,其中Th为回溯视界的轨迹。例如,状态t可以是智能体 i 在 t i在t i在t时的位置和速度。观察到的智能体数量 n n n因情况而异。地图M将被所有代理共享。输出包含 m ≤ n m≤n m≤n个异质体的预测轨迹(如图2右侧所示):
式中 f t i = [ ( x t + 1 i , y t + 1 i ) , ⋅ ⋅ ⋅ , ( x t + T f i , y t + T f i ) ] f^i_t = [(x^i_{t+1}, y^i_{t+1}),···,(x^i_{t+T_f}, y^i_{t+T_f})] fti=[(xt+1i,yt+1i),⋅⋅⋅,(xt+Tfi,yt+Tfi)]是智能体i在一个预测视界上的预测2D坐标序列 T f , F t 是 m T_f, F_t是m Tf,Ft是m个智能体的预测轨迹集合。请注意,目标制剂的数量m不一定要等于n,而且可能因情况而异。
基于heat的异构交互编码器。这项工作用一个有向边特征的异构图(参见图2中间的插图和小节)表示了异构流量参与者之间的交互。,提出了一种新颖的异构边增强图注意网络HEAT (heterogeneous edge-enhanced graph attention network, HEAT)来提取交互特征(见图1中)。图中的节点包含了从历史编码器中提取出的对应agent的动态特征。
自适应地图选择器。本工作设计了一个CNN,从驾驶场景的BEV地图中提取道路特征,并通过引入栅极机构(如图1右侧),根据所有目标agent当前的位置、速度和偏航角,选择性地共享地图特征。
Agent-type-specific轨迹预测。与历史编码器类似,这项工作对特定类型的目标代理共享一个轨迹预测器。例如,如果目标代理分为两类,那么轨迹预测器将由两种类型特定的预测器组成。该预测器综合考虑历史编码器中目标车辆的动力学特征、交互编码器中目标车辆的交互特征以及地图选择器中目标车辆对应的地图特征,实现同步轨迹预测。见图1底部。
图1所示的框架是为多智能体轨迹预测提出的,其中智能体可能有不同的类型,利用了智能体的历史状态和基础设施信息。为了处理agent的异构性,本工作针对每种类型的agent设计了特定的编码器(IV-A1)和解码器(IV-A4)。考虑的代理被放置在它们自己的专属坐标系中,它们的相互作用由一个有向边特征异构图(IV-B)表示。提出了一种新的异构边增强图注意网络,用于从构造的图(IV-A2)中提取交互特征。为了利用道路结构并在所有考虑的代理之间共享它,本工作提出了一种自适应地图选择器(IV-A3)。
对于type k的agent,它的历史状态用一个时间序列表示,可以传递给一个特定类型的编码器来提取它的动态特征。长短期记忆(Long short-term memory, LSTM)和门控循环单元(gate recurrent unit, GRU)等RNNs被广泛用于机器翻译[33]、[34]和轨迹预测[4]、[6]等序列建模。本工作采用GRUs作为历史编码器(式3),因为它的有效性和简单性。
其中, G R U h i s t κ GRU^κ_{hist} GRUhistκ为使用GRU实现的κ类型agent的历史编码器, r t i r^i_t rti为 t t t时刻车辆 i i i的动力学特征。该模块的输出为所有agent的动力学特征:
动态特性 R t R_t Rt也作为基于图的交互表示中的节点特性。
为了全面建模异构智能体之间的交互,本文将交互表示为有向边特征异构图,并提出了一种新的异构边增强图注意网络(HEAT),从图表示中提取交互特征。
将agent的动态特征 R t R_t Rt放到图中对应的节点中。然后,将所提出的热模型应用到图中,对所有agent的交互特征同时建模。
其中 E t E_t Et为边缘集,包含边缘索引、边缘属性和边缘类型, g t i g^i_t gti为agent i 在 t i在t i在t时刻的交互特征, G t G_t Gt包含所有agent的交互特征。
道路结构决定了智能体在城市场景中导航的运动,因此在进行轨迹预测时需要考虑道路结构。以往的单轨迹预测方法使用以目标车辆当前位置为中心的固定大小的局部地图。但是对于同时进行的多智能体轨迹预测,这种地图表示至少有两个缺点:
需要为多个代理保存多个地图。
固定大小的映射对于慢速代理可以是两个大的,对于快速代理可以是两个小的。
为了解决上述问题,本文提出了一种自适应地图选择方法,该方法允许所有代理根据其当前位置、速度和偏航角共享全局地图。
其中M为映射, ( x t i , y t i , v x t i , v y t i , φ t i ) (x^i_t,y^i_t,v^i_{xt},v^i_{yt},φ^i_t) (xti,yti,vxti,vyti,φti)为agent i i i的当前位置、速度和偏航角。
对于 k k k型智能体,通过联合考虑智能体的个体动态 r t i r^i_t rti、智能体与其他智能体的交互 g t i g^i_t gti以及智能体当前状态的映射特征 m t i m^i_t mti,使用智能体类型特定的未来解码器预测智能体的未来轨迹。
其中 L S T M f u t κ LSTM^κ_{fut} LSTMfutκ是 k k k型智能体共享的未来解码器, [ r t i ‖ g t i ‖ m t i ] [r^i_t‖g^i_t‖m^i_t] [rti‖gti‖mti]是特征的拼接, f t i f^i_t fti是智能体i预测的未来轨迹。
这项工作将所有的代理放置在它们自己的专属坐标系统中,并将它们的交互表示为一个有向边特征异构图。
现有的多交互感知轨迹预测方法要么使用所有智能体的共享坐标系统,要么使用每个智能体的专用坐标系统来表示轨迹。共享坐标系保留了主体间的空间关系,但对平移和旋转敏感。当应用新的共享坐标系统时,模型的输入变得完全不同。但在排他性坐标系下,agent的状态在局部表示,独立于其他agent。局部排他性坐标系统规范了智能体的状态,但忽略了智能体之间的空间关系,为了利用排他性坐标系统,需要用边缘特征保留空间关系。
本文提出用有向边特征异构图表示多智能体之间的交互作用,用于多智能体轨迹预测。每个节点代表一个特定类型的流量参与者,并包含从记录在其专属坐标系统中的序列中提取的特征。从节点 j j j到节点 i i i的边表示节点 i i i的行为受到节点 j j j的影响,边缘属性是节点 j j j到节点 i i i的相对测量值,例如位置、速度和偏航角。边缘类型是节点 j j j和节点 i i i类型的连接。
定义1.(有向边特征异构图)。
一个有向图可以用 G = ( V , E ) \mathbb G = (V, E) G=(V,E)表示,其中 V = { v 1 , ⋅ ⋅ ⋅ , v n } V =\{v_1,···,v_n\} V={v1,⋅⋅⋅,vn}是n个节点的集合, E ⊂ V × V E⊂V × V E⊂V×V是有向边的集合。每个节点包含自己的节点特性,属于特定的类型。每条有向边都包含一个边属性,并且属于特定的边类型。
与前人将交互表示为同构图[11]、边特征同构图[14]或无边属性的异构图[15]不同,本文提出的表示更加全面。它涵盖了具有异构节点的交通参与者的异构性;用专属的坐标系统保留它们的个性;考虑具有有向边的两个agent之间相互影响的差异;使用边缘属性保留所有代理的空间关系。
Transformation-insensitive交互图
为了对不同类型的智能体之间的交互进行建模,本文构建了一个有向异构图来表示这些智能体之间的关系。如果agent j j j在agent i i i的一个预定义邻域内,构造一条从agent j j j指向agent i i i的边 e i j e_{ij} eij。给每条有效边 e i j e_{ij} eij赋边属性和边类型。则边集为:
式中, i 和 j i和j i和j为智能体的指标, N i N_i Ni为智能体i的邻域。自环 e i j e_{ij} eij包含在边缘集中。图2中间显示了所构造图形的一个示例
对于上述交互表示,应使用能处理节点、有向边和连续边属性异质性的图神经网络进行处理。但是,正如相关工作所示,现有的GNNs不能一下子处理这个问题。本文设计了一个异构边特征图注意网络(HEAT),作为GAT的扩展,用于提出的综合交互表示。HEAT可以通过堆叠HEAT层来构建。HEAT层通过聚合来自邻居的信息来更新节点特性。它首先对节点和边缘特征进行相应的转换,然后通过边缘增强的屏蔽注意(或可选的多头注意)机制聚合节点特征。
HEAT层的输入包含一组节点特性:
异构图中不同类型的节点具有不同的特征空间,需要映射到共享特征空间。本文采用[29]中引入的特定节点类型的变换矩阵 M κ i \mathbf M_{κi} Mκi来处理任意类型的节点。
现有的研究要么考虑边缘属性,要么考虑边缘类型作为边缘特征,而多智能体轨迹预测则不是这样。我们认为,对于轨迹预测,边缘特征和类型是两个不同的东西,边缘特征通常是连续空间中的一些测量值,如两个节点之间的距离,而边缘类型总是一个离散的指标。本工作通过引入边缘属性变换,共同考虑边缘特征和类型:
对于从节点 j j j指向节点 i i i的边,其边特征 e i j = [ e φ i j a t t r ‖ e χ i j t y p e ] e_{ij}=[e^{attr}_{φij}‖e^{type}_{χij}] eij=[eφijattr‖eχijtype]是其变换后的边属性和类型的拼接。对于节点 i i i,一个拼接的特征向量 e i j + = [ e i j ‖ h → κ j ] e^+_{ij}=[e_{ij}‖\overrightarrow {h}_{κj}] eij+=[eij‖hκj]从节点i的角度考虑边缘属性和类型,表示节点 j j j的特征。然后将 e + i j e+ij e+ij发送到共享注意机制[17],这是一个单层前馈神经网络 a → \overrightarrow a a,应用LeakyReLU非线性和softmax归一化。注意系数 α i j α_{ij} αij综合考虑节点和边缘特征,表示节点 j j j对节点 i i i的重要性。GAT层[24]执行屏蔽注意,它只关注节点 i i i的邻域,利用图的结构信息,同时丢弃边缘的特征和类型。这项工作在Eq.9中执行了边缘增强的掩盖注意,以充分考虑图属性。
节点 i i i的特征更新是通过计算边缘集成节点特征在其邻域上的加权和,然后是一个sigmoid函数。
边缘类型不包括在边缘集成特征中,因为它是离散的,并且已经在前面的注意机制中考虑过了。
与GAT[24]类似,HEAT允许运行多个独立的注意机制来稳定自我注意机制。然后将每个注意头中分离出来的特征连接为更新后的特征。所谓的多头注意机制如Eq. 11所示:
其中K为注意头数, ‖ ‖ ‖表示连接。
道路结构对交通参与者的运动有很大的影响,因此轨迹预测不能忽略这一信息。单一轨迹预测方法,如ReCoG[6],使用以目标车辆当前位置为中心的固定大小的局部地图。固定大小的局部映射忽略代理的动态。一个小的地图足以预测一个缓慢的代理,而一个大的地图则需要一个快速移动的代理。多智能体预测方法,如MATF[9],在所有目标车辆上具有相同的地图特征,忽略了不同的目标智能体受地图不同部分的影响。为了实现地图的选择性共享,本工作提出在CNNs提取的地图特征上应用gate机制进行地图选择。门机构在[35]-[37]序列建模中被广泛应用。LSTMs[37]通常有三个门:输入门、遗忘门和输出门,用来管理沿序列数据的信息流。输入门被设计用来选择将当前步骤的哪些信息添加到网络的内存中。本工作设计了选择门 Z t i Z^i_t Zti,根据代理 i i i在地图中的当前状态为其选择地图特征。