论文链接:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9158529(如果链接无法打开可以通过论文DOI从scihub下载)
轨迹预测作用:
支持有效的决策,并能够进行风险评估
轨迹预测的挑战:
车辆行为之间存在相互依赖性,其中车辆的行为会影响其他车辆的行为。因此,预测车辆的行为需要观察周围车辆的行为。
车辆的未来行为是多模式的。
术语:
Target Vehicles (TVs)
Ego Vehicle (EV)
Surrounding Vehicles (SVs)
Non Effective Vehicles (NVs)
基于三个不同的标准提出了三个分类:输入表示、输出类型和预测方法。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RuyLJlXU-1657107556880)(iamge/image-20220706104818887.png)]
Track History of the TV
This feature can be estimated if the TV is observable by the EV’s sensors.如果 EV 的传感器可以观察到TV,则可以估计此功能。
由于车辆行为的相互依赖性,从输入集中排除可观察的 SV 状态可能会导致对 TV 行为的不准确预测。
尽管TV的轨迹历史具有关于其短期未来运动的高度信息特征,但仅依赖电视的轨迹历史可能会导致错误的结果,特别是在拥挤的驾驶环境中的长期预测中。
Track History of the TV and SVs
现有的研究在如何将场景中的车辆划分为周围车辆(SV)和无效车辆(NV)方面存在差异。
在 [23]-[25] 中,利用TV状态的历史及其最近的六个相邻车来预测TV的行为。在[26]、[27]中,选择TV当前车道中最近的三辆汽车和两条相邻车道作为参考车辆。参考车辆和相邻车道上两个参考车辆的前后车辆被选为 SV。 [28] 中的作者考虑了目标车辆周围三个车道中的九辆车,其中包括TV前的两辆车。在 [29]-[31] 中,没有将固定数量的车辆视为 SV,而是定义了一个距离阈值来将车辆分为 SV 和 NV。这意味着在预测模型中仅考虑该阈值内的车辆交互。在[32]中,所有可观察代理(例如车辆、行人和骑自行车的人)的状态都使用不同的权重,通过软注意力机制[33]获得,对应于它们对TV行为的影响。
缺点:他们假设所有 SV 的状态总是可观察的。
更现实的方法应该始终考虑传感器损伤,如遮挡和噪声。
Simplifified Bird’s Eye View
在这种方法中,静态和动态对象、道路车道和环境的其他元素通常用 BEV 图像中的多边形和线的集合来描述。结果是一个类似地图的图像,它保留了对象(例如车辆)的大小和位置以及道路几何形状,同时忽略了它们的纹理。
为了丰富 BEV 图像中的时间信息,引入的社交张量(称为社交池层)。社交张量是目标车辆周围的空间网格,占用的单元格填充有相应车辆的已处理时间数据(例如,LSTM隐藏状态值)。因此,社会张量既包含车辆的时间动态,也包含车辆之间的空间相互依赖关系。
上述工作没有考虑输入表示中的传感器损伤。为了克服这个缺点,在 [41]、[42] 中利用了动态占用网格图(DOGMa [40])。 DOGMa 是由各种传感器的数据融合创建的,并提供环境的 BEV 图像。该图像的通道包含每个像素的占用概率和速度估计。速度信息有助于区分环境中的静态和动态对象;但是,它没有提供有关动态对象历史的完整知识。
简化 BEV 的优点是首先它在表示的复杂性方面是灵活的。因此,它可以匹配具有不同计算资源约束的应用程序。其次,它可以将来自不同类型传感器的数据融合到单个 BEV 表示中。缺点:它继承了用于估计静态和动态对象(例如,车辆)状态的感知模块(例如,对象检测和跟踪)的局限性。在驾驶环境中。因此,估计状态的错误或感知模块中的环境表示不足将级联到预测模块。例如,如果目标检测模块对救护车和普通汽车使用相同的标签,则无法模拟救护车对周围车辆未来行为的影响。
Raw Sensor Data:
在这种方法中,原始传感器数据被馈送到预测模型。
缺点:需要庞大的计算资源。解决方法:在自动驾驶汽车中,目标检测模块利用原始传感器数据,它通常依赖于具有数百万参数的模型 [46]。因此,可以很好地与行为预测模块共享参数。
四类:机动意图、单模态轨迹、多模态轨迹和占用栅格图。
机动意图预测
(我们简称为意图预测)是估计车辆在即将到来的时间步中打算做什么机动的任务[13]。
**缺点:**①是它们只能提供对车辆行为的高级理解。(在高速公路驾驶场景中,我们可以将变道类别细分为急变道和正常变道。)②机动设置对单一驾驶环境的特殊性,需要更大的模型容量来学习输入数据到意图集的映射。
单模态轨迹
轨迹预测模型通过预测电视在一个时间窗口内的一系列未来位置来描述车辆的未来行为。单峰轨迹预测器是仅预测这些可能轨迹之一(通常是可能性最高的轨迹)的模型。我们将这些方法分为两个子类:
- 独立于预期机动:这些方法预测单峰轨迹,而没有明确考虑可能的机动对其的影响。预测TV轨迹的直接方法是估计它随着时间的推移的位置[29]、[38]、[47]。预测器模型还可以估计TV在每一步 [25]、[31] 相对于其最后位置的位移。 [28] 中使用的另一种方法是分别预测横向位置和纵向速度。缺点是它们可能会收敛到所有可能模式的平均值,因为平均值可以使单峰轨迹预测的位移误差最小化;然而,模式的平均值不一定是有效的未来行为[20]。
- 以预期机动为条件:以预期机动为条件的单峰轨迹预测方法不太可能收敛到模式的平均值,因为在这些方法中,预测的轨迹对应于预定义的行为模式之一。然而,这些方法有两个主要缺点。首先,如果车辆的意图不存在于预定义的意图集中,他们就无法准确地预测车辆轨迹。
这个问题通常发生在复杂的驾驶场景中,因为在这样的环境中很难预先确定所有可能的驾驶意图。其次,与之前的子类不同,我们需要在训练数据集中手动标记车辆的意图,这既耗时又昂贵且容易出错。
取平均值不一定是有效的未来行为。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-erNLVvwv-1657107556882)(iamge/image-20220706161412891.png)]
多模态轨迹
多模态轨迹预测模型预测每种行为模式的一个轨迹(策略/机动/意图)以及模式概率。我们将多模态预测方法分为两个子类别:
- 静态模式:在这个子类中,明确定义了一组行为模式,并为该组的每个成员预测了轨迹。
- 动态模式:在这些方法中,可以根据驾驶场景动态学习模式。
多模态方法的第一个子类别可以被认为是单模态轨迹预测方法的多模态扩展,以预期的机动为条件,因为它们预测所有行为模式的轨迹,而不是具有最高可能性的模式。因此,我们提到的基于意图操作的单峰模型的缺点,即难以定义全面的意图集和在训练数据集中手动标记意图,在这里没有得到解决。相反,第二个子类别中的方法可以免除这两个问题,因为它们不需要预定义的意图集。然而,由于模式的动态定义,它们容易收敛到单一模式 [20] 或无法探索所有现有模式。
占用栅格图
在这些方法中,不是预测车辆轨迹,而是为未来的时间步估计驾驶环境的 BEV 地图中每个单元的占用情况。通过估计动态占用网格图([40])中每个单元的车辆占用可能性和预测范围中的每个时间步长来预测轨迹。
缺点是它们的预测准确性受到地图中单元格大小的限制。增加网格中的单元格数量将减小单元格的大小;但是,它会导致更高的计算成本。
根据所使用的预测模型将现有研究分为三类,即递归神经网络、卷积神经网络和其他方法。
递归神经网络
- 单个 RNN:在这些模型中,要么将单个循环神经网络用于最简单的行为预测形式(例如,意图预测或单峰轨迹预测),要么将辅助模型与单个 RNN 一起使用以支持更复杂的特征,例如交互意识和/或多模式预测。为了预测基于意图的轨迹,Ding 和 Shen [30] 使用 LSTM 编码器使用其状态预测TV的意图。然后,预测的意图和地图信息用于生成TV的初始未来轨迹。最后,基于车辆交互、交通规则(例如红灯)和道路几何形状,使用非线性优化方法来细化初始未来轨迹。为了预测多模式行为,Zyner 等人[20]首先使用编码器-解码器三层LSTM来预测未来轨迹每一步的加权高斯混合模型(GMM)的参数。然后,使用聚类方法来提取与具有最高概率的模式相对应的轨迹。PARK等人[22] 使用编码器解码器 LSTM 来预测网格图上的占用概率,并应用波束搜索算法 [58] 来选择 k 个最可能的未来轨迹候选。
- 多个 RNN:为了处理循环神经网络中的多模态和/或交互感知,在现有的研究中通常在网络中使用多个RNN的架构。丁等人 [27] 使用一组GRU编码器来模拟 TV 和每个 SV 之间的成对交互,基于此,TV 的意图被预测为更长的视野。戴等人[25] 使用两组 LSTM 网络进行 TV 的轨迹预测,一组用于对 TV 和每个 SV 的单独轨迹进行建模,另一组用于对 TV 和每个 SV 之间的交互进行建模。
辛等人[21]利用一个 LSTM 预测TV的目标车道,另一个 LSTM 根据TV的状态和预测的目标车道预测轨迹。为了预测多模态轨迹,[24] 中的作者使用了六种不同的解码器 LSTM,它们与高速公路驾驶的六种特定机动相关。编码器 LSTM 应用于车辆的过去轨迹。每个解码器 LSTM 的隐藏状态由编码器 LSTM 的最后一个隐藏状态和一个代表每个解码器特定操作的 one-hot 向量的级联初始化。解码器 LSTM 预测TV未来位置的机动条件双变量高斯分布的参数。另一个编码器 LSTM 也用于预测六次机动中的每一次的概率。多个 LSTM 在 [32] 中被构造为两个主要层,称为实例层和类别层。前者学习实例(即代理)的运动及其相互作用,而后者则了解同一类别实例之间的相似性。
该网络应用于输入数据的图形表示,其中包含实例的 4 个维度、它们的交互、时间和实例的高级分类。**缺点:**RNN在对车辆空间交互等空间关系和驾驶场景上下文等类图像数据进行建模方面存在不足。这就解释了为什么使用 RNN 的复杂解决方案通常会利用额外的方法来弥补单个 RNN 的弱点。
卷积神经网络
卷积神经网络在车辆行为预测中受到重视,因为它们具有获取类图像数据、生成类图像输出以及在处理输入数据时保持输入数据的空间关系的能力。这些功能可以对车辆的交互和驾驶场景上下文进行建模,并生成占用地图输出。然而,2D CNN 缺乏一种对数据序列进行建模的机制,这在车辆行为预测中需要用于对车辆状态随时间的时间依赖性进行建模。
Other Methods
全连接神经网络:在 [63] 中,表明在某些驾驶场景中,与循环神经网络相比,前馈神经网络可以具有更快的处理时间和具有竞争力的结果。
RNNs 和 CNNs 的结合(先RNN提取时间序列,然后CNN提取空间关系):循环神经网络因其时间特征提取能力而被使用,而卷积神经网络因其空间特征提取能力而被使用。Deo 和 Trivedi [37] 每辆车使用一个编码器 LSTM 来提取车辆的时间动态。这些 LSTM 的内部状态形成了一个社会张量,该张量被馈送到卷积神经网络以学习空间相互依赖性。最后,六个解码器 LSTM 用于生成电视未来轨迹的机动条件分布。
图神经网络:驾驶场景中的车辆及其交互可以被认为是一个图,其中节点是车辆,边表示它们之间的交互。
意图预测模型和轨迹预测模型的评估指标,因为前者是分类问题,后者是回归问题,每个问题都有一组单独的指标。
• 准确度:最常见的分类指标之一是准确度,定义为正确的总数仅依赖准确性可能会误导不平衡的数据集。例如,高速公路驾驶数据集中的变道次数通常远少于车道保持。因此,无论输入数据如何总是输出车道保持的意图预测器获得了较高的准确度分数。因此,其他指标,如精度、召回和 F1 分数也用于现有研究 [23]、[44]。
• 精度:对于给定的类别,精度定义为在该类别中正确分类的数据样本总数与分类为给定类别的样本总数的比率。低精度表示大量错误分类的数据作为给定类。
• 召回率:对于给定的类,召回率定义为在该类中正确分类的数据样本总数与给定类中的样本总数之比。低召回率表示给定类中的大量数据被错误地分类到其他类中。
• F1 分数:F1 分数(也称为 F 分数或 F 度量)是准确率和召回率之间的平衡,定义为:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-WtS26RhP-1657107556883)(iamge/image-20220706175819558.png)]• 负对数似然(NLL):对于多类分类任务中的每个数据样本,NLL 计算为:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-OerZy73g-1657107556884)(iamge/image-20220706175901880.png)]
其中 yc 是预测 c 类数据样本正确性的二元指标,^yc 是数据样本属于 c 类的预测概率,M 是类数。尽管 NLL 值不像之前讨论的指标那样可解释,但它可以用来比较不同意图预测模型的不确定性 [27]。
• 平均预测时间:该指标用于意图预测方法 [26]、[27],例如车道变换预测,其中该方法应用于输入数据序列的滑动窗口以预测正类的发生(例如,变道)。该度量是通过对所有样本的第一个正确的正类预测的时间的平均值来获得的,以车道变换发生的时间为原点。在 [27] 中,他们考虑了一致的正确车道变换预测开始增加度量的鲁棒性的时间。
轨迹预测指标
最终位移误差 (FDE);
平均绝对误差 (MAE) 或均方根误差 (RMSE):MAE 测量预测误差 et 的平均幅度,而 RMSE 测量平方预测误差平均值的平方根;
K度量的最小值:在一些现有的多模式轨迹预测研究 [4]、[35]、[39]、[68] 中,其中 K 轨迹是针对不同模式预测的,度量(例如 MSE、FDE)是使用计算的最小化度量的 K 轨迹之一(即最佳预测轨迹)。这种评估方法的主要缺点(也在 [68] 中讨论过)是未检查忽略的 K-1 轨迹的质量。因此,据报道使用该指标具有高性能的模型可能会有很差的预测。
交叉熵:对于建模轨迹分布 q 和地面实况数据分布 p,交叉熵可以计算为:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RJ1TeEjp-1657107556885)(iamge/image-20220706192510920.png)]
交叉熵(又名负对数似然)可以报告为意图预测和轨迹预测中的度量;然而,在多模态轨迹预测中,这个指标可能更重要,因为 MAE 和 RMSE 都偏向于预测模态平均值的模型 [37],这不一定是一个好的预测,如前所述。尽管交叉熵惩罚了多模态预测模型,因为它没有覆盖所有真实数据分布的模式,但它会为预测除真实模式之外的其他模式的模型分配相对较低的惩罚。因此,莱茵哈特等人。 [68] 建议使用对称交叉熵度量。
计算时间:与意图预测相比,轨迹预测模型通常更复杂.
现有方法的性能
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-agfOsOcg-1657107556886)(iamge/image-20220706192733098.png)]
研究空白和新机遇
- 没有评估现有车辆行为预测研究的基准。有些没有计算时间。
- 对周围环境和车辆状态的完全可观察性,这在实践中是不可行的。因此,行为预测的现实解决方案应始终考虑传感器损伤(例如遮挡、噪声),这会限制电视周围可观察车辆的数量,进而可能降低自动驾驶车辆中行为预测器的准确性。一种可能的解决方案是使用联网的自动驾驶汽车。
- 交通规则很少被视为模型的明确输入;同时,它们可以重塑车辆在驾驶场景中的行为。一些现有的研究包括道路方向或交通信号灯作为预测模型的输入[23]、[30],这只是交通标志和规则的一小部分。
- 除了最近工作中通常考虑的车辆状态和场景信息外,车辆的其他视觉和听觉数据,如车辆的信号灯和车辆喇叭,也可以用来推断其未来的行为。
- 现有的大部分工作仅限于特定的驾驶场景