最新综述!基于视觉的轨迹预测有哪些?

作者:计算机视觉研究院
编辑:3D视觉开发者社区

为了规划一条安全高效的路线,自动驾驶汽车应该预测周围其它智能体的未来轨迹。轨迹预测是一项极具挑战性的任务,最近在自动驾驶汽车研究界引起了很多关注。

 

导读

轨迹预测预测场景中所有动态agent在给定其当前和过去状态的情况下的未来状态,一个好的预测模型可以防止道路上的碰撞,因此自动驾驶汽车的最终目标是:碰撞率:每百万英里的碰撞。本文的目的是提供轨迹预测的概述,论文将相关算法分类为不同的类别,以便研究人员能够跟踪轨迹预测研究领域最新的趋势,此外还涉及制定轨迹预测问题所需的背景知识。

modern自动驾驶方法将问题分为四个步骤:检测、跟踪、轨迹预测和路径规划,按图1所示顺序使用。本文将讨论轨迹预测问题,该问题负责预测场景中所有动态agent的轨迹和意图。道路上目标的定位和分类(又称感知)是一回事,但还需要了解物体及其周围环境的动力学,以预测它们未来的行为并防止任何碰撞,考虑到问题的关键性,如今,自动驾驶行业在感知和运动规划模块的基础上还有一个专门的模块。

最新综述!基于视觉的轨迹预测有哪些?_第1张图片

已经发表了几篇关于行为分析的综述论文,例如,有的基于透视法研究了这个问题,但这种坐标空间很少用于自动驾驶汽车行业,所有建模都是在鸟瞰图(BEV)空间中完成的。目前的方法而言有点过时,主要关注HMM、SVM、基于贝叶斯的方法等,许多性能最好的预测方法都是基于深度学习的方法,这也反映了当前的趋势。然而,据论文所知,这是第一项涵盖针对AVspace的现代基于DL的预测方法的汇总工作,该方法使用车载可用的所有感知数据来为道路上的动态agent建立准确的预测模型。

本文的贡献总结如下:

介绍了轨迹预测问题、基础知识以及围绕它的所有术语;

介绍了trajectory prediction中的热门趋势技术,主要集中在SoTA(最新技术)方法;

向研究人员提出了未来可能的方向,并强调了当前的研究差距;

 

轨迹预测的基础与挑战

本节将介绍轨迹预测问题陈述中的挑战,以及深入研究轨迹预测方法的前沿趋势技术所需的一些基本背景信息!

挑战

由于以下特点,自动驾驶领域的预测是一个复杂的问题:
相互依赖性:agent的行为存在相互依赖性,即一个agent的未来行为可能会影响附近其他agent的未来行动,因此需要考虑道路的整个周围场景,包括交通规则,以进行智能体的轨迹预测,这使得预测建模成为所有agent的联合优化问题。

实时要求

需要设计一个庞大的深度学习模块,对agent的轨迹进行联合优化。然而,自动驾驶汽车需要实时运行,这给预测模块带来了非常紧张的运行预算。

累积误差

预测模块位于自动驾驶软件堆栈中的感知和跟踪模块之后,这意味着其他模块已经积累了一些错误,因此,预测模块的性能取决于先前模型的性能。

动态性质

自我载体和agent都在场景中移动,agent的未来轨迹也取决于自我载体的运动,因此在处理来自传感器的时间数据时,需要对自我车辆运动补偿进行建模。

多模态

agent的多模态行为,即给定agent的过去历史,存在多种可能的未来轨迹。例如,刚刚踩上带有人行横道的行人可以继续行走或转身,综合预测器需要评估每个事件的所有可能轨迹及其可能性得分。

预测任务问题陈述

意向:这是一个分类任务,为agent预先设计一组意向类。例如,对于一辆汽车来说,它可以是:停止;停放;或移动,通常将其视为一个有监督的学习问题,需要标注agent可能的分类意图。

轨迹:需要预测agent在下一个Tpred未来帧中的一组可能的未来位置,称为way-points,这构成了它们与其他agent以及道路的相互作用,如图2所示!

最新综述!基于视觉的轨迹预测有哪些?_第2张图片

轨迹和意图需要具有交互意识,举个例子,如果你在交通拥挤的高速公路上强行进入高速,一辆即将到来的汽车可能会有点bad,这是一个合理的假设。通常,trajectory prediction可以在图像视图(也称为透视视图)或BEV中建模,但现在,它优选在BEV空间本身中进行,主要原因是可以以网格的形式为感兴趣区域(RoI)分配一个专用的range范围。然而,由于透视图中的消失线,图像视图在理论上可以具有无限的RoI,随着运动被更线性地建模,在BEV空间中对遮挡进行建模更容易。在纯电动汽车中,自我运动补偿可以很容易地通过姿态改变(自我车辆的平移和旋转)来完成。此外,这个空间保留了agent的运动和规模,即车辆将占据相同数量的BEV像素,而不管它离自我车辆有多远,图像视图并非如此!

为了预测未来会发生什么,需要对过去有一个好的了解,这通常可以通过使用跟踪的输出来完成,也可以使用历史上聚合的BEV特征来完成。基于目标的预最近在文献中成为趋势,这种方法认为,为了预测agent的未来,需要对个体agent的目标有一个概念。

数据集

对于轨迹预测,可以使用任何大规模感知数据集,其中包括序列数据,即nuScenes、Waymo开放数据集、Lyft、ArgoVerse公司的等,然而,这些数据集不包括用于意图的注释。LOKI是一种常用的意图预测数据集,如果有连续的未标记数据,轨迹预测任务也可以使用自动标注,只要有一个良好的离线感知和跟踪模型来检测agent并在它们之间生成时间链接!

输入数据格式

用于预测的输入可以以多种形式定义,最简单的方法是从跟踪器中发送稀疏的tracklet。更复杂的预测模型可以馈入场景的BEV表示,其可以由占用网格或基于深度学习的潜在空间来定义。

评估指标和损失

意图预测是一项分类任务,因此可以使用二值交叉熵/Focal loss,对于评估指标:可使用精确度、召回率、F1分数、平均精确度。

最新综述!基于视觉的轨迹预测有哪些?_第3张图片

轨迹预测:这是一个回归问题,试图使agent的未来方向点尽可能接近GT,对于损失计算,可以使用L1/L2范数的某些版本,对于评估指标,有多种方法:

1)最终位移误差(FDE):它测量预测的最终位置和真实的最终位置之间的距离。

图片

2)平均绝对误差(MAE):它根据均方根值(RMSE)测量预测误差的平均幅度。

3) K Metric的最小值:当模型预测每个agent的K个轨迹时,使用该度量,基于最小化度量误差值的K个轨迹中的轨迹来计算度量。

 

一些SOTA方法

先前的综述已经根据基于物理的、maneuver、基于感知交互等对行为预测模型进行了分类,基于物理的模型构成了动力学方程,为不同类别的智能体建模手工设计的运动。这种方法无法对整个场景的隐藏状态进行建模,并且往往一次只关注特定的agent。然而,在前深度学习时代,这种趋势曾经是SOTA。maneuver-based的模型是基于主体的预期运动类型模型。交互感知模型通常是一种基于ML的系统,它可以对场景中的每个agent进行配对推理,并为所有动态agent生成交互感知预测。场景中附近存在的不同agent的轨迹之间存在高度相关性,这种方法已经表明,它可以通过对智能体轨迹上的复杂注意力模块进行建模来更好地推广,而人工设计的方法在启发式上很难对其进行建模。在本文的其余部分,将专注于这类工作,希望根据输入表示对轨迹预测模型进行分类:

Tracklets

感知模块预测所有动态agent的当前状态,该状态包括三维中心、维度、速度、加速度等属性。跟踪器的作用是消耗这些数据并将其临时关联,以便每个tracklet都可以包含所有agent的状态历史。现在,每个tracklet都表示该agent过去的移动。这是最简单的预测模型形式,因为它只包含稀疏的轨迹作为输入。一个好的跟踪器能够跟踪一个agent,即使该agent由于其固有逻辑而在当前帧中被遮挡。传统的跟踪器是非基于ML的网络,因此使用这种方法很难实现端到端的模型,这种方法进行交互感知建模已经做了很多工作。[19] 在我们试图预测轨迹的固定数量周围车辆的agent近距离内考虑多个agent的轨迹,增加轨迹的感受野有助于提高行为预测性能。[20] 通过指定目标agent周围的距离范围,从距离的角度来看了这个问题,以入围所有agent。[21]增加了不同agent类的注意力建模及其各自的权重。

BEV表示

这一网络分支使用HD地图中的信息生成当前感知输出、感知输出历史和道路状态的BEV表示,所有这些都是由预测模型消耗的单层BEV表示。[22]使用相机和雷达对BEV表示进行建模,因为占用网格动态占用网格图(DOGMa)是根据各种传感器的数据融合创建的,并提供环境的BEV图像。该网格的通道包含网格中每个单元的占用概率和速度矢量,作为一个缺点,这一类别仍然存在错误累积的问题(从感知和跟踪器模块中累积)。

原始传感器数据

这是一种端到端的方法,模型获取原始传感器数据信息,并直接预测场景中每个agent的轨迹预测。这种方法可能有也可能没有辅助输出及其损失来监督中的复杂训练。[26]通过车辆对车辆(V2V)通信平台为道路上的多个AV添加协作感知预测,扩展了先前的方法。这一类别的缺点是,由于用于输入的信息密集,它在计算上是昂贵的。此外,由于它将三个问题结合在一起,即感知、跟踪和预测,模型变得很难开发,甚至更难收敛!

基于目标的预测与场景context一样,行为意图预测通常受到不同预期目标的影响,并且应该具有可解释性。对于以目标为条件的未来预测,目标被建模为未来状态(定义为目的地坐标)或agent期望的移动类型。将这个问题分为两类,第一类是认知的:回答agent要去哪里的问题?第二个是任意的,这个代理将如何实现其目标?

进一步的扩展和结论

感知任务在其各自的度量上被解决了90%以上,并且只要提供了准确的预测,规划任务就被认为是容易解决的;解决轨迹预测仍然是自动驾驶汽车的关键挑战之一。精确的轨迹建模是防止未来可能发生碰撞的关键,它还需要实时运行,以便在用户的物理限制和合理舒适度范围内采取防撞行动。本文对现有的自动驾驶轨迹预测方法进行了全面的回顾,将不同的方法分为不同的类别,以便很容易地跟上研究趋势。此外,还阐述了轨迹预测的基础知识,希望能够通过这篇论文突出关键问题和趋势,从而推动该领域的进一步研究。

 
 

版权声明:本文为奥比中光3D视觉开发者社区特约作者授权原创发布,未经授权不得转载,本文仅做学术分享,版权归原作者所有,若涉及侵权内容请联系删文。

3D视觉开发者社区是由奥比中光给所有开发者打造的分享与交流平台,旨在将3D视觉技术开放给开发者。平台为开发者提供3D视觉领域免费课程、奥比中光独家资源与专业技术支持。

加入【3D视觉开发者社区】学习行业前沿知识,赋能开发者技能提升!
加入【3D视觉AI开放平台】体验AI算法能力,助力开发者视觉算法落地!

往期推荐:

1、奥比中光&英伟达第三届3D视觉创新应用竞赛圆满落幕!
2、 速来!2023第三届3D视觉创新应用竞赛决赛即将开启!
3、开发者社区「运营官」招募启动啦!_奥比中光3D视觉开发者社区的博客-CSDN博客
4、为什么你的手机后置摄像头越来越丑?ECCV2022这篇论文告诉你_奥比中光3D视觉开发者社区的博客-CSDN博客

你可能感兴趣的:(人工智能,机器学习,深度学习)