轨迹预测论文之八: Vision-based Intention and Trajectory Prediction in Autonomous Vehicles: A Survey

这两天偶然刷到了这篇知乎文章:轨迹预测的视觉方法综述,22年的,就找来看了一下,这边也做一下记录。文章的地址:Vision-based Intention and Trajectory Prediction in Autonomous Vehicles: A Survey

Abstract & Introduction

摘要的意思就是“我是一篇综述,我批判性比较了最近两三年的预测模型,总结了常见的数据集和对应的评价方法”。
引言部分中有以下一些总结(ps: 基本是边看边翻译,有条件还是自己看下原文):
预测任务包括两个方面,一是其他道路参与者的意图,参与者包括车辆,行人,骑行人等,意图是指直行左转右转(这就是意图预测或者行为预测);第二个方面就是参与者的轨迹预测。预测任务表现好可以帮助planning模块,避免交通事故,提升安全性,许多公司都专门建立的预测的pipeline。
预测方法包括两类:physics-based models 和
machine learning-based models。physics-based模型非常早,是利用动力学方程,推导未来的位置,这种方法没有利用环境信息,因此没法捕捉高level的信息以及不确定性。机器学习方法,优点多多,能捕捉高维信息,很好建模时间和空间上的特征,提供合适的多模预测。
ML的方法,关注使用LiDAR数据场景下的预测(模型有LiDAR数据直接输入),有的致力于输出occupancy maps。这篇综述,区别于前两者,是聚焦于视觉输入,以ego perspective or BEV视角的。

prediction pipeline

轨迹预测论文之八: Vision-based Intention and Trajectory Prediction in Autonomous Vehicles: A Survey_第1张图片
参看上图,预测任务的输入,包括所有交通参与者的历史特征序列。特征可能包括agent的位置,速度,heading, pose, 以及环境信息 I,可以是RGB images 形式,LIDAR点云形式,HD地图,semantic segmentation 地图等。
任务1,意图预测任务,大多数情况下,这是一个分类问题,意图维嘉帝国是一种状态或者一个未来行为。任务二是预测未来的一段时间的位置,,一般是一系列的位置点+一个置信度c。

挑战

预测任务的困难在于一下几点:
Dynamic: 都是移动物体,需要序列化的信息。
Multi-agent: 参与者类型多,行人和车辆的特性就不一样,且交通参与者之间会互相影响。
Stochastic: 随机性强,机动性强,多模,相同的历史轨迹,可能导致不同的未来行为。
Partially observable: 这是说有一些障碍物可能被追踪的时间是有限的。
Real-time requirement: 实时性需求高。
综上所述,一个理想的预测算法,应该能在线地实时地建模自车和他周围交通参与者,时空的特征,而且是partial observability的情况下,得到多模的带概率的预测输出。

综述

文章展示了预测领域有关的几个数据集。相关的metric 指标就不介绍了。
轨迹预测论文之八: Vision-based Intention and Trajectory Prediction in Autonomous Vehicles: A Survey_第2张图片
轨迹预测论文之八: Vision-based Intention and Trajectory Prediction in Autonomous Vehicles: A Survey_第3张图片
物体的意图,受下列因素的影响:
the agent’s own belief or will , 一般不能被观察。
its social interactions。 即与环境的交互,可以用社交池化、图神经网络、注意力等建模。
environmental constraints。 道路布局,就是哪里有路,有几条路等,这种一般在地图信息中。
contextual information。这里指RGB frames, LiDAR point clouds, optical flow, segmentation maps等这些因素。
物体的未来轨迹,更具有挑战性,它是一个连续空间的回归问题。

就着上面的表,文章从一下几点总结了一些 Take-home Messages:

  • Ego-Motion and Dynamics
    一些论文专门建立了一个unit建模自车的运动以得到更加精确的轨迹。另外一种方式是使用神经网络或者动态模型的方法,使用动力学方程,在不同层级限制生成的轨迹。研究者还试图额外利用pose, optic flow , 语义图或者heat maps 进行编码限制。
  • Ego-Camera vs Bird’s Eye View
    视角上分为两种,一种是BEV,一种是在ego-camera。BEV是更好一些的,后者更有挑战性。因为BEV信息更多,观测更为全面,ego-camera更容易被遮挡。另外单目相机对深度估计不准,而这个深度信息是很关键的线索。后者的优势是实用性更强,因为后者提供的信息更为直接,方便使用,并且加工成BEV,可能有累积的错误,因为多了一层信息的转换了。这里说的意思可以理解为,Ego-Camera是一种更为端到端的方法。
  • Temporal Encoding
    ego-camera-based 的模型,一般使用更短的time horizons, 使用3D卷积网络捕捉时序的信息。 采用更长的时间视野的话,一般使用RNN, LSTM, GRU,Transformer等编码。
  • Social Encoding
    这里一般是用不同形式的GNN,编码muti-agent的相互作用。有用全连接无向图的,这会带来指数级的连接数目;有用稀疏的图的,仅仅一定范围内的agent才被考虑到图中,可以降低计算量;进一步的,有的认为不同类型的agent有不同的观测范围,这就会给图带来不同的方向,比如行人和车相互作用,车的图有行人,行人的图里可能没车。深度方面有的说图深度越深越好,有的说最好是2。此外就是使用attention挖掘。不是很有效率 的方法social pooling。以及用条件于之前的agent车的方法建立状态空间,这种方式比较依赖于认为设定的先后顺序,这种方法可能是不对的不好的。
    大部分的方法是分开编码时间和Social的,有先时间后Social的,也有反之的。transformer-based的方法能够同时编码这两个维度。
  • Goal-Conditioning
    有文章认为,人类是一种goal-directed agents。一旦作出决定,就会有连续的动作规划。基于此,许多算法把预测问题设计成两个子问题,第一个是寻找goal点,也就是agent想要到哪里,第二个是轨迹,解决怎么到达上一步计算出来的goal的问题。 这种方法可能是显式的,也可能是隐式的(GOHOME)。这种两步走的方法诞生了不少SOTA的方法。
  • Multimodality
    多模态方面,CAVE是一大类。学习隐空间,然后在推理的时候通过采样得到多模态。另外是使用GAN-based的方法的。最近的趋势,是使用attention机制计算。

最后

不得不说,看这种文章还是比较费力的,整体说下来可能没有太多新得东西(对入了门的人来说),有价值的可能是table 2 的那个表,以及提到的处理方法及对应的文章。中间涉及的文章太多,很多也都没有看过,所以这种综述文章一般读起来都比较慢,其实不少细节还是没理解透彻。

你可能感兴趣的:(自动驾驶-预测笔记,机器学习,人工智能,深度学习)