https://www.toutiao.com/a6677726657962312196/
本文简要介绍了笔者所在研究团队2018年在智能车、智能交通和机器人领域顶会所发表的一些预测与行为建模领域相关论文的内容。
作者简介:战威,UC Berkeley博士在读,主要研究方向为自动驾驶中的预测、决策与规划。
自动驾驶行业已持续了多年的火热,但与之形成鲜明对比的是,业内对于实现相对复杂场景下的全自动驾驶的预期时间节点却一再延后,甚至略显悲观。其中一个很重要的原因,就是对于高度动态和交互性的场景下的行为和轨迹预测问题始终没有得到很好的解决,失去这一前提,再完美的决策、规划、控制在实际应用中都不可能是安全和高效的。
实际上,从业者很早就指出行为预测是实现全自动驾驶最具挑战性的问题之一,比如曾经领导Google无人车项目多年的Chris Urmson,在三年前的演讲中说到Google无人车项目的最大障碍就是怎样理解并预测周围道路参与者的行为(https://youtu.be/O2bXF7XJ5P0?t=2343)。笔者也经常从一些学界大佬口中听到类似的论断。
在一些相对成熟的自动驾驶细分领域,到底该解决什么具体问题,以及怎样评价方法的优劣都相对清晰,研究者可以更多地关注算法和框架的改进和创新,但预测领域却并非如此。除了在预测方法上研究者们仍在深入探索,其他问题诸如解决什么样的问题是有实际价值的,该怎样去简化对于运动的表达以便于获取其概率分布,什么表达适合作为真值,怎样去评价方法的性能,都是悬而未决却经常被忽略的问题。忽略这些根本性的问题可能导致缘木求鱼,浪费大量的研究努力。
本文将通过简要介绍笔者所在研究团队2018年在智能车、智能交通和机器人领域顶会所发表的一些预测与行为建模领域相关论文的内容,来阐述预测领域面临的问题以及研究团队的一些初步探索,力求简洁通俗,希望能对读者有所启发。本文的结构大体遵循了文章[1]的各个章节,讨论了预测领域想解决什么问题,怎样表达并简化运动,用什么方法解决问题和怎样评价预测结果,以之为视角拆解了文章[2-8]中的部分内容,并进行简要总结,详情请参考对应的论文。
如果有读者有兴趣在智能车领域顶会上与学者们深入探讨这一领域的问题和解决方案,或者有兴趣参与到我们研究团队的相关工作中,请关注文末的IEEE IV 2019 Workshop投稿和UC Berkeley MSC Lab研究团队的招生信息。
解决什么问题
交通场景中,各个实体(车辆、自行车、行人等)的行为充满了不确定性,所以对于这些行为的预测也应是概率的而非确定性的。本文随后提到的预测问题所指皆为概率预测问题,也就是说我们想得到实体未来行为的概率分布。文章[1]中指出了影响到预测领域problem formulation的四个重要的区分点,分别是视角,交互性,实体数量和运动表达。文章[2]中进一步给出了最具交互性的回应预测(reaction prediction)和多实体预测之间的条件概率的转换关系,进而将两种在高度动态和复杂交互场景中最具实用性的预测问题进行了统一,使其评估成为可能。
视角可将预测问题区分为全局鸟瞰,本车局部和遮挡盲区的预测。目前在车辆预测领域最常用的数据集NGSIM dataset就属于全局鸟瞰视角下的预测,但基于这一数据集的研究也会不可避免的忽略掉本车传感器遮挡所产生的影响。如图1所示,由于观测信息的缺失,本车(灰色)对可能出现在盲区的车辆(绿色)进行可靠的预测与跟踪非常困难,但是我们经常可以获得对于盲区车辆行为产生影响的其他车辆运动的可靠观测(如绿车的前车等),这些信息会帮助我们提升对于盲区车辆的跟踪和预测性能,文章[3]尝试利用从数据中学到的跟车和变道行为模型,基于盲区车辆周边车辆的运动,来提供对于盲区车辆运动更准确的推断,显著提升预测与跟踪性能。
图1. 被遮挡车辆的跟踪与预测 [3]
交互性可以说是预测领域最为重要的一个区分点,可将预测问题分为独立(independent)、依赖(interdependent)和回应(reactive)预测。独立预测只基于被预测实体的历史运动给出未来可能的行为,由于问题不具有挑战性和实用性,目前较少为人关注。依赖预测基于预测实体及其周围实体的历史运动给出未来可能的行为,也是最近几年绝大多数研究者关注和研究的问题。然而当我们探讨高度动态和复杂交互场景中的预测问题时,依赖预测是显然无法满足要求的。图2中是从NGSIM dataset里面抽取的一个高速公路上匝道的场景,红车与蓝车进行了将近30秒的路权争夺,整个过程中如将红车视为本车,单纯基于红蓝黑三辆车的历史运动去预测蓝车的未来行为是没有意义的,因为在每个时间点来看,蓝车未来的行为都会受到其认定的红车的未来行为的影响,相应的,红车更关心的也是一个“what if”的问题:如果我加速抢路权,蓝车让我还是撞到我的概率分别会有多大。这就是为什么在复杂交互场景中,我们真正需要的是回应预测,就是基于预测实体及其周围实体的历史运动,以及本车的未来运动来给出被预测实体未来可能的回应行为。文章[4]正是针对回应预测问题给出了一种层级式逆强化学习的解决方案。
图2. NGSIM dataset中典型的复杂交互场景 [2]
实体数量可将预测问题区分为单实体和多实体预测。目前多数研究者关注的是单实体预测问题,即预测结果只对应于一个被预测对象,然而在复杂交互场景中,我们常常关心多个实体未来行为的联合概率分布。而且特定类型的预测方法(如基于神经网络的算法)很难解决交互场景下的回应预测问题,反倒很适合解决多实体预测问题,这样我们就可以借助多实体预测问题和回应预测问题之间的联系,将回应预测问题转变为包含着本车的多实体预测问题加以解决。文章[5]和[6]就是将本车纳入多实体预测问题,进而获得交互场景下本车与被预测车辆未来行为的联合概率分布,用以刻画其交互行为。
运动表达及其简化方式对于预测算法的输入输出的形式都有着根本的影响,由于内容较为复杂,我们在下一个单独的章节中予以阐述。
怎样表达运动并简化
我们一般用带有空间和时间信息的轨迹来描述实体的运动,一段时间内实体的运动轨迹被定义在极其高维的空间上,因而在复杂交互场景中,想要描述各个实体的轨迹的概率分布是很困难的,所以研究者经常试图将运动的表示进行简化,以便获取其概率分布。
连续运动可包含实体的位置,速度,加速度和方向等信息,尽管描述实体一段时间的轨迹的概率分布极为困难,仍然有两种方式能帮我们实现这一描述。第一种方式是时间轴上的简化,即每次只考虑一个时间步的连续运动的概率分布,例如在文章[3]和[5-7]中通过一个一个时间步的演进来获取整个轨迹的概率分布,即便如此,我们仍然希望尽量降低单个时间步的状态空间维数。另一种方式是通过一些强假设给出一串轨迹及其概率分布之间的对应关系,如[4]中的带噪理性人(noisily rational)假设,就可以通过代价函数的学习帮助我们获取一整段时间轨迹的概率分布。
运动模式(motion pattern)是研究者为了简化运动的描述而定义的一些离散量,大体上可分为路线(route)、路权(pass-yield)和细微(subtle)模式这三个层级。实体的预定路线一般不受周围实体和环境的影响,定义也比较清晰,路线预测问题一般也可以转化为分类问题来解决和评价。路权模式体现出有路权冲突的实体间的先后关系,结果很大程度上受到动态交互过程的影响。细微模式一般定义不明确,但有助于分析交互过程。在很多高度动态的场景中,实际问题可能更为复杂,我们经常要同时预测不同层级的运动模式以及连续运动,而且我们关心的经常是一些带有语义信息的离散或连续的量,比如被预测车辆到底要塞进哪个空(如图3所示),变道还有多少时间完成,以及变道完成的时候该车辆在当前空的位置等等,文章[5]中便给出了一个解决对于带有语义信息的量进行概率预测的统一框架和方法。
图3. 带有语义信息的预测 [5]
运动模式和意图的区别是一个经常被研究者忽略的问题,但这个问题在定义预测问题的真值和数据标签的形式的时候是极其重要的。我们可以回看一下前面那个从NGSIM dataset抽取的两辆车争抢上匝道路权的那个过程,如果我们只从路权模式和红车的所谓“意图”方面来考虑,很容易就会给整个交互过程打上一个“红车先走”的标签和真值,但这明显是不能准确反映整个交互过程的。在整个交互过程的大部分时间里,两个司机头脑中的“意图”很可能都是“我想先走”,所以有20秒左右的时间两车都是寸步不让,给这20秒的时间打上“红车先走”的标签是明显不符合事实的,而且事实上我们永远都不知道这两个司机头脑中每时每刻的真实“意图”,这个信息是不能拿来当做真值的。所以在这样的复杂交互场景中,只有运动轨迹或者基于运动轨迹得到的细微运动模式才能被拿来当成每一时刻的真值。
离散化时空运动表达包括典型轨迹(prototype trajectory)、可达集(reachable set)和栅格(occupancy grid)等,可以将连续运动进行离散化表达,继而方便概率分布的获取。其中典型轨迹和可达集能够帮助我们获取特定运动模式的离散时空表达,文章[2]中对于定义好的运动模式,采用了典型轨迹来表示时空运动,并通过归一化获取典型轨迹在各种方法得到的概率分布中的概率。
用什么方法解决问题
前面两个章节主要是为了加深我们对问题本身的理解,下面要讲到我们可以用什么方法来解决这些问题。预测领域的算法和模型大体上可以分为三类,即神经网络模型、概率图模型和基于规划的预测模型。帮助我们解决问题的知识和信息主要有两个来源,一个是人类对于驾驶行为、地图信息、交通规则、车辆动力学等先验知识,一个是采集到的真实交通场景中的运动数据。大体上来说,以上三类模型的设计对于先验知识的需求依次上升,而对于数据的要求则依次降低。下面将就研究团的近期文章中提出和运用的方法分类加以介绍。
神经网络模型是一种端到端的,多数情况下是黑箱的模型,即研究者在设计网络结构的时候,更多考虑的是模型本身的特性,而非先验知识。很多研究者在预测问题上应用神经网络的时候都是将其作为一种确定性的模型,近年来一些研究开始将概率模型纳入其中。如图4所示,文章[5]采用的做法就是将参数化概率分布中的参数作为全连接网络的输出,进而获取其概率分布,提出了一种对于带有语义信息的离散和连续值进行概率预测的统一框架和方法(可参考“基于语义意图的车辆行为预测”)。在文章[5]的基础上,文章[7]又引入了条件变分自编码器(conditional variational auto-encoder),通过让隐空间(latent space)的分布趋近于高斯分布,使得我们在隐空间分布中的采样可被转化为对于输出轨迹的采样,进而获取其概率分布(如图5所示)。
图4. 全连接神经网络的概率分布输出实现 [5]
图5. 条件变分自编码器的概率分布输出实现 [7]
概率图模型一般被作为概率在时间上演进或者各种事件和行为因果关系推导的框架,经常会与高斯混合模型或其他机器学习或行为模型一起使用。如图6所示,文章[3]将从数据中学到的行为模型融入混合粒子滤波框架中,提出了一种可自适应跟踪目标数量,无需观测与实体轨迹之间的显式数据关联(data association)的统一的跟踪框架。文章[6]则提出了一种基于双层隐马尔科夫模型和高斯混合模型相结合的层级模型来处理对于运动模式和连续轨迹的预测(如图7所示)。
图6. 遮挡车辆跟踪的粒子滤波框架 [3]
图7. 双层的隐马尔科夫模型 [6]
基于规划的预测模型一般从数据中学习特定的规划方法(如基于最优控制/数值优化的方法)中的某些重要参数,这些参数在一般的规划算法中通常是人为设定的。最典型的基于规划的预测模型便是逆强化学习(逆最优控制),主要是从数据中学习代价函数中的关键参数,进而通过带噪的理性人假设,把一段时间轨迹的代价数值转化为其概率分布。文章[4]提出了一种层级的逆强化学习方法来解决回应预测问题中的轨迹概率分布估计,切实地回答了如果本车做出某种行为,其他实体可能会怎样回应这一难题。逆强化学习的应用也不仅限于此,文章[8]量化了“礼貌”这一驾驶行为中的社会性因素,并将其嵌入规划的代价函数中,通过逆强化学习从数据中获取对应于“礼貌”相关项的参数,使得自动驾驶车学到礼貌的行为,同样的方法也可用于对于有人车辆社会化行为的建模中(可参考“无人车,请礼貌驾驶”)。
怎样评价预测效果
最后我们要讲到的是怎样评价预测的效果。预测领域典型的评价方式一般是从数据拟合(data approximation)的准确性的角度来考虑,常用的度量(metric)有均方误差、似然率(likelihood)和KL散度。这种评价方式相对直观,操作简便,一定程度上或单纯从数据角度来说也反映了预测的效果。但是做预测的根本目的并不是拟合数据集,而是服务于后续的决策规划模块,所以在评价预测算法的时候,是有必要充分考虑不准确的预测被决策规划模块采纳后所产生的负面影响,这也是文章[2]想讨论的核心内容。
数据拟合的度量本身也存在着一些问题。均方误差不能准确反映多模态(multi-modal)分布拟合的准确性是大家公认的问题,而且对于轨迹很小的扰动在均方误差上几乎无法体现出变化,却有可能使得轨迹从无碰撞变为有碰撞,或者从符合车辆动力学变得不符合,事实上天差地别。似然率能反映真值轨迹处的概率准确程度有多好,却无法反应非真值处的预测会有多差。KL散度需要有轨迹的概率分布的真值,而这一信息在实际数据中是很难拿到的。文章[2]把概率分布的评价从轨迹空间转移到运动模式的概率空间上,使用Brier Score这一概率预测领域常用的度量来避免前述的这些问题。
考虑后果的度量(fatality-aware metric)是文章[2]提出的一种考虑了不准确的预测被决策规划模块采纳后所产生的负面后果的度量方式。基本想法就是,如果预测算法给出了明显比其他实体真值轨迹更危险更激进的轨迹,那意味着决策规划模块的输出会因此更保守以避免实际上不会发生的碰撞,所以预测结果越是比真实情况危险和激进,意味着从后果角度来说其保守性越高;类似地,如果预测算法给出了明显比其他实体真值轨迹更礼让的轨迹,那意味着决策规划模块的输出会因忽略掉本来存在的危险而更激进,没有采取本应是防御性的驾驶策略,所以预测结果越是比真实情况更礼让,意味着从后果角度来说其非防御性越高。文章[2]通过定义后果上的保守性和非防御性,以及保留真值处的拟合准确性,定义了考虑后果的度量。
文章[2]将三类主要的预测方法(神经网络、概率图、基于规划的预测)纳入到统一的评估框架中,通过实现混合密度网络(mixture density network),隐马尔科夫模型和逆强化学习(逆最优控制),并将其结果统一为回应预测的条件概率,从数据拟合度量和考虑后果的度量两个角度来评价几种典型的概率预测方法。结果表明,三种方法在真值处的总体概率依次降低,即数据拟合能力依次降低,对于这个结果我们并不意外,因为神经网络有更多的可学习参数和更强的数据表达能力,逆最优控制中的可学习参数最少,而且神经网络和隐马尔科夫模型的训练的度量就是真值处的似然率。然而如果考虑了采纳预测的后果,逆最优控制反倒有最好的表现,很可能的原因是逆最优控制其规划器(planner)结构本身就带有很强的先验知识,不容易对训练数据出现过拟合,输出的概率分布虽然在真值处并没有很高,却不容易输出明显不符合实际情况的,可能导致本车极为保守或非防御的预测结果,使其在实际使用中反而可能有更好的表现。
参考文献
[1] W. Zhan, A. de La Fortelle, Y.-T. Chen, C.-Y. Chan, and M. Tomizuka, “Probabilistic Prediction from Planning Perspective: Problem Formulation, Representation Simplification and Evaluation Metric”, IEEE IV 2018. (https://ieeexplore.ieee.org/abstract/document/8500697)
[2] W. Zhan, L. Sun, Y. Hu, J. Li, and M. Tomizuka, “Towards a Fatality-Aware Benchmark of Probabilistic Reaction Prediction in Highly Interactive Driving Scenarios”, IEEE ITSC 2018. (https://arxiv.org/abs/1809.03478)
[3] J. Li, W. Zhan, and M. Tomizuka, “Generic Vehicle Tracking Framework Capable of Handling Occlusions Based on Modified Mixture Particle Filter”, IEEE IV 2018. (https://arxiv.org/abs/1809.10237)
[4] L. Sun, W. Zhan, and M. Tomizuka, “Probabilistic Prediction of Interactive Driving Behavior via Hierarchical Inverse Reinforcement Learning’’, IEEE ITSC 2018. (https://arxiv.org/abs/1809.02926)
[5] Y. Hu, W. Zhan, and M. Tomizuka, “A Framework for Probabilistic Generic Traffic Scene Prediction”, IEEE ITSC 2018. (https://arxiv.org/abs/1810.12506)
[6] J. Li, H. Ma, W. Zhan and M. Tomizuka, “Generic Probabilistic Interactive Situation Recognition and Prediction: From Virtual to Real”, IEEE ITSC 2018. (https://arxiv.org/abs/1809.02927)
[7] Y. Hu, W. Zhan, and M. Tomizuka, “Probabilistic Prediction of Vehicle Semantic Intention and Motion”, IEEE IV 2018 (Best Student Paper Award). (https://arxiv.org/abs/1804.03629)
[8] L. Sun, W. Zhan, M. Tomizuka, and A. Dragan, “Courteous Autonomous Cars”, IEEE/RSJ IROS 2018. (https://arxiv.org/abs/1808.02633)