博弈论在自动驾驶方向的应用(Ⅰ):变道决策的综述

  今天发生的许多事故都是人类驾驶员错误的感知和决策造成的。由于准确的风险评估对于防止碰撞至关重要,因此,自动驾驶被认为可以大大减少此类错误。虽然目前的系统已经成功地应用于在真实环境中寻找路径和探测障碍物,但是碰撞仍然会发生。因此,必须更加重视实时准确的风险评估。现有的大多数风险评估方法预测轨迹,然后检测可能的碰撞。然而,这种方法会产生巨大的计算成本,并检查所有可能的轨迹。一个有用的建议是,只有在检测到异常或危险的操纵(Lefèvre et al.,2012a)或交通状况被标记为危险时,才执行轨迹计算和碰撞检查,而不是详尽地计算和预测每个历元(感应周期)的其他交通参与者的轨迹从运输工程的角度来看。
  还应利用适当的数学基础,如贝叶斯博弈论(Harsanyi,1967);此类概念已成功地应用于机器人学中的许多基于agent的问题中(Antoniades等人,2003;Emery Montemerlo,2005)。这种方法有助于实时处理交互作用,例如在交叉口、汇入交通流或在感知受限的情况下超车。

PAPER:A REVIEW OF GAME THEORY MODELS OF LANE CHANGING

摘要:变道决策已经成为驾驶行为分析的重要组成部分,基于博弈论的变道模型强调了驾驶员之间的相互作用,与其他经典模型相比,它能更真实地展现驾驶行为。然而,博弈论描述人类驾驶员变道策略的潜力目前被低估了。本文旨在回顾博弈论模型的最新发展,并根据其不同的方法和特点进行分类。它们既适用于人类驾驶汽车,也适用于自动驾驶汽车(AV)。
  研究人员只能在真实的轨迹数据中观察后果,而不能观察驾驶员的动机,所以建立决策模型较为复杂。强化学习和逆强化学习可以通过模拟人类的决策训练控制器。博弈的方法常用于模拟驾驶员之间的竞争和合作关系,可以不用长时间的训练,同时可以考虑到驾驶员的偏好。
  博弈中主要包括三个主要元素:玩家、策略、收益。如果缺少博弈中的元素,则被称为非完全信息博弈,即使知道完整的局面信息,也可能不知道对手的Beliefs(在棋牌游戏中通常表现为对手手牌未知),这种状态称为非完美信息博弈,Harsanyi转换可以将非完全信息(imcomplete)转化为非完美信息(imperfect)博弈再进行求解。
  常见的博弈优化算法包括完美贝叶斯均衡、进化博弈论等,有了这些优化方法,我们假定道路上的驾车者倾向于最大化他们在各种因素影响下的的效用(utility),例如安全性和时间。换句话说,我们认为自私的司机害怕与他人相撞,但他们也为节省时间和金钱而贪婪。如果他们是无私的,他们可能会考虑在大多数时间呆在自己的车道上,以不打扰拥挤的交通,提高交通效率和容量。在动态环境下,驾驶员可能会改变当前的策略使自己的收益最大化,可以假设,驾驶员们使用不同策略,整个交通系统可以达到一个平衡。

这个文章回顾了基于博弈论的变道模型。主要分为以下几点:

  1. 确定驾驶员在行为中获得的效用值,显示变道策略会受到驾驶期望速度、车道选择和交通条件的影响,并给出效用近似公式。
  2. 关于LC决策模型的早期讨论是从基于规则的模型开始的,这些模型主要从操作(执行)层面研究驾驶员的活动。
  3. 在存在多个纳什均衡的时候,LC决策需要在均衡点中做出选择。
  4. 博弈论更好地描述了驾驶员之间的相互作用,因此最近有许多LC模型与GT相结合
    博弈论在自动驾驶方向的应用(Ⅰ):变道决策的综述_第1张图片
    博弈论在自动驾驶方向的应用(Ⅰ):变道决策的综述_第2张图片

1)Basic form GT-based models
Kita首次提出在匝道路段合并和让路的博弈模型
博弈论在自动驾驶方向的应用(Ⅰ):变道决策的综述_第3张图片
这种交互过程是由一个非合作博弈描述的,该博弈假设具有完全信息,这意味着驾驶员了解彼此所采用的所有策略和收益矩阵。为了估计矩阵,可以通过测量碰撞时间(TTC)和前进时间来计算收益的值。

2)Classic Nash Equilibrium Model
Liu认为Kita将速度假设为常值是不真实的,并且让路策略通常发生在并道之前,因此,传统博弈论框架应该改进为多个均衡解,Liu提出了另一个博弈论匝道模型,具有更现实的行为规则。他将速度变化和时间考虑进收益函数,假设驾驶员并不只是最小化风险,收益函数的参数是通过求解一个最优双水平问题来估计的,该问题的下层为纳什均衡,上层为如式所示的总偏差的非线性最小函数。

3)Incomplete Information Game Model
考虑到驾驶员可能无法获得关于对手判断(belief)的足够信息,另一种类型的模型建立为不完全信息LC博弈。它运用了Harsanyi变换,将自然作为参与者之一(但没有任何回报)来确定参与者的判断。之后,转变后的游戏以一种扩展的形式呈现出来。为了找到具有不确定信念的解决方案,通常使用贝叶斯纳什均衡首先假设一种belief的可能性,如强制性LC或自由选择LC,然后探索在何种情况下驾驶员可以优化他们的策略。这些模型已被用于预测模拟环境和真实场景中的驾驶员行为。

4)Sequential Game Model
考虑到驾驶员的响应可能是序贯式的,Yu实现了一个集成控制器,其中包含一个下层控制器(负责车辆跟随和车道保持)和上层控制器(负责变道)。高层规则是基于博弈论来实现驾驶员何时以及如何采取行动的意图。文章使用Stackelberg博弈进行模拟。

5)EGT-based models
基于EGT模型的LC的研究较少。一般来说,LC模型中的进化博弈理论倾向于从整个社会的角度来解释驾驶员的渐进合作交互。Cortés-Berrueco等(67)假设所有agent都能够进行自我安排,实现与他人合作的进化,然后将其放入概率元胞自动机(CA)模型GLAI控制下的交通仿真中,以更新所需的关键信息。在实验中,决定合作策略的玩家将支付另一个玩家作为奖励而获得的成本。此外,玩家的合作概率将随着他们对进化稳定策略的行为而更新。

Conclusion: 本文总结了一些主流的微观变道模型,并与博弈论的变道模型进行了比较,以说明人们交互的重要性。我们认为,基于博弈论(GT)的LC模型的潜力目前被低估了,它还需要进一步探索,包括对变道动机的现实性分析和理论模型的实用性研究。GT模型关注的是信息结构下的人们交互过程,与其他模型相比具有优势。GT逻辑不是直接设定控制器的标准或规则,而是取决于其他玩家的行为。目前基于gt的LC模型已经发展了几十年,但模型的改进还需要进一步的研究。首先,收益函数作为GT的核心,需要根据影响驾驶员选择的因素进行综合估计。微观效用理论,考虑个体的异质性与适当的规范是首选。为了校正和验证LC模型,需要更详细和充分的交通数据。未来的精确数据集可以通过改进GPS和智能手机收集的现场数据等创新来开发,或者更好的是,AV传感器,这将极大地促进现有和未来LC模型的发展。预计未来基于gt的LC模型将被修改,以配合(或整合)一些知名的汽车跟随模型,或直接适应交通模拟工具。

参考:1.https://baijiahao.baidu.com/s?id=1688087635863893677&wfr=spider&for=pc
2.https://zhuanlan.zhihu.com/p/393906132

你可能感兴趣的:(博弈论在自动驾驶方向的应用(Ⅰ):变道决策的综述)