(翻译)Decision-Making in Driver-Automation Shared Control

人机共驾(Shared Control)中的决策:回顾和展望

摘要

共享控制框架可以让人类驾驶员与自动驾驶智能体一起工作,同时保持驾驶员的控制能力。人类驾驶员作为人机共驾系统中的重要主体,需要对其认知过程、控制策略和决策过程进行精确建模。由于人的内在特性,驾驶员与自动驾驶智能体之间的交互策略设计给以人为中心的驾驶辅助系统带来了极大的挑战。出现了许多开放式问题,比如人类驾驶员在共享控制框架中扮演什么适当的角色?如何在共享控制框架中做出能够平衡智能体收益的智能决策?由于这些关注点和问题的出现,我们有必要对人类驾驶员和高度自动化车辆之间的决策进行调查,以了解他们的体系结构、人机共驾中的驾驶员模型和交互策略。最后,我们对未来的主要挑战和机遇进行了进一步的讨论。它们可能是新的研究方向。

引言

强大的技术促进了自动驾驶汽车的发展,这些技术可以防止交通事故,提高交通效率,并使汽车为每个人所用,但在实现完全自动驾驶的道路上仍存在许多社会和技术障碍。克服这些挑战能使自动驾驶汽车在高度复杂的驾驶环境中安全驾驶,而这可能还需要一些时间才能达到。类似于自动化程度,从完全的人类控制到完全的计算机控制,国际汽车工程师协会(SAE)定义了五个级别来描述自动驾驶车辆的自动化程度,并已被美国国家公路交通安全管理局(NHTSA)采纳为政府的官方标准。作为向自动驾驶汽车过渡的一种方式,由人类驾驶员和自动驾驶智能体共同完成一项驾驶任务的部分自动驾驶汽车成为全自动汽车时代到来之前的折衷方案。自动驾驶的第三级(L3),称为有条件自动驾驶,使车辆能够在全自动驾驶和全手动控制之间相互转换,但这会降低车辆的性能,尤其是当车辆控制权从汽车转移到司机手中时。由于驾驶员需要一段过渡期才能恢复驾驶的手感,当驾驶员没有积极参与该过程以重新获得当前驾驶状况时,这往往会对驾驶员的操作带来困难。研究表明,车辆自动化会损害脑力劳动和情境感知能力,而驾驶员的反应时间也会随着自动化水平的提高而变长。另一种自动驾驶被称为半自动驾驶,在半自动驾驶中,自动化系统不会完全控制汽车,也就是说,驾驶员应该盯着前方道路,尽管驾驶员既不控制油门,也不控制方向盘。然而,在低级别的监督任务中,人类会感到无聊和分心,并且会对自动驾驶系统表现出过度信任、疏忽和满足感,这样一来,在危急情况下驾驶员需要很长时间才能从自动化系统恢复对汽车的控制。因此,Gordon和Lidberg认为,半自动驾驶并不能缓和预测交通危险的压力。

人与自动驾驶智能体的交互是人机交互(HRI)的一种,其中最有影响力的概念之一是监督控制。监督控制通常包括人类监督者设定目标,而自动驾驶智能体通过控制来实现目标。然而,在这种情况下,实际上很难在人类监督者和智能体之间建立共同控制。Sheridan和Verplank定义了两个子概念来进一步解释监督控制的概念。一种是交换控制(traded control),它要求人和计算机同时处于活动状态;另一种是共享控制(shared control),在这种控制中,一会儿计算机是活跃的,另一会儿人是活跃的。

共享控制方案提供了一种易于处理的范例来解决L3中的驾驶权限转换问题。它的特点是实现了人类驾驶员和自动驾驶智能体之间的持续的权限交替。尽管自动驾驶的授权级别是在2016年发布的,但其中潜在的共享控制概念已经被引入其他领域。共享控制方案中的每个智能体可以在执行特定的驾驶任务时发挥它们的优势。众所周知,人工控制容易出现人为错误;另一方面,全自动任务目前在决策和环境感知方面受到大量约束。为了充分挖掘人和自动化的潜力,同时克服从汽车到司机过渡的障碍,Mulder等人提出了提出了一种完全不同的控制方案,即共享控制系统。人类驾驶员和自动驾驶智能体持续共享并协作完成特定的驾驶任务,从而允许驾驶员在保持一致控制的同时享受驾驶。此外,共享控制方案可以协同人类与生俱来的能力和技术能力,使我们能够充分发挥自己的潜力。先前的研究实验表明,保持驾驶员的触觉控制权在环路中,并向驾驶员提供连续的触觉反馈,不仅比传统的监督和手动控制之间的简单切换效果更好,而且还减少了驾驶员对次要任务的分心和工作量。图1展示了一个驾驶员车辆系统,在该系统中,人类驾驶员和自动驾驶智能体协作共享并实现相同的驾驶任务。在手动控制上施加共享控制在车道保持辅助和转向辅助系统等许多应用中显示出优势。

(翻译)Decision-Making in Driver-Automation Shared Control_第1张图片

从某种意义上说,人车共驾是一种驾驶员辅助系统,从这个角度看,它包括三类辅助:感知增强(perception enhancement ,如信息辅助)、行动建议(action suggestion,如决策或行动选择)和功能委派(function delegation,如行动实施)。前两种类型已有前人的综述性介绍,但第三种类型除外,在第三种类型中,人类驾驶员和自动驾驶智能体都可以同时向车辆施加输入,以执行特定的任务,例如主动转向辅助系统。一个设计良好的驾驶员车辆共享控制系统应该允许所有参与的智能体(包括人和计算机)彼此非常了解,这需要解决以下基础研究问题:

  1. 随着环境的变化,人类驾驶员应该在共享控制系统中扮演什么样的角色?
  2. 如何根据两个智能体的能力分配驾驶职责和权限?
  3. 如何在线评估驾驶员和自动驾驶智能体之间互相信任的级别?
  4. 人类在不断变化的环境中适应和学习的时间尺度是什么?
  5. 有什么新的驾驶员状态和意图的系统识别技术可以让我们研究时变的、可能是非线性的共驾系统?

虽然已经有很多文献针对具体的课题进行了研究,但还没有一篇论文对这些研究问题进行全面的回顾和讨论。为了弥补这一断截,我们通过回顾200多篇与关键字密切相关的文献,对共驾系统中的决策方案设计和人类驾驶员建模领域进行了概述。这些关键字包括:共享控制、驾驶员模型、共享认知控制、自动驾驶和人机自动化/机器人/计算机交互。我们没有回顾决策和控制器设计的严格数学算法,而是主要关注决策的方案设计、驾驶员建模以及共享控制系统中潜在解决方案等公开议题,从而使从事这一研究课题的研究人员受益。由于篇幅所限,其他一些相关的心理学和人体工程学的文献只是部分涉及和参考,而没有进行深入的讨论。第二节描述了驾驶员-车辆共享控制系统的底层架构。第三节从最新文献中回顾了人车共驾系统中两个智能体的决策问题。第四节详细介绍了驾驶员的建模。第五节展示和讨论了一些开放式的、具有挑战性的、不可避免的科学问题。第六部分为进一步的讨论和结论。

人车共驾框架

在进行深入回顾之前,我们首先讨论人车共驾系统的体系结构。由人类驾驶员和自动驾驶智能体组成的共享控制系统被称为,能够接受和执行来自人类驾驶员或自动驾驶智能体、或两者的组合的命令的双智能体系统。根据驾驶员在人车共驾系统中所扮演的角色,共享控制可以发生在两个不同的层次:任务层和伺服层(如图2所示)。

(翻译)Decision-Making in Driver-Automation Shared Control_第2张图片

任务层共驾

在任务层共驾方案中,人类驾驶员通常充当向导,将特定任务的命令传递给自动驾驶智能体。也就是说,驾驶员可以向自动驾驶智能体分配子任务,同时授权其他子任务来实现完整的驾驶任务。自动驾驶智能体获知子任务后,根据当前情况和预定义的算法执行子任务,与驾驶员协同完成整个驾驶任务。任务层共驾充分利用了机器和人类的力量,可以减轻人类的驾驶负担。一个非常直观的例子是,当在高速公路上行驶时,人类驾驶员手动激活自适应巡航控制(ACC)系统,将纵向控制权限分配给ACC,同时授权他/她自己进行横向控制。

伺服层共驾

在驾驶员-车辆系统中,伺服层共驾通常集中在伺服控制上。车辆的控制输入 u s u_s us通常是驾驶员的操作 u h u_h uh和自动驾驶智能体的输出 u c u_c uc的组合,如图2(b)所示。在伺服层共驾中,不同于由自动驾驶智能体接管特定任务控制的任务层共驾,驾驶员总是在伺服层参与车辆运动的控制过程。人工驾驶员和自动驾驶智能体的输出的组合应该要定义好,类似于人与机器人共同控制,研究人员通过以下方式直观地将它们结合在一起:

u s = λ u h + ( 1 − λ ) u c (1) u_s=\lambda u_h+\left(1-\lambda\right)u_c\tag{1} us=λuh+(1λ)uc(1)

其中 λ ∈ [ 0 , 1 ] \lambda\in\left[0,1\right] λ[0,1]是调整 u h u_h uh u c u_c uc的系数。人工驾驶和自动驾驶智能体的驾驶权限分配由 λ \lambda λ决定,它可以是固定的,也可以是自适应变化的。当 λ = 1 \lambda=1 λ=1时,实现纯人工控制;当 λ = 0 \lambda=0 λ=0时,实现纯自动控制。因此, λ \lambda λ的值可以通过确定驾驶员是否出现在回路中来影响共享控制方案。该参数可以手调,并能自动地基于驾驶员的状态进行调制,以便在某些情况下驾驶员能更快速和安全地驾驶。 λ \lambda λ的设计将在第三节中讨论。

( 1 ) \left(1\right) (1)中人类驾驶员的智能体的线性组合不同输入不同,人们还提出了一些概率模型,通过考虑交互中的不确定性,将这种组合建模为联合概率分布。

在不同的伺服系统中,组合 u h u_h uh u c u_c uc的方法是不同的。因此,伺服层共驾可以进一步分为直接共享控制和间接共享控制。

直接共享控制

直接共享控制允许人类驾驶员和自动驾驶智能体同时在控制接口上施加动作,其输出仍然是车辆系统的直接输入,如图2(b)所示。这样的系统通常是触觉共享控制,因为人类驾驶员和自动驾驶智能体都将直接影响触觉控制面板上的输入(例如,方向盘和刹车或油门)。此外,人类驾驶员甚至可以通过共享的触觉控制面板感知自动驾驶智能体施加的辅助扭矩。Boehm和Ghasemi的Architectures for shared control of vehicle steering中可以看到触觉共享控制的一般架构。

间接共享控制

与直接共享控制方案不同,间接共享控制方案形成受控车辆系统的输入,是通过把控制接口的输出(通常是人为操作的结果)和自动驾驶智能体的输出混起来,形成 u s = g ( r h , r c , u h ) u_s=g\left(r_h,r_c,u_h\right) us=g(rh,rc,uh),如图3所示。人车系统中的一个典型应用是线控转向(steer-by-wire, SBW)系统,它根据驾驶员的操作估计驾驶员期望的转向角,然后生成转向角并将其直接应用于前轮。

(翻译)Decision-Making in Driver-Automation Shared Control_第3张图片

伺服层共享控制方案中的决策

本文主要研究的是伺服层共享控制方案中的决策问题,而不是任务层的共享控制方案。一个描述得良好的人-车系统的模型可以让人更好地理解每个子系统是如何工作的,以及它们之间的关系是什么。一些研究人员认为,驾驶员建模应该整合到道路-车辆系统中以达到控制的目的,以增进驾驶员与自动化系统之间的相互理解。因此,人在回路(driver-in-the-loop, DIL)车辆模型通常被合并到共享控制系统中,然后从控制的角度描述完整的DIL系统。

为此,首先,通常使用状态空间表示来建立道路-车辆动力学模型,

x ˙ = A x + B ( u c + u h ) + B w w (2) \dot{\pmb{x}}=A\pmb{x}+B\left(u_c+u_h\right)+B_ww\tag{2} xxx˙=Axxx+B(uc+uh)+Bww(2)

其中 x \pmb x xxx为道路-车辆系统状态变量, A A A为道路-车辆系统矩阵, B B B为道路-车辆系统输入矩阵, B w B_w Bw为系统扰动矩阵, u c u_c uc为控制器输入, u h u_h uh为驾驶员输入, w w w为系统扰动。然后,从控制的角度将人类驾驶员表示为

u h = H ( r h , x ) (3) u_h=\mathcal{H}\left(r_h,\pmb{x}\right)\tag{3} uh=H(rh,xxx)(3)

其中 r h r_h rh是驾驶员的期望轨迹或参考轨迹。 H ( r h , x ) \mathcal{H}\left(r_h,\pmb{x}\right) H(rh,xxx)表示人类驾驶员模型,可以从控制角度随机角度认知角度来表示,这将在第四节中讨论。面向转向系统控制(或侧向控制、路径跟踪控制)应用的驾驶员模型是驾驶员模型的一些典型代表,因为很容易将它们集成到基于状态空间的车辆模型中。人类驾驶员通过其内在模型(internal model)比较期望轨迹和当前轨迹,从而输出他们的操作并应用于车辆。内在模型可以估计目标车辆的当前/未来的状态和周围对象(例如,车辆、行人和自行车手)的轨迹。将 ( 3 ) \left(3\right) (3)代入 ( 2 ) \left(2\right) (2),可以用新的状态空间表示法来表示驾驶员-车辆模型(即,DIL模型)

z ˙ = A D I L z + B h u h + B w w (4) \dot{\pmb z}=A_{DIL}\pmb z+B_hu_h+B_ww\tag{4} zzz˙=ADILzzz+Bhuh+Bww(4)

其中 z \pmb z zzz是由人类驾驶员模型状态变量和道路-车辆系统状态变量组成的增广状态变量, A D I L A_{DIL} ADIL是驾驶员-车辆系统矩阵, B h B_h Bh是人的输入矩阵, B c B_c Bc是控制器输入矩阵。基于状态空间表示的常见DIL模型可以在一些相关研究和论文中找到,表1展示了一些常见的例子。

(翻译)Decision-Making in Driver-Automation Shared Control_第4张图片

状态空间DIL模型提供了评估共享控制系统稳定性的分析方法和设计控制器的标准方法。一个设计良好的共享控制系统的决策者和控制器应该在不与人类驾驶员发生任何冲突的情况下帮助人类驾驶员安全、平稳地行驶。基于合并的DIL模型,给定期望的轨迹/参考和驾驶员的操作,可以通过求解一般形式的最优问题来获得最优控制器输入

u c ∗ = a r g min ⁡ u c J ( ⋅ ) (5) u_c^*=arg \underset{u_c}{\min} J\left(\cdot\right)\tag{5} uc=argucminJ()(5)

其中 J ( ⋅ ) J\left(\cdot\right) J()包含人类驾驶员的输入和其他约束(例如,车辆动力学和人类驾驶员的身体限制)的目标函数。要解决人驾驶和自动控制器之间的优化问题,最大的挑战之一就是用公式表示 u c u_c uc u h u_h uh u s u_s us之间的关系,比如说控制权的分配,即参数 λ \lambda λ的表述。在下文中,共享控制策略可以根据先验知识或动态规划来制定。在此基础上,提出了两种设计决策策略的方法:基于规则的决策策略和基于博弈论的决策策略。

基于规则的决策

对于基于规则的决策,一种直接的方法是符合设计 λ ( t ) \lambda\left(t\right) λ(t)的要求来使用(1)。大多数研究根据先验知识预先定义了一种不同的规则,大致可以分为三类,讨论如下。

分段函数(piecewise function

由于动态环境和干扰的复杂性,采用基于规则的分段函数设计 λ ( t ) \lambda\left(t\right) λ(t)是一种直观的方法。分段函数最初是为了解决轮椅和工业机器人等机器人中的共享控制问题而开发的,后来由于其在控制器设计方面的健壮性和实用性而被引入到智能车辆中。例如,Jiang和Astolfi定义了三个空间集,通过判断安全级别将可达集分为三个部分:安全、接近和危险。相应地,提出了一个由安全 R s \mathcal R_s Rs、滞后 R h \mathcal R_h Rh和危险 R d \mathcal R_d Rd组成的三级分段函数来设计 λ ( t ) \lambda\left(t\right) λ(t)

λ ( t ) { f 1 ( x ( t ) , u h ( t ) , u c ( t ) ) , ( x ( t ) , u h ( t ) ) ∈ R s f 2 ( x ( t ) , u h ( t ) , u c ( t ) ) , ( x ( t ) , u h ( t ) ) ∈ R h f 3 ( x ( t ) , u h ( t ) , u c ( t ) ) , ( x ( t ) , u h ( t ) ) ∈ R d (6) \lambda \left( t \right)\left\{ \begin{array}{l} {f_1}\left( \pmb x\left(t\right),u_h\left(t\right),u_c\left(t\right) \right),\left(x\left(t\right),u_h\left(t\right)\right) \in \mathcal R_s\\ {f_2}\left( \pmb x\left(t\right),u_h\left(t\right),u_c\left(t\right) \right),\left(x\left(t\right),u_h\left(t\right)\right) \in \mathcal R_h\\ {f_3}\left( \pmb x\left(t\right),u_h\left(t\right),u_c\left(t\right) \right),\left(x\left(t\right),u_h\left(t\right)\right) \in \mathcal R_d\\ \end{array} \right. \tag{6} λ(t)f1(xxx(t),uh(t),uc(t)),(x(t),uh(t))Rsf2(xxx(t),uh(t),uc(t)),(x(t),uh(t))Rhf3(xxx(t),uh(t),uc(t)),(x(t),uh(t))Rd(6)

如果人的行为“危险”,则反馈控制器(即自动驾驶智能体)开始作用并恢复控制权;如果人的行为“安全”,则车辆只对人的操作作出反应;如果人的行为在“滞后”集合中,则车辆在预先设计的共享控制律下运行。

此外,分段函数是一种考虑人的因素和驾驶情况的分析方法,它与人类的先验知识结合在一起。例如,Li等人利用两个分段函数分别基于其经验知识对驾驶状况和车辆表现进行评估,然后将这些分段函数融合为 λ ( t ) \lambda\left(t\right) λ(t)。Saito等人使用由人类驾驶员施加的方向盘扭矩的指数函数来估计辅助智能体应该提供多少扭矩。

指数函数(exponential Function)

获得光滑 λ \lambda λ函数的第二种方法是使用指数函数族:

λ ( t ) = 1 1 − e α 1 ( α 0 α s a f e − ζ ( t ) ) \lambda \left( t \right) =\frac{1}{1-e^{\alpha _1\left( \frac{\alpha _0}{\alpha _{safe}}-\zeta \left( t \right) \right)}} λ(t)=1eα1(αsafeα0ζ(t))1

其中 ζ ( t ) \zeta\left(t\right) ζ(t)是活性因子, α 0 \alpha_0 α0 α 1 \alpha_1 α1是可调参数, α s a f e \alpha_{safe} αsafe是保证安全和模型收敛的参数。指数函数在人机共享控制中得到了广泛的应用,并在此基础上引入指数函数来解决人机共享控制中的控制权转移和分配问题。例如,Sentouh等人将离散的驾驶员状态(驾驶员注意力不集中)集成到指数函数中,以获得连续的共享控制因子 λ ( t ) \lambda\left(t\right) λ(t)。Wang等人利用指数函数设计了一种考虑不同驾驶风格的共享转向控制律以提高车辆性能,减轻驾驶员在过弯道时的工作量。然而,当应用该指数函数时,应该考虑严谨一点,因为当分母在正负变化时,公式(7)的导数可能是不连续的。

为了确定共享控制系统的系数 λ \lambda λ,研究人员还结合分段函数和指数函数来评估人-机共享控制决策的安全水平。这种共享控制策略被精心借鉴,以提高人车共享控制性能。例如,Sentouh等人利用形如公式(7)的函数从离散的驾驶员嗜睡监测因子中获得连续的权限分配因子。此外,研究人员还提出了一些针对复杂、动态环境的概率共享控制策略,将人的意图和智能体都建模为概率函数,以指数函数的形式改善共享控制性能。

U形函数

另一种方法是基于U形函数直接计算驾驶员需要多少辅助,即驾驶员的工作量和性能之间的关系以及辅助需求,如图4所示。例如,Nguyen等人设计了辅助力矩 T a = μ ( a ) T s T_a=\mu\left(a\right)T_s Ta=μ(a)Ts,利用驾驶员活动的U形函数 μ ( a ) \mu\left(a\right) μ(a)来减轻驾驶员的工作量,提高车辆性能,其中 T s T_s Ts是车辆所需的输入扭矩, a a a是驾驶员的活动,表示为转向角。Oufroukh和Mammar也提出了一个类似的计算模型,在车道保持或避障动作中使用U形函数来计算辅助力矩。

(翻译)Decision-Making in Driver-Automation Shared Control_第5张图片

基于博弈论的决策

与采用预先定义好的共享控制律 λ ( t ) \lambda(t) λ(t)的基于规则的方法不同,一些研究人员将共享控制系统中的人类驾驶员和自动驾驶智能体视为有动态交互的两个对象,如图5所示。这个模型使得博弈论方法可以用来处理人类司机和自动驾驶智能体之间的关系。

(翻译)Decision-Making in Driver-Automation Shared Control_第6张图片

博弈论方法已被广泛应用于解决动态决策问题,即两个或多个智能体做出彼此影响收益的决策,如车辆对车辆、网格对车辆、十字路口的避撞。博弈论在司机行为和交通运输建模中的应用可以参考相关综述文献。Na和Cole对动态博弈进行了全面的分类,如图6所示。根据驾驶员和自动化智能体之间的交互类型,两个对象之间的动态博弈可以分为非合作博弈和合作博弈,如下所示。

(翻译)Decision-Making in Driver-Automation Shared Control_第7张图片

非合作博弈

司机和自动驾驶智能体将自己视为个体,专注于追求各自的关注点。更具体地说,在非合作博弈论中,驾驶员和自动驾驶智能体的策略类型可以利用纳什(Nash)均衡和斯塔克尔伯格(Stackelberg)均衡来推导。纳什均衡出现在这样的情况下,司机和自动驾驶智能体通过互相考虑对方的策略来推导他们自己的策略,并且他们同时采取行动。Stackelberg均衡出现在一个智能体(即人类驾驶员或自动驾驶智能体)是领导者而另一个智能体充当跟随者的情况下。

合作博弈

驾驶员和自动驾驶智能体具有集体感,并试图达成具有约束力的利益协议,其中双方的目标是一致的,他们的策略是从全局最优中得出。

通常情况下,假设两个主体对各自的目标是理性的。车辆由人工驾驶员和自动驾驶智能体控制,模型如下

x ˙ ( t ) = f ( t , x ( t ) , u c ( t ) , u h ( t ) ) (8) \dot{\pmb x}\left(t\right)=f\left(t,\pmb x\left(t\right),u_c\left(t\right),u_h\left(t\right)\right)\tag{8} xxx˙(t)=f(t,xxx(t),uc(t),uh(t))(8)

人类驾驶员和自动驾驶智能体的目标是最小化它们的目标函数:

u h ∗ = a r g min ⁡ u h J h ( t , x ( t ) , x h r e f ( t ) , u c ∗ , u h ) (9) u_h^*=arg \underset{u_h}{\min} J_h\left(t,\pmb x\left(t\right),\pmb x_h^{ref}\left(t\right),u_c^*,u_h\right)\tag{9} uh=arguhminJh(t,xxx(t),xxxhref(t),uc,uh)(9)

u c ∗ = a r g min ⁡ u c J c ( t , x ( t ) , x c r e f ( t ) , u c , u h ∗ ) (10) u_c^*=arg \underset{u_c}{\min} J_c\left(t,\pmb x\left(t\right),\pmb x_c^{ref}\left(t\right),u_c,u_h^*\right)\tag{10} uc=argucminJc(t,xxx(t),xxxcref(t),uc,uh)(10)

其中 J h ( ⋅ ) J_h\left(\cdot\right) Jh() J c ( ⋅ ) J_c\left(\cdot\right) Jc()分别是人类驾驶员和自动驾驶智能体的目标函数; x h r e f ( t ) x^{ref}_ h\left(t\right) xhref(t) x c r e f ( t ) x^{ref}_c\left(t\right) xcref(t)分别是人类驾驶员和自动驾驶智能体的期望/参考轨迹。目标函数(9)和(10)都取决于车辆状态 x \pmb x xxx和两个代理的输入 u c u_c uc u h u_h uh。这里,(9)和(10)可以相同也可以不同。表二列出了一些文献,使用博弈论来解决人类司机和自动驾驶智能体之间的驾驶权限的问题。我们注意到,自2011年以来,使用博弈论方法对人类司机和自动驾驶智能体之间的关系进行建模的方法已经被引入。

以(9)和(10)对称的情况为例,如果我们想要解决(10)中的优化问题,就必须事先知道驾驶员的输入 u h ∗ u_h^* uh。然而,人工驾驶员的动作也严格依赖于自动驾驶智能体的动作,如(9)所示。不同的假设可能导致不同的博弈论方案:

非合作纳什均衡(Noncooperative Nash )

其中自动驾驶智能体将补偿人类驾驶员的错误行为以模仿可能的相反效果,同时,人类驾驶员还将估计自动驾驶智能体的动作,并通过进一步改变她/他的输入来抵消其影响;

非合作斯塔克尔伯格均衡(Noncooperative Stackelberg)

其中自动驾驶智能体将补偿人类驾驶员的错误行为以模仿可能的相反效果,随后人类驾驶员将在他们非常了解自动驾驶智能体的动作时产生动作,反之亦然;

合作帕累托均衡

在这种情况下,人类驾驶员和自动驾驶智能体都会尝试考虑对方想要的轨迹,并且同时会对彼此的行为做出反应。

Nash均衡和Stackelberg均衡可用于求解驾驶员-车辆相互作用的紧耦合优化问题。无论是解析解还是近似解,都可以根据人类驾驶员和自动驾驶智能体的控制动作来推导。求近似解时,以下两个表达式成立:

u h ∗ ≈ u ~ h (11) u_{h}^{*}\approx \tilde{u}_h\tag{11} uhu~h(11)

u c ∗ ≈ u ~ c (12) u_{c}^{*}\approx \tilde{u}_c\tag{12} ucu~c(12)

例如,Flad等人引入了近似Stackelberg解来解决人类驾驶员和ADAS控制器(即automated driving agent)之间的问题,将其中一方视为领导者,另一方作为跟随者。Li等人利用纳什均衡设计了人-机共享控制的连续角色适应方案,其中人和自动控制器(即自动驾驶智能体)可以同时对机器人施加控制,而不是直接使用Stackelberg解。通过比较实测的驾驶员输入与预定义的纳什均衡之间的差异,设计了一种自适应律。此外,博弈论还可以通过随机动态规划解算器将来自人的驾驶和外部因素的不确定性整合到共享控制系统中。

虽然上述两种典型方法为我们提供了设计人类驾驶员和自动驾驶智能体之间共享控制策略的方法,但是当对驾驶状况感知和人类驾驶员意图的当前状态进行错误估计时,这两个智能体也可能无法合作。此外,设计不佳的共享控制策略甚至可能带来四个主要的不利影响:先验知识的缺失、盲目自信、互不信任和缺少适应性。因此,人车协同的研究必须考虑人的不确定性等特点,以减少与驾驶员的冲突。在接下来的内容中,我们将从不同的角度讨论如何对人类驾驶员进行建模。

人类驾驶员的建模

为了在人类驾驶员和高度自动化的车辆之间获得精心设计的共享控制交互,Norman指出,人必须始终处于控制回路之中,必须积极参与并充分了解信息,在复杂的人-车系统中,人和自动车辆必须正确理解对方的意图。因此,对于人-车共享控制系统来说,理解和建模驾驶员的感知动力学、认知过程、隐藏状态和操作特性与动态车辆系统同等重要。人类驾驶员通常在三个层面上完成驾驶任务(图7):战略(strategic)层面、战术层面和操作(控制)层面。前两个层次涉及认知,第三个层次涉及执行。本文在回顾已有文献的基础上,从驾驶员模型的功能模块、建模方法、意图推理以及状态检测等几个方面对驾驶员模型进行了介绍和讨论。

(翻译)Decision-Making in Driver-Automation Shared Control_第8张图片

功能模块

感知动力学

最近有研究表明,驾驶员的感官动态特性在驾驶员-车辆系统设计中起着重要作用,使驾驶员与车辆之间的互动更友好更安全。用于车辆速度和方向控制的驾驶员感知动力学主要包括(按常规驾驶任务的重要程度排序):

视觉

视觉系统是人类驾驶员检测道路轨迹的唯一手段。研究表明,视觉信息在正常驾驶过程中的重要性最高,约占所有感官信息的90%。驾驶员的视觉信息(例如,眼睛凝视)还可以反映驾驶员的潜在意图(例如,换道意图、准备接管自动化操作)、心理或身体状态(例如,疲劳检测)以及即将到来的动作。

前庭和运动感知

人类驾驶员通常使用来自前庭和动觉通道的运动信息(例如,车辆的加速度和旋转)作为视觉信息的补充来执行控制任务,这也有助于人类的手臂和躯干组合运动。

躯体感觉

用于控制车辆转向和速度的体感信息主要包括触觉,如油门/刹车踏板上的压力和方向盘上的转向力矩。

听觉

在正常驾驶过程中,听觉信息通常用作多声道环境中的辅助提示。

由于人类生理、生化、心理等方面的限制以及人类感知和处理信息的能力,感知动力学具有时滞、感觉限制和相干区等物理特征。一个整合了人类驾驶员感知动力学的驾驶员模型可以帮助理解人类,从而提高人-车共享控制系统的舒适性、安全性和可操作性,减少人与自动化之间的不相容或负面干扰。方向盘上的触觉信息被广泛应用于共享转向控制系统中,以减轻驾驶员的脑力和体力负担,提高驾驶技能。为了提高共享控制性能,有研究人员开发了一种感觉-运动驱动模型,该模型同时考虑了视觉和运动感知,并包括补偿和预测。

认知能力

John A. Michon从行为科学和心理学的角度来理解人类决策过程,提到了认知驱动模型。人类驾驶员做出的大部分决策都是过于离散的行为,比如选择是否/何时/如何换道。为了捕捉这些离散的特征,研究人员对人类驾驶员的高级战术(tactical)行为(例如,速度选择和决策)和战略(strategic)行为(例如,路线规划和导航)进行了建模。最常用的方法之一是基于“思维理性的自适应控制”(Adaptive
Control of Thought-Rational, ACT-R)认知,从认知的角度捕捉驾驶员控制行为的离散性。例如,Salucci等人。将ACT-R认知结构与认知驱动过程相结合,建立了完整的认知路径跟随驾驶员模型和换道驾驶员模型。

一些研究人员还开发了基于现有知识或对实验数据有新见解的认知司机模型。Misener等人开发了一种认知车辆跟踪模型,通过融合来自实验数据的现有知识来避免与停在前面的车辆发生追尾事故。Liang等人开发了一个系统,通过认知分析三个指标来实时检测司机的分心:如何定义注意力分散,哪些数据被输入到模型中,以及输入数据是如何汇总的。Liang还证明,将认知和视觉注意力分散结合起来比单独使用可以提高车辆性能。更多关于建模和分析司机认知注意力的文献可以查看相关参考文献。

基于认知驾驶员模型,可以在人-车共享控制的背景下潜在地提供认知辅助,以减少两个智能体之间的有害干扰。Cai和Lin提出了一种协调的认知辅助,以确定何时应该提供辅助以及转向辅助控制系统需要提供多少辅助。认知辅助分为三个阶段,帮助驾驶员获取信息、分析信息并做出决定、采取行动。

神经肌肉-骨骼动力学

已有的研究表明,神经肌肉骨骼动力学限制了感知-动作耦合的动力学,这一理解对于设计良好的共享控制系统非常重要,例如,避免人类驾驶员和自动化代理之间的微妙冲突。对于人类驾驶员来说,人-车系统中的神经肌肉-骨骼动力学主要包括手臂和脚,分别代表横向和纵向控制。

对于司机握住方向盘的动力学特性,Pick和Cole调查了司机施加反向固定偏移力矩的影响以及司机共同收缩肌肉的影响,发现这两个动作都会增加手臂的刚度和阻尼。然后建立神经肌肉系统、肌肉、四肢和车辆的线性模型,并将其应用于驾驶员模拟器、共享控制指南、路径跟随驾驶员车辆模型和驾驶员横向控制模型。此外,驾驶员神经肌肉动力学特性不同,受转向系统(如主动和被动)和手在方向盘上的位置的影响,在设计控制器时应考虑这些因素。

建模方法

控制论驾驶员模型

理解紧密耦合的驾驶员-车辆-道路系统的潜力和局限性绝非易事。表I列出了一些面向车辆动力学控制应用的流行驾驶员模型,并指出单/双视觉驾驶员模型或其扩展模型是非常受欢迎的,因为它们易于与车辆模型集成。然而,最重要的限制之一是,单/双视觉驾驶员模型假设人类驾驶员的参考或期望轨迹是精确已知的,这在实际应用中并不总是可用的。此外,这种两点视觉预览模型能够反映驾驶员的基本物理特性,如反应时滞、预见性和补偿性,而不能反映驾驶员手臂的神经肌肉动力学和决策过程等认知特性。例如,控制论驾驶员模型通常忽略是否或如何感知来自外部环境的模型输入以及驾驶员如何通过视觉、触觉或听觉传感器与其他自动控制器正确交互的问题。

大多数控制论驾驶员模型都是以博弈论的方式应用于人车共享控制系统中。为了达到这个目的,应该首先对人类驾驶员和自动驾驶智能体进行建模,这使得双方可以估计彼此的行为。对自动驾驶智能体建模的最流行的方法之一是使用控制理论(例如,模型预测控制),因为它可以描述驾驶员基于其内部模型或个人驾驶技能来预测车辆未来状态的能力。Na和Cole应用分布式预测控制和线性二次动态优化(LQDO)相结合的方法来配制人类驾驶员和自动驾驶智能体。具有二次结构的目标函数也被广泛用于设计预测人类驾驶员将来的动作或驾驶员在控制接口上的触觉输入的自动驾驶智能体。

基于学习的驾驶员模型

虽然上述驾驶员模型能够较好地描述和预测驾驶员的行为、动作和状态,但它们没有考虑驾驶员行为的动态、随机决策过程,这就要求模型能够连接时间和空间过程。为此,一些研究人员还利用基于学习的方法来处理驾驶员行为的高度非线性特性,如神经网络。研究表明,马尔可夫模型与高斯混合模型相结合,在捕捉驾驶员意图和行为方面取得了令人满意的效果。此外,还发展了贝叶斯推理、自回归外生(autoregressive exogenous, ARX)和深度学习。这些基于学习的方法高度依赖于收集的训练数据,其中一些方法需要大量数据,如深度神经网络。

意图推理与状态检测

正确推断驾驶员的意图和状态对于设计控制器至关重要,该控制器不仅能够提供足够的输入来跟踪期望的轨迹,而且还能够避免人类驾驶员和自动驾驶智能体之间的干扰。

意图推理

方向盘作为一种直接的接口,允许人类驾驶员和自动驾驶智能体以同步和连续的方式行动和交换信息。因此,驾驶员的意图可以通过驾驶员施加在方向盘上的扭矩直接捕捉到。例如,在基于扭矩的转向辅助系统中,自动驾驶智能体使用传感器来获取驾驶员施加的转向扭矩,反过来,人类驾驶员也可以对来自方向盘的触觉信息做出反应。Nguyen等人利用驾驶员施加在方向盘上的扭矩作为指标来计算自动驾驶智能体应该提供多少辅助扭矩。Li等人的研究成果。提出了一种人-机共享控制系统的连续自适应律,通过比较人施加的力矩和通过最优控制技术计算出的预先定义的纳什均衡,来确定自动驾驶智能体的角色(即领导者或跟随者)。

除了利用人施加在方向盘上的扭矩,驾驶员手臂或腿部的动态神经肌肉分析还可以为转向系统的共享控制设计和油门/刹车踏板控制提供指导。例如,为了减少人类司机和自动化系统之间的干扰,Ziya等人通过结合司机的神经肌肉反应和期望的转向角度(这是车辆状态和道路几何的函数)来模拟人类司机的转向行为。此外,触觉扭矩的阻抗被用作驾驶员意图的指示器。一些研究人员还设计了导向力矩,以帮助司机将车辆保持在车道上,并提高与疲劳相关的驾驶行为的车辆安全性。

驾驶员手臂和转向动力学模型通常与路径跟踪控制模型相结合,得到具有神经肌肉动力学的线性驾驶员模型:

( J d + J s ) θ ¨ s + ( B d + B s ) θ ˙ s + ( K d + K s ) θ s = T m − M T n s (13) \left( J_d+J_s \right) \ddot{\theta}_s+\left( B_d+B_s \right) \dot{\theta}_s+\left( K_d+K_s \right) \theta _s=T_m-\frac{M_T}{n_s}\tag{13} (Jd+Js)θ¨s+(Bd+Bs)θ˙s+(Kd+Ks)θs=TmnsMT(13)

式中, J ∗ J_∗ J ∗ * 的惯性、阻尼和刚度, ∗ ∗ 是驾驶员手臂或转向系统; n s n_s ns是转向器传动比; M T M_T MT是侧向力产生的扭矩; T m T_m Tm是肌肉扭矩; θ s \theta_s θs是方向盘角度。模型(13)被用来推断司机的意图。例如,驾驶员手臂的阻尼和刚度的变化可以反映控制器的输出是否满足驾驶员的期望轨迹,或者驾驶员与自动驾驶智能体之间的冲突程度。除了使用间接量(例如,转向角度、车辆动力学),还可以使用直接的人类生理量(例如,身体姿势、头部、手、脚和凝视方向)来预测驾驶员意图。

除了直接使用触觉信息外,还可以根据周边车辆和车辆到车道边缘的位置等动态驾驶环境来推断和预测驾驶员意图。动态贝叶斯网络(DBN)、马尔可夫决策过程(MDP)和部分可观测的马尔可夫决策过程(POMDP)就是一个起点,假设人们可以提取驾驶员行为的潜在过程,这是一个动态和随机的过程。此外,随着智能驾驶智能体控制权分配率的提高,驾驶员凝视行为与转向力矩之间的相关性会降低,这表明驾驶员的凝视行为可以用来推断驾驶员的意图,避免冲突。

状态检测

正确检测驾驶员的驾驶状态(如嗜睡、嗜睡、疲劳、分心、损伤),为做出实际的权限分配决策提供了可能,从而提高了车辆的安全性。例如,Saito等人提出了一种基于眨眼频率和面部信息检测驾驶员困倦程度的车道保持辅助系统双控制方案。

视觉注意力分散或认知注意力分散从车辆状态、驾驶员的视觉状态和操作三个方面进行了研究。基于学习的方法,如深度稀疏自动编码器、深度信任网络(DBN)、支持向量机(SVM),已被广泛用于检测和分类驾驶员的分心行为。

未来的挑战和机遇

由于理解人类驾驶员的能力有限,人-车共享控制系统中仍然存在许多开放式问题。这一部分将介绍和讨论一些开放的、具有挑战性的、不可避免的问题,涉及共享控制策略、信任或过度信任以及权力分配,然后是未来研究的展望。

如何设计自适应律或自适应共享控制?另外,在人车共享控制系统中,人类驾驶员应该扮演什么样的角色?

在第三节中,我们讨论了在人类驾驶员和自动驾驶智能体之间设计自适应共享控制的不同方法。它们大多来自U型函数、非合作博弈理论,以及人为施加在方向盘上的扭矩。人类驾驶员在高度自动化车辆中的作用可以定义为

  • 领导者和追随者之间可转换的角色(博弈论);
  • 与自动驾驶智能体的共生关系;
  • 作为主动的司机、乘客或被动司机,但他们仍可能被要求接管控制权;

人类驾驶员在驾驶员-车辆系统中扮演的不同角色导致了不同的共享控制范例。在研究方法上,考虑个体特征,对人机交互水平进行分类,并与认知心理学相结合,可以提高共享控制性能。

U型函数控制律只定性地描述了驾驶员的工作量与辅助需求以及驾驶性能之间的关系,而不是一个定量的表达式。因此,从U型函数得到的自适应控制律有很大的差异。造成这一差异的因素很多,如个人驾驶经验和生理/心理状况的差异。对人类驾驶员的类型进行分类,根据他们的能力和特征,然后设计能够描述和适应该驾驶员的特征的个性化驾驶员模型可能是解决这类问题的有效方法。

在基于博弈论的自适应规律方面,研究人员通常通过假设驾驶员有一个完美的内部模型来理解和预测车辆状态,就像控制器一样,也就是说,两个智能体具有相同的确定性目标函数,从而对人类驾驶员进行建模。然而,在现实世界中,人类驾驶并不总是一个确定性的过程,而在自然界中,它是一个随机和动态的过程,甚至是受损的行为(例如,疲劳和醉酒)。因此,在今后的工作中,需要对驾驶员的随机行为和驾驶员之间的差异进行建模和计算。

针对上述问题,对人机交互的类型和级别进行分类,并增加智能体的适应性是一种可行的方法。自动化系统的功能通常包括四种类型:信息获取、信息分析、决策和行动选择、行动实施。每一种类型中,自动化被定义为从低(即,全手动)到高(即,全自动)的各个级别。

此外,Beetz等人以及Heide和Henning分别提出了认知汽车的概念——一种能够感知自身和周围环境,并以自主方式收集和组织信息的技术认知系统。在认知汽车中,关于动作实现的一些关键问题仍然存在(即功能指派):

  • 采取什么样的行动
  • 什么时候采取行动
  • 如何恰当地采取行动

到目前为止,我们还不能系统地回答这三个问题,但大多数研究集中在(1)触觉支持系统对驾驶员性能的影响,(2)用于避免碰撞的车辆稳定性控制,(3)具有自适应辅助系统的主动转向系统。潜在有用的方法之一是考虑并建立基于认知心理学的认知合作,如Li等人的研究成果。他还认为,认知汽车将成为一种新的前沿先进驾驶辅助系统进行研究。

什么是适当的信任?或者,司机会像乘客一样坐下来,完全信任他们的车辆吗?

司机过度依赖自动驾驶或过度自满往往是有问题的,从而导致例如较长的反应时间。司机完全信任自动驾驶的能力,因此即使在司机撞车时也没有进行干预和手动控制。幸运的是,人类司机对自动驾驶智能体有适当的信任水平,比如意识到自动化系统可以更好地感知和更快的响应,并显示系统感知情况,但有时也会出错。通过将自动驾驶的局限性有效地传达给人类驾驶员,还可以提高驾驶员的驾驶性能。此外,对司机进行适当的、精心设计的练习可以减轻过度信任自动驾驶智能体对反应时间的负面影响。

此外,当驾驶员和自动驾驶智能体的期望轨迹相似时,两者的输入有些许不同,但不会发生冲突。然而,当两个对象的期望轨迹不同时,事情将变得棘手,并带来一个问题:==应该信任哪一个输入并将其施加到车辆上?==解决这一问题的一个潜在方法是开发一个基于心理学的认知-物理模型,该模型能够通过理解驾驶员的信息过程(神经科学)和认知能力(心理学),从操作(operational)层面、战术(tactical)层面和战略(strategic)层面正确地描述和预测司机的期望轨迹。将视觉(包括预测和补偿)系统与神经肌肉系统(或运动过程)相结合的控制论驾驶员模型是实现共享控制的有效途径。有关模型结构和参数辨识的详细信息,读者可以相关参考文献。另一种可能的方式是设计一种度量来评估和分析人类驾驶员和自动驾驶智能体之间的冲突。研究人员已经开发了许多指标来评估共享控制性能,它们主要涉及四个方面:准确性(例如,路径跟踪误差)、安全性(例如,诸如车道穿越时间之类的风险度量)、兼容性(例如,是否存在冲突)和稳健性(例如,车辆的振动与共振)。在触觉共享控制系统中,最常用的是人类驾驶员和自动驾驶智能体施加在方向盘上的力矩的方向和周期。例如,考虑转向力矩的四个方面来评估触觉共享控制中的冲突:一致性比率、阻力比率、矛盾率和矛盾程度。

(翻译)Decision-Making in Driver-Automation Shared Control_第9张图片

在权限、能力、责任和控制方面,哪种方式是最好的过渡(authority, ability, responsibility, and control, A2RC)?

在提出开放式问题之前,我们应该定义一些关于人工驾驶和自动驾驶智能体之间交互的基本概念:

  • 权限,它可以由人类驾驶员或自动驾驶智能体被允许做什么或不做什么来定义。此外,该权限可以在人工驾驶员和自动化智能体之间部分地和连续地转移。
  • 能力,可以被定义为拥有感知和采取适当行动的手段或技能。
  • 责任,可以事先分配以激励某些行动,并在事后评估,在此情况下,人类驾驶员或自动驾驶智能体被要求对驾驶车辆系统的状态或动作以及由此产生的后果负责。
  • 控制,这意味着能够改变车辆的状态。

图8显示了这四个概念之间的关系。基于这些基本定义,由于高度自动化的车辆是基于特定情况的自动化系统,因此在人-车共享控制系统中也会遇到人-车交互系统中存在的问题,例如:

  1. 我们如何在利用日益强大的技术和为人类驾驶员保留控制权限之间取得平衡?
  2. 我们如何在人类司机和自动化智能体之间定义清晰、安全、高效和愉快的角色?
  3. 未来人车系统的哪些子系统应该有哪些能力、哪些权限、哪些职责?或者,哪些系统功能应该自动化,在多大程度上应该自动化?
  4. 除了权限和责任之外,我们还需要什么概念来描述和塑造人类司机和自动驾驶智能体之间的动态平衡?

根据这些预先定义的术语,在人类驾驶员和自动驾驶智能体之间存在A2RC的分配问题。大多数文献只关注人类驾驶员和自动驾驶智能体之间的控制权限,而忽略了A2RC之间的关系。在现实世界中,权限、能力、责任和控制不是独立的。此外,Acarman等人也提出了自己的观点,即一种考虑驾驶员体能、认知能力以及态势/危险分析的碰撞和事故避让控制权交接系统。除了A2RC,H-metaphor (H模式或马的比喻),也就是骑手和马之间的关系的比喻,可以作为在共享控制系统中开辟新视野的指南,这已经显示出它在飞机副驾驶设计和高度自动化驾驶方面的显著成就。

另一方面,利用与大脑相关的信号可以直接提供关于人类驾驶意图和能力的丰富信息,从而使我们能够优化权力分配,减少两个对象之间的冲突。一个设计良好的人-车交互结合了人类驾驶员的心理和心理生物学特征和主动能力,可以提供大量的认知信息,从而有利于共享控制任务。此外,来自交互界面的反馈还可以显示设计不佳的界面是否会对人类驾驶员和控制性能产生不利影响。与人机交互设计类似,从实证研究的角度来看,关于感知传感器(即视觉、前庭和动觉、躯体感觉和听觉,如第4节所讨论的)、动作响应器(即四肢和腿,如第4节所讨论的)以及大脑因素(即知觉、认知和记忆)的人的因素,如第四节所讨论的,可以根据人-机共享控制的方法仔细考虑和实施。其中一个典型的应用是使用与大脑相关的信号通过大脑-车辆接口来增强共享控制性能。已经基于EEG信号设计了各种具有不同功能的脑-车接口(例如,自适应脑-车接口)。

讨论和结论

这篇综述论文的目的是说明如何建立人-车共享控制系统的模型,并了解在控制回路中仍然保留人工驾驶员的情况下,高度自动化车辆面临的挑战和机遇。我们讨论了人-车共享控制系统的体系结构、复杂系统的建模方法以及未来的挑战和机遇。我们对过去几十年来驾驶员-车辆共享控制技术的进展进行了调查。为了理解复杂的驾驶员-车辆系统,我们将其解耦为不同的子系统,并通过回顾最新的文献总结了如何对它们进行建模。最后,我们讨论了这一领域的挑战和机遇。虽然在过去的十年里已经开发和引入了先进的驾驶员辅助系统,但对人类驾驶员和自动驾驶代理之间的关系以及人类驾驶员与驾驶环境的认知交互方式的更深入和更全面的理解在未来几年仍将是一个活跃的研究领域。

你可能感兴趣的:(自动驾驶,人机共驾,多智能体)