此篇文章为论文的学习笔记,只供学习使用,不作商业用途,侵权删除。并且本人学术功底有限,如有思路不正确的地方欢迎批评指正!
除了经典的控制设计方法外,人工智能和机器学习方法几乎都存在于这些领域。另一部分研究集中在运动规划的不同层面,如战略决策、轨迹规划和控制。机器学习本身已经开发了广泛的技术,本文将介绍其中的一个领域——深度强化学习(Deep Reinforcement Learning, DRL)。本文深入了解了分层运动规划问题,并描述了DRL的基础知识。设计这样一个系统的主要要素是环境的建模、建模的抽象、状态和感知模型的描述、适当的奖励和底层神经网络的实现。本文描述了车辆模型、仿真可能性和计算要求。提出了不同层次的策略决策和观测模型,如连续和离散状态表示、基于网格和基于相机的解决方案。本文根据自动驾驶的不同任务和水平,如车辆跟踪、车道保持、轨迹跟踪、合并或在密集交通中驾驶,综述了目前最先进的解决方案。最后,讨论了开放性问题和未来的挑战
自动驾驶汽车功能的运动规划是一个广泛而长期的研究领域,使用了各种各样的方法,如不同的优化技术、现代控制方法、人工智能和机器学习。本文介绍了近年来以深度强化学习(DRL)方法为中心的研究成果。由于不同运动规划问题的复杂性,评估DRL对这些问题的适用性是一种方便的选择。
纵观该领域近年来的优势,可以说大多数研究都集中在解决分层运动规划问题的某些子任务上。该自主驾驶决策系统至少可以分解为四个层次,如图1所示。路线规划作为最高层次,根据路网地图定义行程的路点,可以使用实时交通数据。
作为人工智能和机器学习的一个领域,强化学习(RL)处理在环境中放置学习主体以实现目标的问题。在这种情况下,代理可以由任何推理模型来表示,其参数可以根据所获得的经验进行修改。在深度强化学习的背景下,该模型由神经网络实现。
RL有两种主要的方法来确定最佳行为:基于值的方法(如DQN)和基于策略(如DDPG)的方法。
由于强化学习模型作为部分可观察马尔可夫决策过程(POMDP)问题,一个离散时间随机控制的过程,解决方案需要提供一个数学框架决策结果的情况下部分随机,部分决策者的控制下,而美国也部分可观测的[23]。在自主或高度自动化车辆的运动规划情况下,POMDP元组(S,A,T,R,O)如图2所示
可以解释为:描述学习过程的建模环境MDP。它可以根据目标而变化,尽管在我们的例子中,它需要对车辆的动力学建模,周围的静态和动态对象,如交通的其他参与者,道路拓扑,车道标志、标志、交通规则等。模拟当前的实际状态。是驾驶自车的agent可能的动作集,而状态转换函数则根据车辆的动作更新车辆状态和交通参与者的状态。在第II-A节中描述了不同的抽象级别。许多研究论文使用不同的软件平台进行环境建模。第二- b节简要介绍了使用的框架。作为MDP的奖励功能,第II-D节对这个主题进行了总结。
如前所述,较低层次的运动规划,如轨迹跟踪或简单的控制任务,不需要与代理交互,代理的反应取决于自我载体的行为。然而,在更高的关卡中,当车辆被放置在复杂的情境中,如赛车、通过十字路口、合并或在交通中行驶,其他参与者的反应会强烈影响可用的选择和可能的结果。这导致了多智能体系统(MAS)[24]领域,如果使用RL技术处理,则称为多智能体(深度)强化学习(MARL或MDRL在不同来源)。MARL的一种建模方法是对原始的POMDP进行一般化,通过为每个agent扩展多个动作和观察集,甚至在不同agent有不同目标的情况下提供不同的奖励。这种方法称为分散部分可观测马尔可夫决策过程(DEC-POMDP) 。
自载车运动的建模是训练过程的关键部分,因为它提出了模型精度和计算资源之间的权衡问题。由于RL技术使用大量的事件来确定最优策略,环境的步长时间高度依赖于车辆动力学模型的评估时间,对训练时间有很大的影响。因此在环境设计中,需要从最简单的运动学模型选择更复杂的动力学模型,从2自由度(2DoF)横向模型到越来越复杂的参数较多的模型和复杂的轮胎模型。
有些作者创建了自制的环境来实现对模型的完全控制,尽管有一些商业和开源环境可以提供此功能。本节简要介绍了在RL运动规划的近期研究中使用的一些方法。
动作空间的选择在很大程度上依赖于为强化学习问题设计的车辆模型和任务。虽然可以发现两个主要的控制层次:一是通过转向、制动和加速命令对车辆进行直接控制,另一个作用于行为层,定义了策略层面的选择,如变道、保持车道、设置ACC参考点等。在这一层,代理向低层控制器发出命令,后者计算实际的轨迹。只有少数论文涉及运动规划层,其中任务定义端点(x,y,θ),一个 agent定义要跟随的轨迹的节点,以样条表示,如[11]所示。此外,很少有论文像经典的微观细胞自动机模型那样,偏离车辆运动限制,通过步进网格来生成动作。
在培训期间,agent通常会尝试完成一项任务包含不止一个步骤的。此任务称一段经历如果满足以下条件之一,则阶段结束相遇:
•代理成功完成任务;
•事件达到先前定义的步骤
•终止条件上升。
奖励的作用是评价agent在反馈改进政策的过程中做出的选择的好坏。第一个重要方面是奖励的时机,强化学习解决方案的设计师需要选择以下策略的组合,这些策略各有利弊:
•仅在本集和结束时给予奖励-将其数回到之前的(S,A)对,这可能导致学习过程变慢,但会最小化政策的人为塑造。
•通过评估每个步骤立即给予奖励目前的状态,折扣自然也出现在这一点上解决方案,可大大加快学习速度,虽然即时奖励的选择会极大地影响既定的策略,有时会阻止代理开发比客户更好的总体解决方案给出设计奖励意图的人。
•中间解决方案可以是在以下方面给予奖励:预定义的周期或行驶距离,或否则就会发生错误的决定。
观察空间向代理描述世界。它需要提供足够的信息来选择批准-
priate操作,因此根据任务的不同,它包含以下知识:
•世界上车辆的状态,例如位置、速度,偏航等。
•车道、标志、规则等拓扑信息。
•其他参与者:周围车辆、障碍物等。
可以绝对的参考系观察世界和固定的坐标系统,尽管ego-vehicle决策过程的重点是,它更容易选择一个自我中心坐标系固定在车辆的坐标系统,或车辆在世界上的地位,道路的方向。它允许将访问状态的分布集中在原点周围的位置、航向和速度空间,因为其他车辆往往接近自我车辆,具有相似的速度和航向,减少了政策必须执行的状态空间区域。又分为车辆状态观察空间和环境观察空间。
虽然本研究集中在基于深度强化学习的运动规划研究上,但需要指出的是,一些论文试图通过经典的强化技术来解决自动驾驶的一些子任务。这些经典方法的一个问题是,它们不能处理非结构化数据,如图像、中级雷达或激光雷达传感。
尽管人们期望机器学习可以为自动驾驶提供一个整体端到端的解决方案,但最近的文献研究表明,强化学习研究可以为这个问题的某些子任务提供答案。近年来的论文可以围绕这些问题进行组织,选择一个专门的情况或场景,并检查自学习代理是否可以解决它。这些问题陈述的复杂性各不相同。如前所述,强化学习的复杂性,以及训练时间,在很大程度上受到所选择问题的复杂性、行动空间的性质、以及奖励的时效性和恰当制定的影响。最简单的问题,如保持车道或车辆跟踪,通常可以追溯到简单的凸优化或控制问题。然而,在这些情况下,二等控制目标的制定,如乘客舒适度,是更舒适的表述。在想象的复杂性尺度的另一端,存在一些问题,比如在密集交通中机动的情况下,任务的有效完成很难表述,agent需要预测性的“思维”来实现它的目标。下面将介绍这些方法。
最简单的调查任务在汽车的哪问题的表述如下:有两个参与者在模拟中,一辆领先和跟车保持其在车道上的横向位置,以及车辆调整其纵向速度以保持安全的跟车距离观测空间由(v,dv,ds)组成元组,表示代理速度,与lead的速度差,车头时距。动作就是加速控制。奖励系统自然将两辆车的碰撞视为故障,而agent的性能则基于挺杆、TTC(碰撞时间)或乘客舒适度。
车道保持或轨迹跟踪仍然是一种简单的控制任务,但与汽车跟踪不同的是,该问题侧重于横向控制。这些研究中的观察空间有两种不同的方法:一种是车道上车辆的“地面真实”横向位置和角度,另一种是前置摄像头的图像。当然,对于基于图像的控制,代理在这些情况下使用外部模拟器、TORCS和GAZEBO/ROS。奖励系统几乎总是将距离车道中心线的距离作为即时奖励。值得一提的是,这些代理几乎不考虑车辆动力学,而且令人惊讶的是,它们并不关注联合纵向控制。
匝道合并问题处理入口匝道公路场景(见图3),其中自我车辆需要找到两辆车之间的可接受间隙,以进入公路。最简单的方法是学习agent到达这个位置时的纵向控制,如。其他论文,如,使用了完全转向和加速控制。在中,动作控制车辆的纵向运动加速和减速,在执行这些动作时,自我车辆保持自己的车道。“左变道”和“右变道”的动作都表示侧向移动。一次只执行一个动作,动作是全部执行的,飞行器不能提前中止一个动作。
驾驶环境被训练成一个LSTM架构,将历史和交互驾驶行为对行动选择的影响纳入其中。Deep Q-learning过程将LSTM的内部状态作为q函数逼近器的输入,利用它进行基于更多过去信息的动作选择。通过经验重放更新q -网络参数,并使用第二个目标q -网络来缓解局部最优和不稳定问题。通过这种方法,研究人员试图混合行为预测和学习的可能性,同时获得更好的表现。
多智能体合并场景通常只使用纵向控制来寻找安全间隙,而将横向运动留给底层控制方案。从这个角度看,入口匝道合并和一些交叉口通行问题有很多共同之处。因此,本节将讨论与入口匝道和交叉口有关的MARL。
在合并场景中,最复杂的是双合并。两条多车道公路随后连接又分开,代理人员从两个入口到达,也从两个出口离开。由于双重归并问题非常危险,用简单的RL技术很难解决。基于PG的学习者提供纵向和横向的期望目标,但基于规则的监督系统确保了其安全性。
最近几篇论文研究的最复杂的场景是自动驾驶在交通中行驶的场景。当然,这个任务也可以通过网络的拓扑结构、周围车辆的数量和行为、交通规则的应用以及许多其他属性进行扩展。因此,目前几乎所有的解决方案都是针对高速公路行驶的,在这种情况下,没有十字路口、行人和所有车道上单向的交通流。这个场景的子任务已经在前面的章节中检查过了,比如保持车道,或者跟踪车辆。下面将介绍两种类型的公路驾驶。首先,概述了层次方法,其中代理行为在行为层,做出关于变道或超车的决策,并使用底层控制器使用经典控制方法执行这些操作。其次,提出了端到端的解决方案,其中agent通过转向和加速直接控制车辆。随着问题变得越来越复杂,需要指出的是,经过训练的代理只能解决它在模拟中遇到的情况。因此,模拟交通环境的设计必须涵盖预期情况。
表1给出了单智能体方法的总结,提供了场景、使用的模型或仿真环境、观察和行动空间、奖励函数中考虑的元素、RL智能体的类型以及神经网络的信息。
表2给出了采用多智能体(MARL)方法的研究,列相似,除了奖励,其中概述了奖励在智能体之间的分布。
近年来的研究成果表明,不同的深度强化学习技术可以有效地应用于不同层次的自主车辆运动规划问题,但仍有许多问题没有得到解决。这些方法的主要优点是它们可以处理非结构化数据,如未经处理或稍微预处理的雷达或基于相机的图像信息。
在运动规划中使用强化学习代理训练的深度神经网络的主要好处之一是训练网络的计算要求相对较低。虽然这一性质需要在学习阶段进行大量的试验以获得足够的经验,但如前所述,对于简单的凸优化问题,其过程收敛速度很快。然而,对于复杂的场景,训练可以很快达到数百万步,这意味着一个超参数设置或奖励假设可能持续数小时甚至数天。由于复杂的强化学习任务需要环境设计的不断迭代网络结构,奖励方案,甚至使用的算法本身,设计这样一个系统是一个耗时的项目。除了适当的结果分析和推断,评估时间很大程度上取决于分配的计算能力。在此基础上,现在大多数论文处理的是运动规划问题的次要子任务,而最复杂的场景,如在城市交通中导航,在文献中找不到。与许多启发式方法一样,RL本身也需要在性能和资源需求之间进行权衡。车辆控制的性能不仅是旅程时间、平均速度或乘客舒适度,而且主要是安全性和稳健性。强化学习在这两个领域都有很多挑战。下面将概述这两个主要问题。
总的来说,安全RL理论是一个动态演化的领域。除了上面引用的调查文章,感兴趣的读者可以在P . S. Thomas, “Safe reinforcement learning”中找到每个解决方案的理论细节。从车辆控制的角度来看,这个课题的重要性是毋庸置疑的,不仅是为了安全,也是为了减少状态和行动空间。培训和验证的一个大问题是从大量不相关的情况中选择有问题的,所谓的边角情况。
通过考察最近的文章中的观测元素,可以看出大多数研究忽略了复杂的传感器模型。一些文章使用“地面真实”环境表示或“理想”传感器模型,只有少数文章使用传感器噪声。一方面,将从理想观察中获得的知识转化为现实应用提出了几个可行性问题;另一方面,使用有噪声或错误的模型实际上可以产生更健壮的agent。
一般来说,有三种方法来缩小现实差距:
•系统识别,试图使模拟与现实相匹配。
•领域自适应,旨在从源数据分布(模拟)学习不同(但相关)目标数据分布(现实)的良好性能模型。
•领域随机化,旨在在非常随机的环境(模拟)中学习,(可能)覆盖目标(现实),使agent具有鲁棒性。
这三个概念如图4所示。在完全建模的系统和可行性之间的权衡之前已经讨论过,因此这里没有概述系统识别。基于上述原因,从模仿到现实是该领域未来的关键研究问题之一。
总体而言,该领域还需要解决许多问题,如环境和传感器建模的细节、计算需求、对实际应用的可移植性、稳健性和agent的验证等。由于这些问题,它可以说,强化学习不是一个充分的工具,汽车运动规划本身。尽管如此,与其他方法相结合,可以非常有效地解决复杂的优化任务。