考虑实时安全优化的自学习自适应交通信号控制

文章简介
1.文章标题
Self-learning adaptive traffic signal control for real-time safety optimization
2.所属期刊
Accident Analysis and Prevention (业内简称AAP,SSCI 一区,交通安全领域大牛级期刊)
3.文章作者
Mohamed Essa和Tarek Sayed(https://publons.com/researcher/4099489/tarek-sayed/publications/)
4.作者单位
英属哥伦比亚大学(QS 47 2019)
文章结构
考虑实时安全优化的自学习自适应交通信号控制_第1张图片
本文的摘要非常经典,层次和逻辑十分清晰。作者在背景介绍中用了大量笔墨来引出创新点,而创新点则用一句话总结概括。而后介绍了使用算法验证过程验证数据,这三个要素。结果部分展示了关键数据,这些数据为总体数据,一眼能看到算法对交叉口的优化效果,而不是一些推断性的数据,比如下文提出的冲突率。
考虑实时安全优化的自学习自适应交通信号控制_第2张图片
引言部分能看出作者的功力,本文第一段介绍了大方向,这一方向与摘要开头呼应。并指出现有研究的贡献,然后再第二段,接着前一段的贡献来说其不足。第三段的递进是在问题1的基础上,推导的更深层次的问题,这也是本文主要要做的内容,为下文埋下了伏笔。如果只介绍问题1,那只能让问题流于表面,由问题1引入问题2让整个逻辑清晰,给人以思考。
说完了自己要做什么,作者在第四段介绍了创新点。其中第一句话承上启下,强调安全是重要的但是被研究人员忽略,并指出原因。这个原因才是作者的工作。一句话概括了上文所提的两个问题。然后,作者找到了现有的关于安全的研究,并在这一段落脚在这些模型可以作为研究的策略。
内容简介部分,第一句话,本文提出了什么。然后分几点介绍闪光点,最后一点的帽子,与摘要呼应。
至此,摘要的两个帽子在引言中都被提及。
考虑实时安全优化的自学习自适应交通信号控制_第3张图片
先前工作其实是对引言的扩充,我认为和引言合在一起写也可以。
考虑实时安全优化的自学习自适应交通信号控制_第4张图片
算法设计部分,作者在开头分别用一句话来描述各个部分。而后由安全模型——强化学习——Q学习引出文章内容。层层递进,由大到小,本部分讲的都是干货,算法设计逻辑严谨。
考虑实时安全优化的自学习自适应交通信号控制_第5张图片
本文的数据验证部分其实就是结果与讨论。结果部分介绍对比了安全性和效率,讨论部分主要考虑渗透率。
考虑实时安全优化的自学习自适应交通信号控制_第6张图片

重点词汇
accommodate 适应
vehicle throughput 车辆吞吐量
traffic mobility 交通机动性(我个人认为是交通运行效率)
shock wave characteristics 车流波特性
primary objective 重要目标(我觉得初始目标更合适)
offset 相位差
crash-free 无碰撞
near-misses 未遂事故
Rather 更准确的说
the intersection clearance time 交叉口清尾时间
bidirectional 双向的
elaborated 精雕细琢的
transferability 可移植性
iteratively 迭代
paradigm 范式
infinite 无限的
generalization 一般化
discretize 离散化
domain 域
convergence 收敛
perform 执行
penalty 惩罚
reciprocal 倒数
assumes 认为
through lanes 直行车道
virtually 差不多
varying 不同的
loop detectors 地感线圈
left-turn bay 左转弯展宽段
account for 原因,理由
correspond to 符合
feasible 可行的
benchmark 基准
traffic composition 交通构成
inspection 检测
precisely 准确地
filtered 过滤
diagram 图
aforementioned 前述
deteriorate 恶化
deployed 部署
the transition period 过渡期
predates 提早

重点句型
However, recent research has developed various real-time safety models for signalized intersections.(开发模型或算法用developed)
Evaluating safety in real time can enable developing ATSC strategies for real-time safety optimization.
The algorithm was developed using the Reinforcement Learning (RL) approach and was trained using the simulation platform VISSIM.(用VISSIM仿真放在句尾可以扩充句子,显得高档)
The trained algorithm was then validated using real-world traffic data obtained from two signalized intersections in the city of Surrey, British Columbia.(还是using用的好)
The results showed that 90 % and 50 % of the algorithm’s safety benefits can be achieved at MPR values of 50 % and 30 %, respectively.(介绍结果)
However, despite the aforementioned mobility benefits, the safety impact of the existing ATSC algorithms remains unclear.(过渡句)
The SSAM results can vary significantly depending on the assumed values of the simulation model parameters and the approach used in modelling.(什么什么受什么的限制)
Unrealistic crashes and unusual movements are often recorded in traffic simulations, most likely due to an insufficient minimum gap size, a failure to yield to a priority rule, an abrupt lane change of a vehicle, or an irregular queuing up at left/right turn bay tapers.(原因)
The algorithm is referred to as RS-ATSC (Real-time Safety-optimized Adaptive Traffic Signal Control). (给自己的算法命名)
Some algorithms, however, optimize both the traffic signal timing and vehicle trajectories, assuming a specific percentage of autonomous vehicles and bidirectional V2I communications.
RL is an area of machine learning that has widely been applied in the literature for self-learning ATSC algorithms (括号里就可以写一些参考文献啦)
In other words, RL is a goal-directed learning, in which, the agent learns how to map states and actions to achieve a specific goal.(map是映射)
The minimum conflict rate was set to zero. (设置参数为0)
The simulation was run for 420 episodes. (关于运行算法的表述)
Compared to pre-timed signal controllers, actuated signal controllers can better accommodate widely fluctuating volumes, decrease delays, reduce driver frustration and red-light running, and improve safety.
Thus, in this study, the actuated signal controller (i.e., the state-of-art controller) was used as a benchmark to validate the performance of the proposed RS-ATSC algorithm.
Lastly, the estimated cycle-related parameters were inputted into a real-time safety model (i.e., model 6 in Table 1) to predict the number of rear-end conflicts at the cycle level.(周期级)
The conflict rate (conflict/second) was then estimated by dividing the number of conflicts at each cycle by the cycle length. Figs. 7 and 8 show the real-time variation of the conflict rate for each approach at the first and the second intersection, respectively.(实时变化)
The proposed algorithm also improved the operational performance of the analyzed intersections.(运行表现)
The number of stops, the maximum queue length, and the 95th percentile of queue length were also reduced by 47 %, 23 %, and 51 % at the first intersection; and by 27 %, 17 %, and 28 % at the second intersection, respectively.(结果)
In other words, the algorithm optimizes safety without deteriorating mobility.
The estimated traffic volume per cycle per lane (V) was corrected (multiplied by a magnification factor) before be inputted in the real-time safety model.(修正)
However, it should be noted that 90 % of these benefits can be achieved when the MPR is 50 %.(值得注意的是)
On the other hand, the results of the average delay time (Fig. 12) emphasize that the RSATSC algorithm has a positive mobility impact.(强调积极影响)

有意思的结论

  1. For example, an ATSC algorithm might tend to minimize the total delay by generating many stops, each with a short duration.
    这个可以作为 一个伏笔。停车次数多了,延误反倒小了。(也就是说,我要用停车次数来验证一下延误减少的原因,到底是不是因为增加停车次数)
  2. However, it is generally recommended to prohibit ATSC systems from changing the phase sequence (NCHRP, 2015) for several safety and mobility concerns.
    出于安全考虑,不应该改变相位。(动态相位不可取,会让驾驶人困惑)
  3. Furthermore, having only two possible actions in the fixed phasing sequence.
    只有两个动作,要么延长单位绿灯时间,要么转换相位。
  4. A typical value of 70 s is assumed for the maximum green time.(最大绿灯时间是假设的)

文章翻译
摘要:自适应交通信号控制(ATSC)是一项有前景的提高交叉口信号控制效率的技术。尤其是在能够获取车辆位置和轨迹实时信息的车联网(CVs)时代。大量的ATSC算法被提出来适应实时交通条件和优化交通效率。这些算法共同的目标是减少总延误、排队长度或者最大化车辆吞吐量。尽管这些算法积极地影响着交通流量,但是现存的ATSC算法并没有考虑优化交通安全。这很可能是因为缺少实时估计安全性的工具。然而,近期的研究提出了很多信号交叉口的实时安全模型。这些模型可以根据动态交通参数来估计实时安全性,比如交通量,车流波特征和排比率。实时估计安全性可以完善ATSC算法来优化实时的安全性。本文中,我们提出一种新的自学习ATSC算法来优化信号交叉口的安全性。本算法采用强化学习方法并通过VISSIM仿真平台进行训练。而后,用加拿大两个交叉口的真是数据来验证训练后的算法。与传统的感应式控制系统相比,交通冲突减少了近40%。并且,用各种不同的CVs的渗透率来验证该算法。结果显示,在50%和30%的渗透率下,安全性分别提高了50%和30%。据作者所知,这是第一次将自学习ATSC算法用于实时交通安全优化。
关键词:自适应信号控制,实时安全性优化,车联网,强化学习,交通仿真,实时安全模型
1.引言
近年来,学者们对交通信号的实时优化研究兴趣浓厚,尤其是对从新兴技术中获取的实时交通数据,如车联网和创新的视频检测技术。近十年,自适应交通信号控制系统(ATSC)已经取得了相当的进展。已经开发并应用了大量的ATSC算法。这些算法的共同目标是适应实时交通情况并且通过最大化通行能力,最小化延误,或者减少排队长度来优化交通效率。在信号交叉口中,与传统的固定配时和感应配时相比,ATSC在提升交通效率方面展现了明显的提升。
然而,尽管存在着上述机动性的优势,但是现存的ATSC算法的安全性影响并不清晰。一些研究显示,基于机动性的ATSC算法可以提高安全性并且明显的减少交通碰撞或交通冲突。同时,一些研究发现应用ATSC算法既不能减少交通碰撞,也不能提升交通冲突并使交通完全更差。这种在现存ATSC算法的安全影响的矛盾是因为其并没有把优化交通安全作为初始目标。更重要的是,优化机动性并不意味着优化安全性。例如,某种ATSC算法可能是通过产生许多短时停车来最小化总延误。通过这种算法提高机动性,产生的许多停车会增加潜在的碰撞风险,并恶化安全性。
一些研究尝试用交通仿真和SSAM来优化信号交叉口的交通安全。安全优化过程包括调整各种信号配时参数(周期长度,相位差和相位间隔时间等)来最小化交通冲突数。离线测试多个信号设计及其相应使用SSAM评估安全水平。然而,这些研究中的优化算法并没有自学习ATSC算法那么有效。他们并没有能够理解响应实时交通改变和考虑所有可能的交通条件。此外,用SSAM来估计交通安全已经受到了如下几点批评。1、仿真模型中的车辆跟驰规则的目的是建立各个无碰撞的环境。用这些安全移动的车辆去估计冲突和未遂的事故会产生不精确的结果。2,SSAM的结果随仿真模型参数值和模型方法的变化而改变。3,交通仿真中经常记录了不切实际的碰撞和非常规的运动,这些有可能是因为不足的最小间距,服从于优先规则,突然变道的车辆或是在左/右转弯时不规则的队列。
尽管实时安全优化是重要的,但是却在现存的ATSC算法中被忽略,这可能是因为缺乏实时估计信号交叉口安全的工具。与车辆延误和旅行时间不同,信号交叉口的安全级别不能直接从实时交通数据中估计出来。然而,近年来开发和证实了各种各样的信号交叉口实时安全模型。这些研究模型的交通冲突数和碰撞风险与各种动态短时交通参数相关(例如,几秒)。动态交通参数包括交通量,波动区域,波动速度,排队长度和队列比。这些模型可以用来估计实时安全;而后,他们可以开发出为了优化实时安全的ATSC策略。
本文提出了一种新的自适应交通信号控制算法来通过车联网数据优化实时安全。该算法被称为RS-ATSC(实时安全优化自适应交通信号控制)。该算法有如下几点优势。1,安全估计不是基于不能很好代表实地冲突和碰撞的仿真。更准确地说,优化基于实时交通数据开发和验证的实时安全模型。2,该算法基于强化学习技术作为一个高效的方法来解决考虑实时和随机交通改变的ATSC问题。3,该算法是特别的,因为它包含了所有交通运行标准,包括相位顺序,最小/最大绿灯时间,交叉口清尾时间。4,算法通过两个信号交叉口的实时交通数据进行验证。5,算法在低渗透率的情况下是高效和可行的。6,据作者所知,这是首次用自学习ATSC算法来实时优化交通安全(安全评价和优化在一个非常短的时间段,几秒钟)。
2.先前工作
2.1. ATSC算法的应用
过去几十年,ATSC算法已经在全球范围内使用。最早的两种算法是SCATS和SCOOT。随后,FHWA自适应控制系统被开发和使用,包括OPAC,RHODES,和,更近的,ACS Lite。这些算法在运行上是不同的,但是他们都以最大化通行能力和最小化延误为目标来适应当前的交通需求。然而,这些ATSC系统存在着一些限制,比如同时处理几个交叉口,集中控制系统,依赖地感线圈来检测和估计。更重要的是,这些系统没有考虑将优化交通安全作为目标。
2.2 使用车联网数据的交通信号控制算法
随着车联网技术的发展,越来越多的交通信号控制算法被提出来使用车联网实时数据优化交通效率。例如,一些研究提出各种各样的算法假设所有车辆都是联网和无人驾驶的并通过无信号控制来优化和协调交叉口道路上的交通流向。更实际的,其他一些研究假设各种车联网渗透率来开发和测试ATSC算法。已经开发的算法普遍以最小化总延误为目标。一些研究也考虑多目标,如最小化总延误和停车数,或最小化总延误和排队长度。大多数现存算法基于实时车辆信息来优化交通信号配时,这些算法假设单向车辆路边设备协同(V2I)。一些算法假设特定比例的自动驾驶和双向V2I来优化交通信号配时和车辆轨迹。之前大量的研究主要关注于适应交通信号来提高机动性,有限数量的研究考虑优化交通信号来减少交通排放和燃料消费。另一方面,优化交通安全被普遍忽视。更系统详细的城市交通信号控制车联网实时数据的研究综述见Guo等人。
2.3 自学习ATSC算法
自学习ATSC算法是一种依赖于学习于交通环境直接交互的控制政策的新兴方法。它不需要对环境提前预设模型或人工干预。很多研究都以使用实时数据来提高交通效率和优化机动性为目的去设计自学习ATSC算法。在开发自学习ATSC算法的文献中,强化学习看起来是最具吸引力的。一些强化学习方法已经被应用了,包括基于Q学习的模型,Q学习,SARSA,多强化学习,和最近的深度q网络(DQN)。优化机动性时,各种各样的目标被考虑进去,如最小化排队长度,最小化旅行时间,最小化总延误,最大化通行能力。
尽管这些基于强化学习的ATSC算法在交通机动性上展现了明显的进步,但是他们没考虑评估和优化交通安全。这些研究的安全评估被限制于仿真车辆间避免碰撞,在标准的信号时间条件下,运行的同时禁止冲突信号相位。
2.4 信号交叉口实时安全评价
信号交叉口的安全常常被评估为以年交通碰撞量和交叉口的几何特征相关的总体级别。然而,对于很多安全问题来说,了解交通参数的实时改变和信号控制是如何影响安全的是非常重要的。因此,一些研究考虑了信号交叉口和城市主干路的实时安全分析。这些研究大部分研究了在一小时之内(通常是5到15分钟)的潜在碰撞风险和实时交通,天气特点的关系。尽管这个时间段已经比传统的安全表现公式需要的时间短了,但是以5分钟为间隔评估安全也是不能捕捉到交通条件实时变化和信号配时对安全的影响的。很多近期研究考虑在小于5分钟的时间里评估交通安全。具体而言,是以信号周期时长为单位。一些实时安全模型的开发是将交通冲突数或碰撞风险和各种动态交通特征如交通量,车流波特征,队列率等联系起来考虑的。
6. RS-ATSC算法
本节包括RS-ATSC算法的设计方法。1,描述实时安全模型。2,介绍强化学习技术的概述和选择解决强化学习问题的方法。3,给出了RS-ATSC的强化学习问题的表达式。本节包括了state,action和reward的定义;学习和折扣率;勘探和开发之间的权衡。4,介绍了模型环境的细节和算法的训练。
3.1 实时安全模型
本文中,RS-ATSC算法基于Essa提出的实时安全模型。这些模型将各种动态交通参数与信号周期长度级别的追尾冲突联系起来。以TTC作为交通冲突的指标。交通参数包括交通量(V),波动区(A),车流波速度(S12),排队长度(Q)和队列率(P)。该模型基于几个信号交叉口的实际交通数据开发。模型具有很好的拟合性并且所有的解释变量具有统计学意义。值得注意的是,这些模型被进一步证明并且后续的研究也证明了其具有可移植性。
3.2 强化学习
强化学习技术被用来开发RS-ATSC算法。强化学习是机器学习的一种,被广泛的应用于自学习ATSC算法。在强化学习中,智能体或决策者与周围环境(交通网络)动态交互。智能体迭代观察环境的状态并选择与之协调的动作(决定哪个相位变成绿灯),从中获得回报或估计的反馈。与监督学习的范式不同,强化学习的智能体并没有被告知选择哪个动作。随着时间的推移,它学习并发现哪个动作可以获得最大的回报。换言之,强化学习是一种目标导向的学习,智能体学习如何映射状态和动作来达到特殊的目的(如最大化总累积回报)。状态和动作的映射被称之为控制策略。智能体通过迭代来尝试学习最优的控制策略。还需要注意的是动作不只是影响既得回报,还影响下一个状态后未来的回报。因此,强化学习有2个特点:试错搜索和延迟回报。
3.3 Q学习
求解强化学习问题需要计算优化控制策略。然而,需要注意的是从强化学习的理论定义来表达优化控制策略。实际上,在所有情况下的优化解释不存在的,并且优化情况是不能被定义的。因此,本研究中控制策略是优化的,但是不一定是最优的。
有大量的方法来求解强化学习问题。总的来说,强化学习方法可以分成三大类:动态规划方法,蒙特卡洛技术和时差学习法。大多数与ATSC相关的算法都是用的时差学习法。时差学习法比动态规划法多了一个优势。与动态规划法不同,时差法不需要环境动态模型。智能体直接与环境交互学习。时差法也比蒙特卡洛法多了一个优势。蒙特卡洛法需要等到一个场景结束后才能寻找回报,而时差法只需要等一个时间步长。
时差法有很多种,包括SARSA法,Q学习法,和n步差分学习法。一项研究比较了这些算法在解决ATSC问题的表现。结果显示SARSA和Q学习得到了相同的结果而且比n步差法表现得好。这些表现可能是由ATSC算法的属性造成的。ATSC算法的控制任务是一种连续的折扣回报任务,它认为远期的步骤没有近期的不打折的回报重要。大量研究用q学习法成功地解决了ATSC问题。因此,本研究选择该方法来开发所提出的RS-ATSC算法。
Q学习是一种无策略时差法,它用每一个状态转换的经验来更新Q表中的一个元素。Q表是一个矩阵,它的每一行代表着具体的状态,每一列代表着具体的动作。矩阵中的每个元素代表不同状态-动作组合的Q值。总的来说,Q值是用来比较各种某一特殊转态下的动作。考虑到特殊状态(特殊行),最好的动作(列)有着最高的Q值。为了训练算法,Q表将所有值初始化为0.然后这些值通过贝尔曼方程来逐步更新。在特殊的状态下选择的动作的回报决定着Q值的大小。Q值更新时还有两个需要考虑的因素:折扣率和学习率。Q值的单位与回报是相同的,因为所有其他的因素是无单位的。动作在状态下的表现导致一个新的状态和回报,Q学习算法通过如下贝尔曼方程来更新Q表以此提高它的策略。
3.4 状态表现
Q学习中的一个主要的挑战是用Q矩阵的标签形式来表示拥有大量或无限状态的现实环境。包含大量状态的Q矩阵会导致大多数的状态不会被智能体经历。这个问题存在于ATSC问题中,交通的连续随机属性导致无限种可能的状态(各种车辆的位置和速度)。为了克服这些问题,有两种典型的方法。第一种是通过把Q值用一种可训练方程代替,而非表的形式,来一般化状态。这种一般化被称作方程近似,因为其以近似方程为例并一般化他们组成近似的完整方程。有很多方法来近似方程,如人工神经网络和统计曲线拟合。然而,因为其不完美的估值,方程近似产生很多影响解的质量的后果,如Q估计的离散。另一个更简单的方法是将所有可能的状态离散成范围并在Q矩阵中只定义这些范围。因为,离散化状态范围的Q矩阵成功的应用于之前关于ATSC问题的研究中。本文中所提的RS-ATSC采用该方法。
本文所提的RS-ATSC方法,状态是当前绿灯相位和每个车道中停止线上游现存V2IDSRC车辆的情况。特别地,假设在四路交叉口中,状态由5个矢量元素组成。第一个元素是相位指数(不包括当前相位的长度)代表的当前绿灯相位。剩下的4个元素代表每个进口的当前交通情况。
代表每个进口的当前交通情况有很多种方法。包括现有车辆,排队长度,当前绿灯相位到达车辆数和红灯相位排队长度,累积延误,相对延误和检测器状态。本文中,RS-ATSC算法的目标是通过最小化交叉口各进口的追尾冲突率以提高安全性。因此,每个进口的当前交通情况由该进口的每秒追尾冲突数表示。
表1中给出使用不同动态交通变量的实时安全模型来估计每个车道的信号周期级的追尾冲突数。表1中有6个实时安全模型,本文采用model 6,因为其与所有变量有最好的拟合性。每个车道的周期级预测冲突数要用周期长度标准化来获得冲突率。因为信号周期可能有不同的长度,周期长度在算法中是动态更新的。最后,每个车道的冲突率要相加成所有车道的冲突率之和,如下公式:
为了获得所有可能状态的离散化Q矩阵,把计算得到的每车道的冲突率离散成具体的范围。离散方法包括决定最小和最大冲突率的值并且分成具体的宽度。最小冲突率设置为0(没有车辆存在在周期)。另一方面,最大冲突率的计算要考虑:1,存在于停车线上游的最大V2I DSRC车辆数。2,每进口道的车道数。3,最小周期长度。最小周期长度等于最小绿灯时长加黄灯时间和全红时长。范围宽度被设置为随范围数均匀增加的。这意味着第一个范围(从最小冲突率开始的范围)有最小的宽度,最后的范围(最大冲突率结束的范围)有最大的宽度。在训练Q学习算法前,运行几小时假设性仿真来验证离散化范围在不同场景(各种交通量和各种周期长度)的合理性。
3.5 动作表示
在基于强化学习的ATSC算法中,智能体在每个决策点选择的动作会决定下一个绿灯相位。动作集的大小由后续相位决定。如果后续相位是个变量,那么动作集就包括n个动作,其中n是相位数。如果相位数是固定的,动作集只有两个动作:1,延长绿灯相位。2.将绿灯转换成下一个相位。有些研究使用可变相位,也有些研究使用固定相位。
理论上讲,可变相位的表现更好,因为它可以给强化学习更多的动作进行研究。然而,从安全和机动性方面考虑,ATSC系统一般不采用可变相位。可变相位可能迷惑道路使用者从而导致不安全的交通活动。例如,在带有左转保护/许可相位的4路交叉口,可变相位可能会造成黄灯陷阱(如,引导左转车进入交叉口的条件是让其相信对面车辆看到黄灯)。此外,当下一个相位不可预测时,道路使用者就不能在绿灯阶段快速反应。这会增加启动损失时间从而造成额外的延误。另一方面,固定相位符合道路使用者的期望,并提供一个没有不必要启动延误的安全交通环境。进一步地,在固定配时中只有两个可能的动作,与n个动作不同,这大幅度减少了Q矩阵的大小。这有助于强化学习算法快速收敛来优化策略。
因此,我们采用固定相位来设计RS-ATSC算法。RS-ATSC智能体执行下列两个动作之一:1,延长当前绿灯相位(A1)。2,将绿灯转换为下一相位(A2)。如果动作A(1)被选中了,当前绿灯相位将会被延长到一个特定的时间间隔(假设5s)。另一方面,如果动作A(2)被选中了,黄灯和全红时间将在绿灯转换为下一相位和应用最小绿灯时间前被使用。因此,RS-ATSC的更新时间(决策点间的时间)可以用下列公式表示。
本文所提出的RS-ATSC算法同样要使用最大绿灯时间来作为一个基本的限制。这个限制定义为出现冲突调用时,一个相位可以显示的最大绿灯时间。当达到最大绿灯时间时,RS-ATSC智能体会禁止当前相位的绿灯时间继续延长。典型的值——70s被假设为最大绿灯时间。
3.6 回报表示
因为本文所提RS-ATSC算法主要的目标是优化交通安全,算法中的每一对状态-动作的回报由追尾冲突率来确定。追尾冲突率以所有进口作为惩罚来估计。在每个决策点上估计每个进口道的每个车道的冲突率。公式如下。
3.7 学习率和折扣率
公式1中的学习率是智能体访问状态-动作的次数的倒数。
此外折扣率考虑长期运行,假设为0.5.
3.8 探索VS开发
探索和开发是强化学习的一个重要挑战之一。在智能体开发最高效的动作来获得大量回报的同时,也必须探索新的动作来在未来做出更好的选择。要想得到优化的策略,不是探索或开发单独能做到的。动作选择的策略应该去平衡开发和探索。典型的动作选择策略是贪吃函数和柔性最大函数。
本文中,动作选择策略采用贪吃算法。这就意味着RS-ATSC算法在每一次迭代的过程中,贪吃动作在除了**的大部分时间都和随机动作选择一致。探索率随着迭代次数的增加而减少。最高的探索发生在学习之前,因为智能体并没有经验。学习的最后,最低的探索出现了,更多的开发让智能体收敛得到最优策略。探索的逐渐减少率如下公式。
3.9 环境建模
本文采用交通微观仿真软件Vissim。Vissim是时间步长和基于行为模型的交通仿真软件并依赖基于Wiedemann模型的心理生理跟驰模型。Wiedemann模型假设认为驾驶员会有如下四种假设模型之一:自由驾驶,侵入,跟驰和制动。
在Vissim中建立单个交叉口来代表所提算法中的车联网环境。构建的交叉口为四进口,并且每个进口有2个直行车道和一个单独的左转车道。智能体控制单元接收从存在于停止线前特定距离的联网车辆获取的V2I信息。这个距离基本上代表着V2I的标准范围。因为标准的V2I DSRC范围大致为150m到300m, 本文中的距离认为是225m。进一步的,在Vissim中通过创建新的车辆类“connected vehicle”并在每个交通输入点设置不同的交通构成率来实现不同的联网车辆渗透率。除了联网车辆外,地感线圈安放在各车道用来将实时交通数据传输到交通控制器中。本文考虑两种类型的地感线圈:在直行和左转车道开始位置的交通计数器和左转弯展宽段的末尾。
为了仿真车联网环境和RS-ATSC算法,一个matlab程序通过com接口来控制Vissim模型。Matlab代码可以在任何时候用“sim-break-at”函数开始或者暂停仿真,记录交通信号和车辆的详细信息(车辆数,类型,位置和速度),并把任何需要的实时改变应用到Vissim中的交通信号机头上。这个程序代表Q学习的动作(交通控制器),因为它可以接受环境状态并选择不同的动作。
3.10 训练算法
RS-ATSC算法在图3描述的单个交叉口的Vissim模型中运行训练。仿真运行了420个场景。每一个场景将20000个仿真秒分为1500s的热身阶段,500s的冷却阶段和18000(5h)的训练阶段。在每个训练场景中,仿真每隔t秒暂停,定义状态,选择并应用下一个动作,计算回报,最后更新Q矩阵。由于交通的随机属性,Vissim中考虑了各种随机种子。此外,为了让算法遇到尽可能多的状态,每个进口的交通量统一在200veh/h到1600/h之间随机选取。交通量依据通行能力率的随机值,从0.1到1确定。这些值符合表一所示实时交通安全模型的应用条件——非饱和流。
如强化学习模型的训练,观测智能体的学习过程和保证算法收敛来得到最优策略是非常重要的。总的来说,收敛获得最优策略的定义是智能体遇到每个状态-动作对时的一个无限的次数。因为这是不可能的,我们用两种方法观测智能体在每一个场景下的学习过程:1,遇到状态-动作对的数量。2,所有场景下的最小冲突率。图4展示了将冲突数通过交通量标准化以后的动作学习过程的表现。200个场景以后,大多数状态-动作对被智能体遇到过好多次,并且最小的冲突率也没在接下来的几个场景内改变。因此,我们认为智能体收敛到最优的策略。当到达收敛时,冲突率从0.18下降到0.11.
4.实时数据验证
本文所提出的RS-ATSC算法通过加拿大一个城市的两个交叉口的实时数据进行验证。两个交叉口的实际信号控制都是典型的感应控制,在停车线和延伸的位置安装了检测器。实际的感应控制设置了一个基准来估计RS-ATSC算法的效率。每个交叉口中,训练RS-ATSC和实际基准感应信号控制都在Vissim中进行标定。随后得到并比较每个信号控制器的安全和运行表现。
最近10年的研究结果显示,感应式控制要比固定信号控制在安全和效率表现得好,尤其是,当交通量不可预测并且变化很大。与固定信号控制器相比,感应式信号控制可以更好的适应明显波动的交通量,减少延误,降低驾驶员的困惑和闯红灯的现象,进而提升安全性。这就是为什么最近要把固定配时换成感应配时作为一个提升信号交叉口表现的常规方法的原因。因此,本文中用感应控制作为对照来验证所提RS-ATSC算法的表现。
4.1真实交通数据
第一个选择的交叉口是128街与72大道交叉口,第二个交叉口是138街和72大道。每个交叉口,用分布并覆盖了4个进口的8个高清摄像机来采集得到的视频数据。数据包含了高峰和非高峰时段,从早上9点到下午6点。因此,总时长为144小时。图5所示为所选交叉口的位置,选择的进口和记录的视频场景。从数据中提取了每个进口每小时的详细的真是交通数据。这些数据包括感应信号程序,所有运动的交通量,绿灯车辆到达数,平均队列率,平均延误时间,期望车速分布,和交通构成。交通构成包括客车,卡车和公交车的百分比。摩托车被忽略了,因为他们很少出现在视频里。
4.2 仿真模型标定
Vissim模型中的2个选定的交叉口来自之前的研究。通过对交叉口几何结构,交通量,交通构成,交通信号的设置来匹配真实情况。现实的ASC用RBC在Vissim中标定。目视检查也用来确定仿真中没有不正常的车辆。此外,Vissim模型也在此前的研究中用综合两步标定法进行精确标定。第一步标定目的是将仿真延误时间与现场观测到的延误时间进行匹配。这是通过将到达模式和期望车速与现场情况匹配。第二步标定目的是通过Vissim参数的标定来使现场观测的和仿真的交通冲突相协调。首先,通过敏感性分析确定对仿真冲突有重要影响的Vissim关键参数。然后,用遗传算法来估计能够提高现场观测和仿真冲突协调性的参数。表2展示了每个交叉口所选Vissim参数及其标定值。
4.3 安全和运行表现
为了验证所提算法,要与ASC为基准进行比较。交叉口的追尾冲突数是安全表现的评价指标。运行效率的表现指标包括最大排队长度,95位排队长度,车辆平均延误。为了估计这些指标,每个交叉口标定后的Vissim模型运行9h。每小时在Vissim中的两个信号控制器分别仿真:1,代表实际基准ASC的RBC模型,2,扩展的MATLAB代码代表训练后的RS-ATSC。每个信号控制器采用10个不同的随机种子,然后将所得结果平均。最小的随机种子依据如下方法估计。统计分析显示,在95%置信度的情况下,10次仿真是足以拒绝零假设的。这就意味着指标表现的不同是因为2种不同的方法而非使用不同的随机种子。
在每次仿真运行中,细节的仿真数据会以很短的时间步长被记录下来(如,每个仿真秒)。这些数据包括位置和平均车辆速度,车辆类型,所有信号机头的状态。数据的获得采用外接程序通过Vissim COM接口来控制仿真模型。仿真和细节交通数据记录结束后,一些步骤将用于估计动态交通参数和安全。1,交叉口每个进口的信号周期由每个进口的信号机头的状态确定。2,记录的车辆轨迹需要进行时间和空间的过滤来对每个信号周期的每个车道的车辆轨迹进行分类。3,对于每个车道,每个信号周期的空间-时间图是用过滤轨迹和周期时间得到的。这个空间-时间图随后被用来计算各种信号周期级别的交通参数,包括交通量,波动区域,车流波速度,队列率。最后,估计得到的周期相关参数被输入到实时安全模型来预测周期级冲突率。模型采用交通量,车流波区域,车流波速度和队列率来预测每个周期的冲突数。
4.4验证结果
从被选择的每个交叉口的仿真中提取9小时分析区间的前述动态交通参数也就是追尾冲突数。训练好的RS-ATSC的安全表现与现实中的对照ASC进行对比。总体上,RS-ATSC会减少追尾冲突以带来积极的安全影响。图6展示了2个被选中的交叉口ASC和RS-ATSC的每小时的冲突率。如图所示,当RS-ATSC取代ASC时,第一个交叉口的平均冲突率从0.165下降到0.08,第二个交叉口的平均冲突率从0.17下降到0.11.
每个交叉口的每个进口的实时交通冲突变化也被研究了。每个信号周期的每个车道的追尾冲突数采用表1中的model 6来进行估计。冲突率等于每个周期的冲突数除以周期长度。图7和图8分别展示了第一个和第二个交叉口的冲突率的实时变化。两个交叉口的9小时分析时段的累积追尾冲突数在图9和图10中展示。与ASC相比,所提出的RS-ATSC在两个交叉口中都有明显的减少追尾冲突数的效果。大量减少追尾冲突的情况在所有进口中不尽相同。一些进口的冲突数有着很大程度的减少,如第一个交叉口南行进口(图7和图9),第二个交叉口的西行进口(图8和图10)。同时,一些进口的冲突数减少的比较少,如第二个交叉口的南行进口(图8和图10)。更重要的是,结果并没有在任何进口的累积冲突数显示出增加的状态。这就意味着RS-ATSC不仅仅提升了每个交叉口整体的安全级别,也没有恶化任何一个单独进口的安全级别。RS-ATSC与ASC的总体对比如表3所示。在9小时的分析时段,RS-ATSC提升了每个交叉口的安全级别。总体的追尾冲突在第一个交叉口和第二个交叉口分别减少了49%和37%。所提算法还提升了被分析交叉口的运行效率。与ASC相比,在第一个交叉口和第二个交叉口中平均延误时间分别减少了12%和23%。停车次数,最大排队长度,95位排队长度在第一个交叉口分别减少了47%,23%和51%,在第二个交叉口分别减少了27%,17%和28%。
值得注意的是表3中的表现结果基于所选交叉口的几何何交通特征。如果该算法应用到不同特征的交叉口可能会得到不同的结果。还需要注意的是,V2I DSRC区域假设为225m。用更高的阈值可能潜在地提升算法的表现。此外,算法的表现是在假定V2X通信系统在理想条件下。实际上,一些错误的来源可能存在于联网系统,包括位置错误,库延误,库丢失。这些连接错误源可能影响算法表现。
冲突率的减少证实了所提RS-ATSC算法在安全性上的积极影响。此外,平均延误时间,停车数,排队长度的减少说明了算法在机动性上的积极影响。因此,所提算法同时提升了被分析交叉口安全性和机动性。换言之,算法在未恶化机动性的同时优化了安全性。
按照前述检验的结果,所提RS-ATSC算法可以使用车联网实时数据应用于实际来优化交叉口的安全。当应用于具体交叉口时,RS-ATSC算法可以被设计来用真实交通和几何数据来持续的自学习。Q表的重新训练应该在考虑设置特征的同时考虑本地驾驶行为。要适应交叉口的特征,应该对算法进行一些微小的调整,如进口数,车道数,相位数,后续相位和信号配时限制(最小/最大绿灯时间,黄灯和全红时间)。考虑到这些特殊设定的数据可能潜在地导致更好的安全和机动性表现。
4.5 联网车辆渗透率的影响
车联网技术应该是逐步部署的。在车联网技术完全部署之前的过渡期,路网上存在着联网车辆和传统车辆的混合流。然后,假设所有车辆都是联网车辆来验证任何ATSC算法是不可能的。然而,联网车辆的各种渗透率应该被考虑。因此,本文中,我们研究了所提RS-ATSC算法在两个交叉口中的各种车联网渗透率下的表现,范围从10%到100%。
各种联网车辆渗透率通过在Vissim中设定新的“connected vehicle”类和每个交通输入点的不同交通构成百分比来表现。在不完美的渗透率中,详细的轨迹只有联网车辆。因此,当在一个特殊的渗透率下应用RS-ATSC算法时,算法只捕捉到“connected vehicle”类中的瞬时车辆信息。为了定义实时状态和选择最好的动作,周期相关的参数V,A,S12和P用捕捉到的联网车辆轨迹估计,并将它们输入到实时安全模型中。每车道每周期的估计交通量在输入到实时安全模型中是被修正的(乘以修正系数)。这个值等于渗透率值的倒数。实时提取渗透率的值,考虑V2I通讯的联网车的数量和交叉口每个进口上游检测器检测的交通计数。与交通量不同,每车道每周期的A,S12和P与渗透率并不是线性关系。因此,这些值应该直接应用于实时安全模型来估计冲突率。然而,值得注意的是低渗透率,这些与周期相关的参数估计就不实际了。在9小时的分析时段仿真完成后,分析所有车辆的轨迹来评估算法表现。车辆冲突率和平均延误都是在每个渗透率下得到的,并且与ASC比较。
图11和图12展示了应用了RS-ATSC算法后各种渗透率下交叉口的平均冲突率和平均延误时间。对照组的ASC也被展示用于对比。如图11,RS-ATSC最大的安全性是在渗透率为100%时。在这个渗透率下,第一个交叉口的冲突率从0.165减少到0.084,第二个交叉口从0.173减少到0.109.然而,值得注意的是,当渗透率为50%时可以得到90%的回报。而且,30%的渗透率下似乎可以满足达到最大安全回报的50%。另一方面,平均延误的结果强调了RS-ATSC算法对机动性有积极影响。这意味着算法优化安全的同时并没有损失机动性。
总体来说,当联网车渗透率大于等于30%时,RS-ATSC算法是高效的。渗透率的值越大,算法对安全的优化就越有效。渗透率小于20%时,算法的优化不明显,因为算法不能合理精确的根据缺乏实时车辆位置和速度的信息来定义环境状态。
7. 摘要和结论
本文中,我们提出一种新的自适应控制算法,通过车联网实时数据来优化信号交叉口的安全。算法基于此前研究的实时安全模型。模型使用动态交通参数如队列率和车流波特征,来预测交通冲突并估计信号交叉口实时的安全。据我们所知,所提出的RS-ATSC是首个使用车联网数据来实时优化交通安全的自学习自适应算法。
RS-ATSC算法使用了强化学习技术。具体而言,是q学习无监督时间步长方法。在q学习中,状态用每个特殊的V2I DSRC域进口的追尾冲突率来定义。动作空间只包括两个代表固定相位的动作。因此,每个时间步长,强化学习智能体决定是否延长当前绿灯时间或转换到下一相位。回报函数定义为以每个进口的冲突率估计值的和为惩罚。此外,一些限制考虑了再实际条件下运用算法的可行性,包括适应黄灯时间,全红时间和最大最小绿灯时间,无论这些是否是必须的。
为了训练RS-ATSC算法,在Vissim平台上建立了一个单个交叉口。Vissim被外接程序控制来估计联网车环境和实时信号改变。学习过程中,仿真模型在随机交通量条件下运行了420个场景,每个包含20000s。RS-ATSC智能体在大约200个场景后获得最优策略。
训练后的RS-ATSC算法用加拿大一个城市的两个交叉口的真是交通数据验证。算法与现存的全感应式信号控制进行对比。总体来说,验证结果显示,所提算法要比实际中的ASC表现好。当应用RS-ATSC时,总体的追尾冲突率在第一个和第二个交叉口分别减少了49%和37%。此外对与这些安全的回报,RS-ATSC对机动性也有积极影响。与ASC相比,RS-ATSC分别在第一个和第二个交叉口的延误减少了12%和23%。停车数,最大排队长度和95位排队长度在第一个交叉口和第二个交叉口分别减少了47%,23%,51%和27%,17%和28%。
总之,RS-ATSC是有前途并且可行的算法,它可以在智能网联环境中优化实时安全。算法在追尾冲突数上要优于传统感应式信号控制。所提RS-ATSC算法在渗透率大于等于30%时表现特别高效。渗透率越大,安全效率越高。更重要的是,当应用在具体交叉口时,RS-ATSC算法可以被设计用这个交叉口的真实交通和几何数据来持续自学习。Q表考虑设置特征和本地驾驶行为来重新训练。为了匹配交叉口的特点,算法中还需要进行微调,如进口数,车道数,相位数,后续相位,信号配时限制。考虑这些特殊设置的数据可以更好的提升安全和机动性。
需要注意的是,通过RS-ATSC算法减少了延误时间,这个机动性表现并不能认为是优化。原因是RS-ATSC是以安全建模的算法,它的优化策略是基于最小交通冲突数来优化安全。其他自适应算法考虑以最小化延误时间作为首要目标,这样可以使机动性得到更好的优化。事实上,交通延误是交通经常拥堵最重要的原因并且导致严重的环境和经济成本。同时,交通安全也是导致高碰撞频率和信号交叉口严重的社会和经济成本。因此,自适应算法应该以安全和机动性为基本优化目标。因为之前的研究主要关注优化延误,本研究的主要贡献是提出了一种优化安全而不恶化机动性的新算法。基于本研究的结果,信号交叉口的安全和机动性不是冲突的目标,尽管他们的优化设计是不同的。本文所提RS-ATSC算法还可以进一步修改,将安全和机动性作为多目标优化问题。这种问题中,可以根据每个目标的成本来制定权重。这些权重在不同地区和管辖区是不同的。
本算法未来需要解决一些算法的限制。1,算法需要在非理想V2X通讯系统中进行测试。需要研究结果对联网系统的几个误差源的灵敏性。2,算法需要扩展到对多个交叉口的建模而非单个交叉口。在这种情况下,必须考虑到信号协调。3,算法应该在极度过饱和的条件下验证,这种条件下的排队长度超过了V2I DSRC域。4,算法的状态空间可以被扩展到将Q矩阵转换为神经网络。5,建议研究不同参数的结果的灵敏度,如折扣因素,更新时间间隔,V2I DSRC域。6,要结合其他冲突类型,如交叉和融入冲突。此外,RS-ATSC的回报函数和实时交通安全的表现可以考虑其他的交通冲突指标,如碰撞风险和碰撞预测数。7,需要开发多目标强化学习自适应算法将安全和机动性作为实时信号优化的两个重要的目标。

你可能感兴趣的:(交通文献阅读(英文),安全)