读书笔记 - Multi-agent Reinforcement Learning for Traffic Signal Control

《Multi-agent Reinforcement Learning for Traffic Signal Control》

在本文中,我们将 traffic signal control (TSC) 问题制定为 折扣成本马尔可夫决策过程(MDP) 并应用多智能体强化学习(MARL)算法来获得动态TSC策略。
我们将每个交通信号交叉点建模为独立代理,代理使用基于e-greedyUCB探索策略的多代理Q学习以循环(RR)方式决定其阶段的信号持续时间。它根据从其邻近代理收到的成本反馈信号更新其Q因子
我们通过对VISSIM的仿真表明,我们的算法在两个真实的道路网络上的性能明显优于标准固定信号定时(FST)算法和饱和平衡(SAT)算法。


背景

实时流量根据复杂的随机过程演变。马尔可夫决策过程(MDP) 为实现这一目标提供了一个良好的框架。然而,状态和动作空间的维度随着道路网络中交叉点(交叉点)的数量呈指数增长。因此,可能不得不求助于近似方法来解决MDP

多智能体强化学习(MARL) 为我们提供了一个方便的数学平台来解决这个问题。强化学习(RL)方法在这里非常适合,因为它们在线并且从经验中学习良好的控制策略。多代理系统也非常适合,因为它们有助于控制状态和动作空间的维度,因为每个代理只查看状态空间的一部分并控制它们。

Corridor-Based Coordination of Learning Agents for Traffic Signal Control by Enhancing Max-Plus Algorithm

有大量研究旨在通过MARL方法最大限度地减少道路使用者的延迟。在【5】中提出了多代理系统对TSC问题的可行性和适用性的调查。在【11】中提出了max-plus算法作为分散配置中的协调策略。在【1】中已经提出了用于大型交通网络的多代理Q学习,其中基于每个交叉点处的本地信息更新Q因子。

【1】 M. Abdoos, N. Mozayani, and A.L.C. Bazzan. Traffic light control in non-stationary environments based on multi agent q-learning. In Intelligent Transportation Systems (ITSC), 2011 14th International IEEE Conference on, pages 1580–1585. IEEE, 2011.
【11】J.C. Medina and R.F. Benekohal. Traffic signal control using reinforcement learning and the max-plus algorithm as a coordinating strategy. In Intelligent Transportation Systems (ITSC), 2012 15th International IEEE Conference on, pages 596–601. IEEE, 2012.


具有 函数逼近(FA) 的RL在【13】中被研究用于处理大的状态动作空间。这减轻了维数效应的诅咒,但却带来了特征选择的问题。此外,只有在更强的假设下才能提供具有FA的RL的收敛保证。
在【4】中,基于车辆的表示已经被用于从样本构建环境模型,并且应用动态编程来估计最优值函数。
在【2】中描述了具有RL的多代理系统,其中使用了两种代理 - 中央代理和外部代理。中央代理学习使用值函数近似来控制Q学习,而出站代理遵循最长队列优先算法。由于FA不保证多代理系统的收敛性并且所获得的策略是次优的,[2]的作者提到了一些提高FA性能的技术。

【13】L.A. Prashanth and S. Bhatnagar. Reinforcement learning with function approximation for traffic signal control. IEEE Transactions on Intelligent Transportation Systems, 12(2):412–421, 2011
【4】B. Bakker, S. Whiteson, L. Kester, and F. Groen. Traffic light control by multiagent reinforcement learning systems. Interactive Collaborative Information Systems, pages 475–510, 2010
【2】I. Arel, C. Liu, T. Urbanik, and A.G. Kohls. Reinforcement learning-based multi-agent system for network traffic signal control. Intelligent Transport Systems, IET, 4(2):128–135, 2010


在【16】中描述了协作RL算法,其中Q学习代理根据玻尔兹曼动作选择技术建立其动作选择。 在[16]中,尽管具有用于相序的自适应RR方案,但是同样不是严格的RR,因为那里的动作空间由零第二持续时间相组成,并且这允许在相序中跳过一些相位。

【16】A. Salkham, R. Cunningham, A. Garg, and V. Cahill. A collaborative reinforcement learning approach to urban traffic control optimization. In Web Intelligence and Intelligent Agent Technology, 2008. WIIAT’08. IEEE/WIC/ACM International Conference on, volume 2, pages 560–566. IEEE, 2008.


引出本文

在本文中,模拟每个交通路口作为代理。每个代理根据从其邻居获得的反馈成本信号,使用基于e-greedy或UCB探索策略的Q-learning来更新其Q因子(参见第III部分)。然后,基于所学习的Q因子,代理确定其控制的多相交叉点处的阶段的绿色持续时间。
阶段的切换顺序是RR。这更多的受驾驶者心理学的影响,他们通常更喜欢RR调度红绿灯。

• 它能够解决维度的诅咒,因为每个代理只处理与其自身交集关联的状态空间部分。
• 代理用于更新Q因子的成本信号很简单,但有效地达到了近乎最优的策略。
• 动作空间的建模导致每个交叉口相位的RR调度。这种调度更实用,因为除了基于交通状况而变化的绿灯时间之外,它还有助于道路使用者提前了解他们的转弯。
• 每个交叉口RR调度的第一阶段最初随机设置为一个可能阶段。随着学习的进行,交叉口的代理异步地相互交互以实现自组织行为。

本文的其余部分安排如下。在第二部分中,我们将TSC问题制定为MDP。然后,第三部分介绍了基于e-greedy和UCB的探索中的MARL算法,以解决MDP问题。第四节提供了我们的算法与FST和SAT算法的性能比较。最后,第五节提供了结论性意见


TSC定义为MDP

MDP是 controlled Markov process ,在每个状态中选择动作以最小化长期成本。 MDP框架需要描述状态,动作和成本costs。我们考虑离散状态和动作空间。


状态空间

给定交叉口 j 的状态 s j s_j sjL + 1维的向量,其中L表示该交叉口进入通道的数量。状态向量的第i个分量 q i j q^j_i qij 表示该交叉口第i个车道的队列长度。最后一个分量 q L + 1 j q^j_{L+1} qL+1j 表示已设置为绿灯的相位的索引。
在这里插入图片描述

我们定义MDP 道路网络的状态空间 是网络中存在的 交叉口状态空间的笛卡尔积 cartesian product
在这里插入图片描述


这带来了一个问题,状态空间随着网络中的结点数迅速变大。在我们的MARL算法中,我们通过分别考虑每个交叉点的每个交通信号控制器(SC)作为代理来克服这个问题。这相当于说每个代理只观察一部分状态空间,然后得到的进程是部分可观察的MDP(POMDP)。

尽管使用分散设置大大减小了状态空间的大小,但是在任何给定交叉点处的状态空间的基数(可能状态的数量)上限为 ( q m a x ) L (q_{max})^L (qmax)L,其中 q m a x q_{max} qmax表示在那个交叉口任何车道的最大可能队列长度。L表示该交叉口的车道数。请注意,我们不要求所有车道的长度都相同。这个数量仍然存在该交叉口的大状态空间问题。


因此,我们将队列大小分成三个部分 - {low = 0,medium = 1,high = 2}。不需要关于队列长度的精确信息,因为在实际场景中,通常难以获取该信息,并且此表示还能控制状态空间的大小。

为了区别队列大小,放置两个传感器: 一个距离交通灯D1,另一个距离D2(D1 先在D1处触发传感器, 如果它没有检测到车辆,我们将队列长度推断为低;如果D1处的传感器检测到车辆,那么我们也在D2处触发传感器。 如果后一传感器未检测到拥塞,我们将队列长度推断为中等;最后,如果后一传感器也检测到拥塞,则可以推断队列大小为高。
读书笔记 - Multi-agent Reinforcement Learning for Traffic Signal Control_第1张图片

动作空间

类似于状态空间减少的精神,我们分别考虑每个交叉点的动作空间,以避免动作空间爆炸。

代理的动作对应于指定当前相位的持续时间。我们将动作空间A离散化为三个部分 - {low = 10,medium = 20,high = 30}秒,用于处理动作空间中的维度诅咒。

读书笔记 - Multi-agent Reinforcement Learning for Traffic Signal Control_第2张图片
我们的目标是获得每个路口的策略,以便最大限度地减少道路使用者的长期平均延误。


cost feed back signal

读书笔记 - Multi-agent Reinforcement Learning for Traffic Signal Control_第3张图片

存在于交叉点的每个代理从其邻居获得成本反馈信号 cost feed back signal,并基于e-greedy或UCB的探索策略使用 Q-learning 更新Q因子。然后,每个代理根据当前学习到的Q因子决定其动作。


算法

读书笔记 - Multi-agent Reinforcement Learning for Traffic Signal Control_第4张图片
在这里插入图片描述
在这里插入图片描述


模拟

VISSIM交通模拟器。VISSIM是一种微观,时间步和基于行为的模拟软件。微观建模方法试图提供交通动态的准确描述。
实验考虑了两种不同的道路网络场景。

在所示的图中,X轴对应于算法的迭代,并且Y轴对应于道路使用者经历的平均延迟平均停止延迟
车辆的平均延迟计算为车辆在没有交通时从源到目的地所花费的时间和有交通时的平均时差
类似地,平均停止延迟计算为每个车辆在交叉点附近的平均停顿时间

算法可以收敛到明显优于FST和SAT算法的策略。 Q-UCB甚至优于Q- e-greedy,因为Q-UCB的探索性动作选择是基于学习的Q值以及过去选择动作的次数,而Q- e-greedy的动作选择仅基于学习的Q值。


总结

可以用资格跟踪eligibility traces【17】来扩展我们的算法以实现更快的收敛。
此外,在我们的实验中已经确定了离散的队列长度和相位持续时间,可以自适应地调整这些参数以获得最佳性能。



你可能感兴趣的:(交叉口控制)