Fuzzy Q-Learning-Based Multi-agent System for Intelligent Traffic Control by a Game Theory Approach

文章简介
1.所属期刊:
ARABIAN JOURNAL FOR SCIENCE AND ENGINEERING(SCI 四区)
2.文章作者:
Abolghasem Daeichian
3.作者单位:
阿拉克大学,伊朗。
重点词汇
the control policy
spillover 外溢
in such a way that通过
adjacent 临近的
improvement 改善
grid 网格
drawback 缺点
hybrid 混合
corresponding 相应的
in the sense of 从。。。的意义上说
collected data 采集的数据
trial 试验
actually 实际上
explicit 明确的
will not be possible 非常困难
facilitated 有利于发展
is denoted by 被。。。代表
originates 起源于
resembled 像,类似
Profit 利益
expressed 表达
anticipation 预期
discrete离散
Problem Statements 问题描述
traffic situation 交通状况
Anyway 无论如何
valid 有效的
constant 固定,常数
重点句型
This paper introduces a multi-agent approach to adjust traffic lights based on traffic situation in order to reduce average delay time.
The results show superiority of Q-learning agent over uni-form traffic flows and constant-ratio traffic flows.
In [32],traffic lights are considered as agents which communicate with vehicles.
Controller at each intersection obtains optimum phase time through extracting if-then rules.通过模糊控制获取优化相位时间
Obviously, the more cars information is received,the model will be more complicated and state space will be larger.
If the agents are not aware of rewards corresponding to various actions, selecting a proper action would be challenging. 表示很困难,用挑战
Zero value for this factor makes the agent opportunist which means that the agent only considers current reward.
When the dimension of state and action space becomes larger, the size of search table will be so large that it makes the algorithm very slow due to computational time。长难句,that it makes
This update equation takes the neighbor agents’ decision into account。take … into account
This engine takes its own tg , the neighbor agents’ tg , and number of waited vehicles and gives f (i , j )
Suitable choice for reward and weighting function plays a significant role in agent learning.是重要的
有趣的结论
γ = 1 means that the agent will wait for a longer time to achieve a large reward.
文章翻译
Fuzzy Q-Learning-Based Multi-agent System for Intelligent Traffic Control by a Game Theory Approach

摘要:为了减少延误,本文提出了一种基于交通仿真的多智能体信号调节方法。该交通模型中,每个交叉口的信号灯都被自主智能体控制。因为每个智能体的决策影响着相邻智能体,本方法创造了一种典型的非平衡状态。因此每个智能体不仅需要从过去的经验中学习,还需要考虑相邻的智能体的决策来克服交通网络的动态改变。模糊q学习和博弈论基于先前经验和相邻智能体的决策来执行。仿真结果显示,所提算法要优于固定配时,模糊控制,q学习和模糊q学习方法。
关键词:交通控制,多智能体系统,博弈论,模糊Q学习
引言:
城市化,车辆的增加和交通设施的缺乏提升了行程时间,燃料消耗和空气污染。因此,城市生活与浪费时间,缺乏清新空气和噪声污染为伴。传统的固定交通管理系统不能适应大交通网络的复杂性和动态性。但是,人工智能被大量应用于智能交通系统,多智能体系统是智能交通系统的一种方法。这个框架是由一群智能和自主的智能体在同一个环境中工作。交通信号灯,车辆和行人在城市交通网络中被考虑作为智能体。每个智能体需要从过去的经验中学习如何近似获取更优的决策。多智能体模型同强化学习技术一样被广泛的应用于ITS中。
在大量的研究中,任何一个智能体都只考虑了它自己交通状态来决定控制策略。例如,文献[2]中研究了两相位的单信号交叉口。等候信号灯的车辆排队长度被考虑作为智能体测量的状态。它决定了延长绿灯时间还是改变为下一相位,这样使等待信号灯的车辆的数量最小。结果显示了q学习智能体在正常流量和常数比例交通量下的优势。在文献[32]中,交通信号灯被考虑作为与车辆交流的智能体。流行的强化学习算法——q学习,用来提供控制交通信号的方案,这样车辆估计他们的等待时间并且把这个时间转换成交通信号灯。这项研究的结果显示与传统信号灯相比,等待时间减少22%。文献17用多目标强化学习来控制一些交通信号灯。优化目标是减少下一个信号交叉口的停车数,平均停车时间和车辆排队长度。结果显示,多元强化学习可以高效的防止拥挤条件下的排队外溢来避免大规模的交通拥堵。Bull等人用学习分类器来控制4个交通信号灯。这项研究中,每个交叉口的交通信号灯包括两个相位,其中一个是东西相位另一个是南北相位。每个交叉口的控制器通过提取‘if-then’模糊规则来获取优化相位时间。结果显示,使用了学习分类器的交通信号灯的表现要比固定配时信号灯有显著提升。文献28中,建模的学习目标是基于车辆等待时间和的状态。显然的,获取的车辆信息越多,模型就会越复杂,状态空间就会越大。这个问题是大交通网络的明显的问题之一。文献23介绍的自适应控制用一个映射到状态的近似函数来规划。模糊推理引擎用来减少q算法中的系统错误[22]。结果证明在模糊框架下的q学习,不仅运算速度快而且减少了交叉口延误。文献18提出了一种多智能体模糊方法,在模糊推理引擎里用q学习来更新模糊规则集。针对给定的非静态环境,提出了一种新的估计不完全环境模型的方法。该方法在9个交叉口的网络中应用。该研究显示,所提方法的表现要优于无模型方法和有模型方法,但是不能广泛的应用于大的交通网络。
其他研究中,智能体通过考虑其他智能体来决定他们自己的策略。例如,文献21中认为智能体间的协同是值得期待的。智能体不仅只考虑本交叉口的等待中的车辆数,而且他们可以考虑临近的交叉口的停车。在3个不同场景中的5个交叉口应用强化学习算法。总体结果显示延误时间得到改善。文献32中,强化学习用来控制交通网格,这个网格是一种协同学习类型,可以同时控制交通信号和确定优化路线。该方法的主要缺点是需要高的通信和信息交换代价,特别是当网络中的交叉口增加时。协同强化学习尝试通过计划学习从邻近智能体中学习知识[26]。该方法应用于都柏林的一块包括64个交叉口的区域。
本文介绍了一种基于多智能体框架的模糊控制q学习和博弈论的混合交通控制方法。它开发了模糊化和同其他智能体交互的优势。交通网络模型考虑了在每个交叉口决定的绿灯相位时长的自主智能体。不同的交叉口输入的车辆数由相应的智能体检测。任一智能体可以通过每次决策的回报值来交互。本文提出了每个智能体模糊化输入并且用于模糊推理来估计状态模型。智能体使用q学习算法通过博弈论建模来从过去的经验中学习并考虑与邻近智能体交互。智能体会获得一个它本身的交通状态的回报值和一个从邻近智能体的每次决策中得到的回报值来更新q算法。本算法中,邻近的回报值和本身的加权更新q值要进行模糊化。本算法应用于5个交叉口的交通网络。仿真结果显示所提算法要在平均延误上优于固定配时,模糊控制,q学习和模糊q学习控制。
Q学习和模糊q学习
智能体在动态环境中执行的目的是优化决策。如果智能体不能感知到其它智能体相应的回报值,选择适合的动作就会很困难。为了达到这个目的,要基于采集的数据来学习调整智能体的动作选择。每个智能体通过强化学习的试验和误差来尝试优化其在动态环境中的动作。强化学习实际上是如何把不同的状态映射在动作上来获得最好的结果或最高的回报值。在许多情况中,动作影响着下一步的回报值和其相应的步骤的回报值。现有的强化学习包括基于模型和无模型的。在无模型强化学习中,智能体不需要明确的环境模型,因为其动作可以通过回报值直接选择。Q学习是无模型方法,智能体不通过模型过渡。假设智能体处在一个状态s,选择一个动作a,从环境中得到回报值r,并改变到状态s’。这个过程被表示为一个元组(s,a,r,s’)。状态动作值代表着从在状态s中选择动作a得到的总的回报结果,用q值Q(s,a)表示。智能体开始采用随机值,之后他们选择的每个动作都是以元组(s,a,r,s’)的形式。对于每个元组,状态动作值可以由如下公式得到:
折扣率决定了未来的回报。零值代表智能体是投机的,意味着智能体只考虑当前的回报。折扣率为1时表示智能体会长时间等待一个大的回报值。Q学习会收敛于一个q值,这个q值是当所有状态-动作对都有一定概率是成熟的,学习率在这个时候减少。总体来说,强化学习在解决小范围离散状态和动作空间是有用的。当状态和动作空间变大,查找表的规模将变大更大,这使算法的计算变得非常慢。另一方面,当动作或状态不断地被声明,使用查找表变得非常困难。为了解决这一问题,本文采用模糊理论。如果智能体有一个适当的模糊集,作为关于期望区域的专家知识,模糊的问题可以被解决。因此智能体可以学习模糊目标和未知环境。事实上,去除q表有利于发展大空间的动作。在这个算法中每个元素都是基于量化的值和模糊推理。模糊推理系统用来处理输入,q学习算法用接下来的部分和它的主动规则作为状态。Q算法的回报信号根据模糊逻辑,环境回报信号和当前动作的表现建立。它尝试去选择具有最大回报信号的动作。学习系统从j个动作中选择一个给每个规则。a[i,j]代表第i个规则的第j个可能动作。根据下列规则,其值由q[i,j]表示。学习应该找到每个规则的最好的结果。如果智能体选择了一个造成高值的动作,它可能学习到了最优化的策略。因此,模糊推理系统可能获得每个规则需要的动作。
ITS中的博弈论
动作的环境和博弈论的关系源于每个状态环境可以比作是博弈环境。玩家的利益函数是当前环境的状态,玩家的目标是到达平衡或者平衡点(到达最好的决策)。一些学者研究了博弈论在信号控制的应用。他们将博弈论整合到多元交叉口。其中一些把交通问题看作是严格的博弈模型。其他的修正了基于博弈论的智能体学习方法。文献5中,信号交叉口基于马尔科夫链建模,每个交叉口被看作是非合作博弈,每个玩家尝试去优化排队。结果以纳什均衡和斯塔克伯格均衡的形式给出,仿真结果显示排队长度要小于自适应控制。文献8,一种双玩家非合作博弈被用户寻找路径最小化期望旅行损失和选择表现场景来最大化旅行损失连接。这说明了纳什均衡点测量了网络表现。智能交通控制被表述成为一种古娜博弈,交通权和使用者同时选择策略作为一个双层的古娜博弈,交通权决定信号根据使用者反应的预期设置。文献33,博弈论用来解决基于q学习的交通信号控制的智能体间的合作。指定策略和动作。然后,提出了一个通过博弈论作为四个参数组交互的数学模型。
问题描述
考虑被非集中式管理的自动智能体控制的交通网络中每个交叉口信号灯。一些安装在周边街道地下的传感器,或者每个交叉口的交通摄像机为相应的智能体提供交通状况信息。一个智能体需要决定南北和东西方向的绿灯时长。此外,所有的智能体都与相邻的智能体进行交互。无论如何,智能体预期要优化交通信号灯的制定,从平均延误的意义上,基于传感器和相邻智能体得到的信息。
由于信息的分布,智能体可能对其他的决定知之甚少。即使一个智能体在事先知道其他智能体的决策,这是无效的,因为其他智能体也在学习。因此,环境是动态的,其他智能体行为可能需要随时间进行改变。缺乏其他智能体的预报会导致问题解决程序的不确定。本文寻找一个信号控制智能体的决策算法,考虑了相邻智能体和本身的信息。
所提算法
我们考虑一个固定的时间段T作为绿灯加红灯相位。因此,如果智能体决定绿灯相位时间tg,然后红灯相位时间是tr=T-tg。任何典型的智能体i接收通过自身的传感器和绿灯时段的邻近智能体j得到的南北和东西路的车辆数来制定自身的绿灯相位时长。本文提出一种自动智能体,其结构如图1.
由传感器测量得到的东西和南北街道的车辆数进行模糊化。而后,模糊推理引擎的规则公式如公式2,用来规定对应的输出隶属函数。最后,去模糊化得到南北的绿灯时间。因此,其他相位的绿灯时间就出来了。我们提出,通过公式4更新的q值函数,每个公式2中动作的值被表示为q[I,j]。该更新等式考虑了邻近的智能体。
第i个智能体通过回报rj(si,ai)和权值函数f(i,j)考虑了邻近智能体j。回报的计算基于从智能体和当前交通环境中以模糊的方式进行决策所得到的平均延误。模糊推理引擎在模糊化后得到这两个输入值,在去模糊化后给出回报值。如图1,权值函数f(i,j)代表了rj(si,ai)再第i个智能体上的影响。该权重也是通过模糊推理引擎计算得到的。该引擎输入自身tg,邻近智能体的tg和等待车辆数来得到f(i,j)。在智能体学习中回报值和权值的合理选择是重要的。图1结构的智能体依照如下算法运行:

  1. 第i个交通信号控制智能体的初始q值为0
  2. 第i个交叉口的当前状态si被东西和南北的传感器所观测
  3. 通过模糊推理系统选择合适的期望状态估计
  4. 计算第i和第j交通信号控制智能体的相关回报值和相邻智能体的权值函数
  5. 得到新的状态
  6. 通过公式4更新q值
  7. 回到第2步,直到q值小于哈哈
    仿真结果
    考虑一个中心和四个邻近的交叉口的交通网络。交叉口的结构特征,交通信号制定和输入车辆数决定了每个交叉口的延误。我们使用美国通行能力手册中给出的交通模型。
    仿真步骤如下:
  8. 输入交通量在[0,3500]随机输入
  9. 通过等式5计算平均延误
  10. 每个智能体决定绿灯时间
  11. 回到第一步直到模拟时间结束
    权值函数FIS以车辆数,自身绿灯相位时长和邻近智能体相位时间作为输入。图2展示了车辆数的隶属度函数。图5展示了自身和邻近相位绿灯时长的隶属度函数。形心去模糊化应用于在输出隶属度函数计算权值(图6)。
    最后,智能体用模糊q学习,通过公式4的q值更新规则,其中学习率和折扣率分别设置为0.5和0.7.每个测量的车辆数的隶属度函数如图7.输出值绿灯相位时间的隶属度函数如图8.
    所提方法与模糊q学习,q学习,模糊控制和固定配时的总延误进行比较。平均延误时间如图9.总延误如图10.结果显示,总延误从固定配时的超过50s下降到将近15s。
    结论
    本文中,提出了一种交通网络智能控制方法来减少平均延误时间。每个交通信号灯都被考虑作为学习智能体。本文提出了智能体的结构。每个智能体学习去通过模糊q学习算法来决定绿灯相位时间,并通过博弈理论修正。每个智能体从邻近的智能体接收回报值。邻近的回报值和权值函数是学习算法的因素。这些参数通过FIS模糊化。测量并模糊化每个路口的车辆数用来决策过程。仿真结果与固定配时和其他智能方法进行比较。结果显示,我们提出的方法降低了交叉口平均延误。

你可能感兴趣的:(交通文献阅读(英文),c语言,开发语言,后端)