Multi-Agent Deep Reinforcement Learning for Large-scale Traffic Signal Control

目录

摘要

引言

方法


总结

本文将A2C算法与IQL算法结合,应用到多体的交通信号灯领域,并且为了解决部分可观测的、非稳定的问题,采取了综合邻居信息和空间衰减因子的方法。

摘要

对于复杂城市交通网络的适应性交通信号灯控制(adaptive traffic signals control),强化学习(RL)是一种非常有前景的方法,并且深度神经网络进一步增强了它学习的能力。

问题:然而,对于大规模的ATSC,由于联合动作空间的极度高维度,集中化的RL是不可行的。MARL(multi agent RL)通过分散全局控制到每一个局部的RL智能体,克服了扩展性的问题,但是引入了新的挑战:从每一个局部智能体的观点来看,由于智能体之间有限的通信,环境变成部分可观测的了。

大部分现有工作关注于在传统的Q-learning智能体中,设计一个高效的通讯和协调。

本文(首次)提出一个完全可扩展而且去中心化的MARL算法,适用于ATSC领域的领域领先的算法A2C(advantage actor critic)。

本文提出的MA-A2C独立的A2C、独立的Q-learning算法,在一个大型的模拟交通网络和一个真实交通网络中对比,模拟的是高峰时的交通动态。结果显示出本文方法的最优性、鲁棒性和采样效率都优于其他领先的去中心化MARL算法。

引言

第一个形式化IA2C到ATSC的,通过把IQL与A2C结合起来。

为了解决部分可观测、不稳定性问题,我们使用:

提取邻居智能体的观察和指纹,用到state定义;-〉增加拟合能力/fitting power

引入 空间衰减因子,越近的影响越大。-〉减少拟合难度

从而构造出stablized IA2C,称之为multi agent A2C。

方法

MDP设置

1. 动作定义 

使用Phase itself。(猜测,指的是每次决定下一时段使用的phase为哪一个吧!)

2. 状态定义

排队的第一辆车的等待时间,50m内的等待车辆数。(定义的有些跳跃,有些变量没有解释,j是进入路口i的来向路口吗?)

3. 奖励定义

该路口的排队车辆数目,与等待时间的累积加和,在t+Dt时间内(指的是从最开始到决策执行后吧?)

DNN设置

1. 网络结构

Multi-Agent Deep Reinforcement Learning for Large-scale Traffic Signal Control_第1张图片

如果MDP只知道当前的状态,那么很容易变得不稳定,所以需要记录历史信息;而如果加入直接输入所有历史,又会产生维度爆炸的问题,所以我们使用LSTM作为DNN的最后一层。

作者说Actor与Critic分别训练,而不是使用共享的底层结构,那么这个图只是这样画着说明,实际上,训练的时候是分开的,他们的参数也是不同的吧!

2. 正则化

对于训练DNN,正则化很重要(好吧,我功力太浅了吧,并不能感受到。)先使用贪心策略,在环境中运行一段时间收集数据,从而获得合适的正则化。正则化的状态剪枝到[0,2],奖励值则剪枝到[-2,2]。(然而并不理解这是怎么做的,以及这样做的必要性哎)

你可能感兴趣的:(深度学习,强化学习,人工智能,算法,强化学习)