交通流优化的一种强化学习方法

5fd24802c878707025fabe8ecf76236a.png

文章信息

2150e7a25ab593cb27e83bce65f1601a.png

《Traffic flow optimization: A reinforcement learning approach》是2016年发表在Engineering Applications of Artificial Intelligence上的一篇文章。

56f9f504b6c01a11f6ee2aa14ea4f1ee.png

摘要

74ccd581f2b31629cf47f6b34ee7fc34.png

交通拥堵会造成诸如延误、燃料消耗增加和额外污染等重要问题。本文提出了一种基于强化学习的交通流优化方法。我们表明交通流优化问题可以表述为一个马尔可夫决策过程。我们使用Q-learning来学习规定高速公路上允许的最高行驶速度的策略,从而减少交通拥堵。我们的工作与现有方法的一个重要区别是我们考虑了交通预测。一系列的仿真实验表明,所得到的策略在高交通需求下显著减少了交通拥堵,并且加入交通预测提高了所得到的策略的质量。此外,这些策略具有较强的鲁棒性,可以处理不准确的速度和密度测量。

273fdd81761105ffda1cbb679e708983.png

引言

5f844a811c592d773c762cdc2693fc5a.png

为了减少交通拥堵,不需要增加道路的容量,而是可以安装向汽车司机传达限速信息的可变信息标志。这些速度限制可以根据当前的交通状况进行调整,这样的速度限制对交通流有积极的影响。虽然已经开发了一些可变信息标志的控制算法,但大多数这些方法都是反应性的,因为在实际检测到拥堵时才会分配速度限制。在本文中,我们表明人工智能技术可以在实现主动控制分配速度限制中发挥重要作用。

在本文中,我们提出了一种强化学习算法,该算法根据高速公路的特点以及占用高速公路的需求量和对未来交通状况的预测,自动学习何时应该为高速公路分配限速,以减少拥堵。结果表明,该算法能够在高度复杂的领域学习主动控制规则,并表明强化学习具有解决交通拥堵问题的潜力。

我们论文的主要贡献可以总结如下。首先,我们将交通流优化问题表述为马尔科夫决策过程,并表明Q-learning方法可以应用于找到规定如何将速度限制分配给高速公路路段以减少交通拥堵的策略。其次,我们展示了如何将交通预测包含在我们的方法中。第三,我们讨论如何使用人工神经网络来近似定义速度限制的策略。通过仿真,我们表明我们的方法能够减少小路网中高交通需求下的旅行时间和拥堵,并且该策略具有足够的鲁棒性,可以处理不准确的速度和密度测量。

8da9fe15ecea93a10b25c96115b858e7.png

交通流优化问题

15d4335ee9effbdcbf1f71470625c182.png

交通拥堵导致的车辆延误可以通过计算车辆小时数来衡量。这是一个直接将拥堵与车辆行驶时间联系起来的指标。一个类似的度量是车辆的总延误时间,它是与自由流情况下的旅行时间相比的总额外旅行时间。

正如引言中提到的,扩大路网并不总是可行的,因此需要其他的解决方案。一个典型的解决方案是设定速度限制,这已被证明能够减少高速公路上的拥堵。为高速公路设定速度限制的问题如图1所示,其中灰色区域代表入口匝道附近的拥堵区域,箭头表示车流方向。如入口匝道的交通需求量较大,可对上游路段设置速度限制,以减少拥堵。但是,限速规定并不简单,因为很难决定在什么时候实施限速,在哪些路段降低限速。此外,为了确保安全,应该平稳地提高和降低速度限制,并应防止交替的速度限制顺序。

交通流优化的一种强化学习方法_第1张图片

c3723c65baef7f762fc567ccdf04e189.png

交通流模型与强化学习

de119dfa1e5aa7fd2498c851efcf389f.png

(1)交通流建模

在交通流领域,高速公路交通流建模与优化方面已经进行了大量的研究。交通流模型可分为微观和宏观两类。微观模型根据车辆的速度、位置和车辆本身的特征(例如,最大速度和加速度)来定义单个车辆的交通流行为。这样的模型使得建立准确的交通流模拟成为可能。不幸的是,它们的计算成本很高,这使得在许多应用中使用它们是不可行的。宏观模型则是利用公路路段的平均速度、流量和密度来模拟交通流。它们相对容易实现,且具有较低的时间复杂度,因为涉及的计算量是固定的,不依赖于高速公路上的车辆数量。此外,这类模型的分析方面使其适合于交通控制系统的设计,并且宏观模型提供了期望精度和计算复杂性之间的良好平衡。

我们使用宏观METANET模型的一个改进版本。METANET模型以封闭形式计算高速公路各路段的速度、密度和流量值,这些值取决于当前的交通状况和出入口匝道的交通需求量。改进后的模型支持多车道行驶,并包含额外的边界条件。我们考虑由N个路段组成的单向公路,如图2所示。模型中,T表示时间步长;ki(n)表示第i路段在时间nT的密度,其中n为时间步序号。变量vi(n)是时间nT时路段i车辆的平均速度,变量qi(n)表示在时间nT从路段i到进入路段i+1的交通量。变量Mi和Li分别表示路段i的车道数和长度。变量wi(n)表示在时间nT与路段i相关的入口匝道的排队长度。模型的一个重要参数是交通堵塞密度kjam,该密度时达到最大占有率,速度接近于零。自由流速度vf是在不受其他车辆驾驶行为约束的情况下,车辆的期望速度。我们介绍的符号将在第5节的MDP公式中使用。

交通流优化的一种强化学习方法_第2张图片

(2)强化学习

强化学习关注智能体与环境的相互作用,以最大化他们收到的累积奖励信号。强化学习问题可以建模为马尔可夫决策过程(MDP),这是序列决策问题建模的一个数学框架。MDP由有限的环境状态集S和有限的动作集A组成,可以执行这些动作来改变环境的状态。022b7f914123dd049349aa4e72d1dc8b.png是通过执行动作a从状态s转换到s'的概率。如果任何状态转换只依赖于最后的状态,并且有条件地独立于所有其他先前的状态,则MDP的状态转移被称为马尔可夫的。当执行动作a后状态由s变为s'时,环境给予的奖励为dd6a5d0d3cace940800104fcb5d2beb8.png

MDP的解由策略π:S->A组成,该策略定义了在每个状态下应该执行的动作,以最大化智能体在未来收到的期望折扣奖励。对于每个状态s和动作a,在状态s执行动作a时的期望折扣奖励用cdc8a500070c13d513c9ad514b29c5dd.png表示,也被称为Q 值函数。最优策略π*可以用Q值表示为b2dab3178361f6530c9b4ec9733a8a09.png,定义为:

3cb7a49dee7eea04d6f1a2962d8650c3.png

其中,270e8b45c1a9b46493a9ca03069d3fbe.png是折扣率。

最优Q值和MDP的解可以使用动态规划计算(例如,值迭代算法)。然而,如果转移概率和奖励值最初是未知的,那么可以应用无模型求解方法来学习策略。例如,Q-learning算法通过在环境中执行动作和观察奖励来学习Q值函数。如果智能体当前处于状态s,执行动作a转移到另一个状态s',并观察到奖励r,则使用以下规则更新0d45bc7cc2c5fc144b9099c9a247306a.png的估计值:

3fd88d327d11c4ab717695da21e6de0a.png

其中,4714ba6d0523419b3cd573c8056bf70e.png是学习率。

7646c3a45be43820a8b4f291927590b8.png

制定马尔科夫决策过程

a39eead8e436ea10fa3ec3c59a4192be.png

(1)状态描述

在本节中,我们定义了高速公路状态,它描述了高速公路在特定时间点的状态。假设速度限制在所谓的控制时间步内被改变。我们定义控制时间步长854b4715f81cc447dd21adeb7a583b86.png,其为仿真时间步长T的倍数。这意味着只有当METANET仿真步长是c的倍数时才能改变速度限制。

我们用st表示仿真时间步ct时的状态。状态描述了高速公路的交通状况,其定义如下。在我们的定义中,我们使用了4.1节和图2中介绍的变量。

交通流优化的一种强化学习方法_第3张图片

第一个和第二个状态变量分别表示分配给高速公路的现在和以前的速度限制。在初始状态下,假设速度限制等于,其为高速公路可以被赋予的最大速度限制。在下一节中,我们将使用前两个状态变量来限制动作空间。其余状态变量表示路段1-N的速度和密度,对应图2中的路段。状态变量使自由流速度vf和堵塞密度kjam归一化,使状态变量位于区间[0,1]。例如,如果第1路段的速度等于60公里/小时,自由流速度等于120公里/小时,那么第三个状态变量将是0.5。高速公路路段对应的速度和密度信息需要包含在状态描述中,因为在高速公路拥堵的情况下,速度和密度信息会影响算法检测将要到来的交通堵塞的能力。当需要考虑路网中更大部分时,可以通过增加额外路段的信息来扩展状态描述。应该注意到我们MDP的状态空间不是马尔可夫的,这一点我们将在第6.1节中进一步讨论。

(2)动作空间

动作空间A包含可分配给各路段的限速值,应按照交通法律法规进行定义。动作d8c67c1874c04a024f1235b9d6a69b96.png是在仿真时间步长ct时选择的动作。例如状态空间76ca382245b3ebb4543056f14c8a75e6.png,这是一系列可以分配给高速公路路段的速度限制。为了平稳地提高和降低速度限制,并防止振荡速度限制,可以通过使动作依赖于状态来限制动作空间。我们用54835a3bcd2973ddfeeb8fdb47adf0f9.png表示在状态7c566cb926070d490afe86830012444b.png时可以执行的动作集合,这取决于st中的前两个状态变量。例如,如果我们假设在状态st时当前的速度限制是120,那么受限制的动作空间可以定义为4a1cab2c63bf01fe27f99800e4b5fdeb.png以确保不能选择限速60。速度限制也可以分配到高速公路的特定部分,而不是分配到整个高速公路。例如,速度限制通常指定在入口匝道或道路交汇处附近拥挤的区域,以及上游几公里处。

(3)奖励函数

奖励函数可以用来编码需要优化的目标函数。在本文中,我们需要减少交通拥堵,我们的奖励函数与交通拥堵导致的车辆延误直接相关。我们根据车辆小时数(即车辆在高速公路上行驶的时间)计算奖励函数。奖励rt取决于时间tc到时间(t+1)c之间的交通状况,定义如下:

b83fcae5dc079fa404f86ed3733f23ae.png

其中,u是一个阈值。函数h(b,e)计算METANET仿真时间步b和时间步e之间的车辆小时数,定义为:

cb9d9506ba60f2f3625480c9fdee0c9a.png

奖励是与自上一个控制时间步(即之前的限速分配)以来的车辆小时数成比例的惩罚。因此,从时间步tc到(t+1)c的车辆小时数使用函数h计算。阈值u可以这样定义:如果高速公路上的最低速度超过阈值,就没有惩罚。在所有其他情况下,惩罚与车辆小时数成正比。

(4)包含交通预测

我们在5.1节中介绍的状态描述包含了高速公路路段的当前速度和密度,但状态没有包含关于未来的明确信息。但是,在进行控制决策时考虑交通预测是有益的,因为主动降低速度可以在高速公路变得拥挤之前协调交通流。MDP的价值函数已经考虑到未来奖励的折扣,但状态也可以通过预测信息来丰富。

现在,我们对5.1节中介绍的状态描述进行了扩展,其中还包括高速公路路段的预测速度和密度。修改后的状态描述如下所示,其中st'表示仿真时间步ct时的状态,通过预测信息扩展了st。预测速度用v'表示,预测密度用k'表示:

a64662927c36b1d2f607f3dd2563dea8.png

对于真实的高速公路,交通预测可以通过交通流预测方法获得。在宏观模拟中,可以根据高速公路的当前状态,以及起点和入口匝道的预期需求量,单独运行METANET仿真来预测未来的高速公路状态。这个过程如图3所示,它显示了从状态st-1到状态st的状态转移。从状态st开始进行METANET仿真,以预测状态st+1,如图中虚线箭头所示。随后,状态st+1的信息可以整合到状态st'中,使其包括有关公路未来状态的信息。

交通流优化的一种强化学习方法_第4张图片

bbcad2d498f5ac50ff8e90e3ac65ed02.png

使用Q-learning和神经网络学习策略

1540eef8426262b261b583777c111e03.png

(1)限速策略学习算法

我们的算法如图4所示。该算法运行几个Q-learning回合,在此期间执行一个METANET仿真。当开始一个回合时,定义初始状态,并分配第一个速度限制(第一个区块)。然后使用METANET进行交通仿真,考虑速度限制分配(第二个区块)。在仿真之后,可以定义一个新的MDP状态,使用Eq.(2)在内存中更新一个Q值,并分配一个新的速度限制(第三个区块)。如果回合结束,算法回到初始交通状态,并开始新的回合。在所有其他情况下,它继续这一回合,并运行一个METANET仿真。这些有条件的步骤由标记的箭头表示。未来高速公路状态的预测也可以包含在状态中,可视化为可选步骤(虚线块)。

交通流优化的一种强化学习方法_第5张图片

使用我们的MDP模型学习限速策略可以被认为是一个隐藏状态任务,因为在5.1节中介绍的状态描述不是马尔可夫的,并且有关高速公路状态的一些信息是隐藏的(即,不包括在MDP状态中)。然而,由于高速公路交通流受到多种外部因素的影响,很难精确建模,因此很难定义高速公路紧凑马尔可夫的状态描述。为了能够学习具有非马尔科夫状态描述的策略,可以将状态历史保存在内存中以区分隐藏的状态,即使高速公路的当前状态看起来是相同的。由Whitehead和Lin(1995)引入的window-Q体系结构是一种用滑动窗口在内存中维护状态历史的方法,它也可以与我们在本节中介绍的策略学习算法相结合。

(2)近似Q值函数

在学习限速策略的过程中,将一个Q值函数在内存中存储并更新。函数逼近可用于将一个近似价值函数存储在内存中,有三个目的。首先,函数逼近允许我们在状态空间连续时应用Q-learning。其次,价值函数可以近似,以避免按指数扩展状态变量数量的内存需求。第三,函数逼近提高了学习效率,因为它泛化了学习经验。

我们使用并比较了两种不同的价值函数逼近方法。我们使用一种线性近似方法,称为瓦片编码(tile coding),这是一种系统离散状态空间的方法。我们使用的第二种方法是基于人工神经网络的价值函数表示,其中神经网络被训练以获得所需的价值函数的输入-输出行为。如图5所示为四个神经网络,分别对应于动作空间ffe850979a6461d621d714b094ef5822.png中的动作。对于给定的状态s,Q(s,a)的取值可以通过将状态变量作为输入传递到对应动作a的神经网络中得到。在学习过程中,不是应用Eq.(2),而是使用反向传播算法通过神经网络向后传播Q值误差(即当前输出和期望输出之间的差值)。

交通流优化的一种强化学习方法_第6张图片

MDP状态变量作为神经网络的输入是0到1之间的值,但通常神经网络使用二进制输入变量学习更有效。因此,可以使用直接从MDP状态派生的额外输入变量来扩充输入。例如,如果在仿真时间步cn时最小速度低于100,则下面定义的二进制指示变量In等于1,否则为0。

c2dff3267de12d3a70439206e8cc4af7.png

表示当前速度限制和表示密度的指示变量可以类似地定义。在实验评价中,我们明确定义了哪些指示变量被用作额外的神经网络输入。

016dc3c011b55ddd8ae36a65e5e86883.png

实验

c5e7946babe4895e7aec0e0623821bed.png

为了评估所提出的学习算法,我们进行了几个实验,结果表明,我们的算法生成了在高交通需求下减少拥堵的策略,并且表明,当包括状态预测时,可以更有效地控制流量。我们还研究了在速度和密度测量不准确的情况下,策略的鲁棒性。首先我们解释我们的实验设置,然后我们讨论个别实验和相应的结论。

(1)实验设置

我们考虑图6中所示的高速公路,N=8,它有两个车道,每个路段的长度为3公里。相关参数见表1。在大多数实验中,我们使用METANET作为我们的评估模型。如Karaaslan等人(1990)在研究中所讨论的,METANET模型参数对应于真实的高速公路。每一回合我们进行1小时的仿真,步长15秒,这意味着我们使用METANET计算241步。这包括初始交通状态,每个路段的速度为120km /h,密度为17veh /km/lane。速度限制每5分钟改变一次,因此变量c等于20。在我们的评估中,我们考虑了三种交通场景,如图7所示。我们假设vmax为120,动作空间为f1a95cbbf5d2adfd72bf07a7dc9d04ea.png。速度限制只分配给2-6路段。这些速度控制路段的选择方法适用于第一个入口匝道附近和上游几公里的区域。因此,它允许我们控制接近入口匝道附近区域的车辆数量,如果入口流量很高,那里可能会出现拥堵。在实践中,速度控制区域的长度可以根据多个连续入口匝道之间的距离来选择。动作空间是依赖于状态的,因此多个连续的速度限制不会交替,并平稳地提高和降低。例如,如果当前限速为80,则不能选择限速120对应的动作。这个限制可以基于方程(3)和(4)中的前两个状态变量。

交通流优化的一种强化学习方法_第7张图片

交通流优化的一种强化学习方法_第8张图片

交通流优化的一种强化学习方法_第9张图片

我们使用ε-贪婪探索策略的Q-learning来学习策略,其中选择随机行为的概率从1到0线性下降。为了评估策略的质量,我们使用它们来控制1小时的交通流,并使用仿真中的车辆小时总数作为性能指标。这个度量相当于计算h(1,241),因为这是仿真中的车辆小时总数,应该最小化。我们使用相同的交通流模型和仿真数据来学习和评估策略,但在本文的第7.7节中,我们将运行额外的仿真,其中学习和评估模型是不同的。

我们使用并比较了两种不同的价值函数逼近技术:瓦片编码和人工神经网络。对于瓦片编码近似,我们定义了60个重叠的瓦片,在状态空间的每个维度中有4个瓦片,每个瓦片的宽度为1.3。用神经网络实现,使用一个偏置节点,学习率0.01。隐藏层比输入神经元数量多一个神经元,采用反向传播进行训练。先前的状态保存在状态历史中以处理非马尔可夫状态空间,正如我们在6.1节中讨论的那样。

(2)针对单一场景的策略:瓦片编码

在本节中,我们将研究基于Q-learning的学习算法是否能够针对不同的交通场景学习合适的策略。这意味着在使用相同交通场景的仿真运行中学习和评估策略。在实验中,我们的目的是证明策略学习算法提供了优质的策略,显著减少了交通拥堵。

我们使用瓦片编码来近似价值函数,我们使用第5节介绍的状态描述。但是,我们只包括高速公路4-7路段的速度值。我们为每个交通场景生成20个策略,运行5000个学习回合。对于每个策略,计算车辆小时数,结果如图8所示。在图中,TC列显示了在不包括预测的情况下各状态的策略质量,而TC+prediction列显示了在包括5分钟预测的各状态学到的策略质量。关于策略质量的其他统计数据可以在表2中找到。

交通流优化的一种强化学习方法_第10张图片

交通流优化的一种强化学习方法_第11张图片

为了分析结果策略的质量,我们计算每个场景的最佳固定速度限制分配。我们列举了所有动作序列a1,a2,...,a13,对于所有i=1,2,...,12,有4402ebe955873b38aaadb8fa03f34e4e.png,我们计算每个序列实现的车辆小时数,确定最小值。一般来说,计算这样的任务并不总是可行的,因为如果控制步长减小或场景持续时间增加,组合的数量会迅速增长。图8中虚线表示的是最佳限速分配下的车辆小时数,而基线表示的是没有任何速度控制的车辆小时数。最佳固定速度限制分配和基线值也显示在表2。

实验结果表明,学习到的策略质量接近于最佳的固定分配,在状态中加入预测信息可以提高策略质量。对于每种场景,在各状态包含预测信息的情况下找到的最佳策略优于在各状态不包含预测信息的情况下找到的最佳策略。与表2中报告的基线值相比,这些策略有了显著的改进。

(3)针对单一场景的策略:神经网络

第5节中介绍的状态描述不是马尔可夫的,这意味着在状态中包含额外的信息可以提高算法的性能。为了在状态中包含更多的信息,我们依赖于神经网络作为价值函数逼近技术。原因是瓦片编码在运行时间方面扩展性不佳。

这个实验的设置与上一节描述的实验类似,不同的是我们使用神经网络来近似价值函数,并且在状态描述中包含更多的信息。除了高速公路路段4-7的速度值,我们还包括这些路段的密度值。我们还将二进制指示变量作为神经网络的额外输入,表示当前指定的速度限制,以及当前是否存在自由流或拥堵。正如第6节所讨论的那样,这些二进制指示变量有助于提高神经网络学习的效率。学习次数增加到20000次。

实验结果如图8和表2所示,用NN和NN+predictions列表示。我们得出结论,与使用瓦片编码和初始状态描述得到的结果相比,性能有所提高。从表格中也可以看出这一点,在第二个使用神经网络的实验中,车辆小时数始终较低。实验结果表明,所得到的策略能够更有效地控制交通。此外,我们得出的结论是,在状态中包含预测可能是有益的,因为它在大多数情况下会导致更好的表现。

(4)针对多场景的策略

前面实验中的策略是基于一个交通场景学习到的。为了降低过拟合的风险,策略也可以通过按顺序运行不同的场景回合来学习。在这个实验中,我们使用策略学习算法,如7.3节所述实现,学习20个策略。每个策略在三个场景上进行顺序训练10000个学习回合,因此每个策略的回合总数为30000个。对于每个场景,这些策略都被用于运行带有速度控制的交通模拟,车辆小时数同样被用作性能指标。这个评估的结果如表3所示,其中显示了将20个策略应用到场景后得到的结果。从表中我们得出结论,策略的质量仍然接近最佳的固定速度限制分配,与基线值相比,改进是显著的。此外,实验表明,该算法能够学习到更通用的策略,用于在多个不同的场景中控制交通流。

交通流优化的一种强化学习方法_第12张图片

(5)交通管制对公路交通的影响

在我们之前的实验中,已经分析了策略学习算法的性能,其中的性能是使用车辆小时数来衡量的。除了对策略质量的理论分析,我们还可以将策略如何控制高速公路上的交通流以图形形式可视化。在这个实验中,我们使用通过我们的算法结合神经网络学习到的一个策略。图9展示了场景1中高速公路上的速度随时间的变化情况,速度用从白色到黑色的灰度颜色表示,其中白色表示自由流,黑色表示完全拥堵的路段。左边的图片显示了在没有限速交通管制的情况下,每个路段的速度是如何随时间变化的。从右图可以看出,可以暂时降低路段2-6的速度,使拥堵在60分钟后得到解决。从这张图中我们可以看出,策略能够识别出高速公路何时开始出现拥堵,从而设置适当的限速来减少高速公路的拥堵。

交通流优化的一种强化学习方法_第13张图片

(6)策略的鲁棒性

在真实的道路网络中,线圈检测器接收到的数据可能会受到噪声的影响。因此,我们描述了一个实验来研究策略在这种不准确的测量情况下是否表现良好。对于每个场景,我们运行算法5000个回合来学习一个策略,从而得到每个场景的一个策略。这些策略可以应用于相应场景下的交通控制,在这些评估运行过程中,我们在各状态的速度和密度值中添加噪声,代表在实际操作中可能发生的速度和密度测量的不准确性。噪声来自高斯分布,并添加到表示速度和密度的状态变量。为了确定在速度和密度测量中加入了多少噪声,我们使用高斯分布74dc68e98999e602c8495a53b5f56e84.png,其中μ为速度或密度,取值范围为0 ~ 0.3μ,σ表示噪声百分比。我们在学习阶段没有包括噪声。

对于每个场景和噪声百分比,我们进行了50次仿真,并计算了每次运行的车辆小时数,以评估策略是否仍然能够适当地控制交通流。图10显示了我们定义的每个场景的结果,水平虚线表示最佳固定限速分配的车辆小时数和基线值。从结果我们可以得出结论,在宏观模拟中,噪声高达10%时策略仍表现良好。如果噪声更大,那么速度和密度的测量就会变得不准确,策略就不能再用来选择合适的速度限制。这可以从图10中得到结论,因为在这些情况下,车辆小时数可能会超过基线,这表明与完全不控制交通相比,情况可能会更糟。

交通流优化的一种强化学习方法_第14张图片

(7)使用不同的仿真模型进行评估

在我们之前的实验中,我们使用相同的交通流模型和仿真数据来学习和评估我们的策略。为了评估在其他模型上的性能并解决过拟合的风险,我们使用微观仿真环境做了另一个实验。这个实验的主要目的是测试如果我们将这些策略应用于不同的仿真模型,而不是METANET,它们是否也能减少拥堵。

我们在SUMO中实现了微观交通仿真,该仿真在车辆个体水平上模拟交通流。该实验涉及在荷兰埃因霍温一个道路交叉口附近驾驶的车辆模拟。我们使用OpenStreetMap提供的路网地图,并将这些数据导入SUMO。我们从荷兰国家数据库NDW(包含历史交通数据)中导出了交通需求模式。这种模式是从集成在路面上的传感器和线圈检测器收集的。使用这个模式,我们能够在仿真中定义车流量,类似于2013年10月21日上午7 - 8点测量的真实交通。在仿真中,我们制造了一个人工事故,导致交通减速15分钟。我们在仿真过程中使用预先计算的策略来确定适当的速度限制,并将其分配给在事故方向上游行驶最多8公里的接近车辆。我们使用的策略学习过程与第6节中的过程相似,并且基于METANET。

实验在不同服从率下重复20次。服从率是指有多少车辆司机遵守了速度限制。结果如图11所示,其中我们使用车辆小时数作为性能指标,类似于策略学习算法的评估。从图中我们可以得出两个结论。首先,也是最重要的是,使用METANET仿真模型学习到的策略足够通用,可以减少其他道路网络的拥堵,而不是与用于学习的模型相同。其次,如果只有有限的服从(例如,20%),那么与没有任何速度控制的仿真相比,我们的策略已经减少了拥堵。

交通流优化的一种强化学习方法_第15张图片

21da95621221da75d6af2f07f9c4aa4e.png

Attention

c1948b9385e736c17a82174872d01f46.png

欢迎关注公众号《当交通遇上机器学习》!如果你和我一样是轨道交通、道路交通、城市规划相关领域的,可以加微信:Dr_JinleiZhang,备注“进群”,加入交通大数据交流群!希望我们共同进步!

你可能感兴趣的:(算法,大数据,编程语言,python,计算机视觉)