阅读报告(q-learning based 离散车队控制)

文章标题:

基于Q学习模型的无信号交叉口离散车队控制

doi:10.19562/j.chinasae.qcgc.2022.09.006

主要内容:

        近年来,随着V2X,V2V技术的发展,车辆编队已经成为一个研究热点。较多研究已经证明,车辆编队具有提升通行效率,降低能耗的潜力,并且在多个场景下已经被证实。车队的引入可以使交叉口的通行效率提升。但是固定规模的车队,难以适应不同流量、密度下的无信号交叉口场景。因此,研究无信号交叉口场景下的车队自适应灵活编队策略具有较高的实际意义。由于车辆的运动学特性具有较好的马尔可夫性,因此可以使用强化学习的MDP过程,进而实现车队的控制。

       文章针对无信号交叉口场景,对车队进行离散化建模,将交叉口路段划分为观察区、缓冲区和合流区三个部分,在车辆进入不同的区域时,针对队列状态、车辆特性,使用value-based q-learning算法计算得出最佳编队方案,进而控制车辆完成编队操作,通过交叉口。

        经过仿真实验证明使用文中所提出的算法,可以提升无信号交叉口大约36.1%的通行能力,但是在车队自组织的过程中,也略微带来了燃油消耗的增加。

模型算法:

交通流模型

阅读报告(q-learning based 离散车队控制)_第1张图片

场景示意图 

交通流离散控制框架:

  1. 车辆进入观察区,能够与路侧装置通信,其信息被加入车辆的信息集合X中
  2. 组合分配阶段,当车辆进入协同区时,使用Q-learning算法选择最优车队状态组合
  3. 车队排列阶段,在协同区内,根据最优车队状态组合控制车辆完成编队
  4. 轨迹跟踪阶段,

车队离散模型:

\ddot{x}_{l,k} = f(x_{l,k},\dot{x}_{l,k},u_{k})

x为车辆的位置,x'为车辆的速度,x''为车辆的加速度,u为期望加速度,作为外部控制量输入

x_{h,k} = x_{l,k} +(h-1)(d_{0}+\sigma v_{h,k}+l)

车队组合分配算法:

算法为value based- q-learning,算法目标为得出最佳车队组合方案

  • 状态量设计:

在尺寸受限的场景中,车 队规模的影响高于其他参数,因此状态空间定义为

s = (n1,n2,n3,n4 ) ∈ S

n_k为车道编队规模

  • 动作量设计:

a = (a_1,a_2,a_3,a_4)

{s}' = s+a

a_k = \pm 1

a_j = 0,j!=k

a_k为车道k上的车队规模

  •  奖励值设计

r = w_1x_1 + w_2x_2 + w_3x_3 + w_4x_4

w为权重系数

 x_1,x_2,x_3,x_4分别为瞬时效率,车辆平均等待时间,行程时间标准差,油耗

轨迹规划

协同区轨迹规划:

minimize(t_m-t_c)

为提升交通效率,将协同问题转变为时间最优控制问题

合流区内轨迹规划:

minimize(t_f- t_m)      

考虑所有车辆 的安全约束,同样以时间窗口 δ为最优化目标,构建最优控制问题为   

阅读心得

文章不足:

①仅仅做了交叉口单车道的编队方案设计

(交叉口范围内的车辆轨迹避碰没看懂)

交叉口区域的编队问题当前是一个较少为人所研究的问题,但是已有研究表明,交叉口处的车辆编队能够明显提升交叉口的通行效率和通行能力。但是如何提升恰当地对车辆进行编队,尚未有一个最佳的答案,并且现今到未来会存在一个长期自动驾驶车辆和人工驾驶车辆混行的阶段,如何实现自动驾驶车辆与人工驾驶车辆混合编队,这是一个值得思考的问题。是开辟交叉口自动驾驶车辆专用编队车道,或是其他方案来解决这一问题?是否还有信号灯与车辆编队的联合控制可以进一步提升通行效率?

你可能感兴趣的:(阅读报告,学习)