深度强化学习的变道策略:Harmonious Lane Changing via Deep Reinforcement Learning
偏理论,假设情况不易发生摘要多智能体强化学习的换道策略,不同的智能体在每一轮学习后交换策略,达到零和博弈。和谐驾驶仅依赖于单个车辆有限的感知结果来平衡整体和个体效率,奖励机制结合个人效率和整体效率的和谐。Ⅰ.简介自动驾驶不能过分要求速度性能,考虑单个车辆的厌恶和所在路段的整体交通效率的奖励函数,适当的混合以提高整体的交通效率。章节安排:简介和谐变道的深度强化学习模型模拟器设计实验设置和所提出的策略