基于深度强化学习的智能汽车决策模型

1.基于深度强化学习的智能汽车决策模型

以神经网络为核心的智能体最主要的优势在于其依靠大量的数据自主学习的能力,通过数据驱动智能体可以应对各种未经历过的复杂环境。强化学习是一种经典的智能系统设计方案,其主要思想是在智能体在当前环境下进行运动后,根据环境的变化,给智能体一个反馈信号,其目的是高速智能体在上一个步骤做的怎么样,从而让智能体通过合理的行为,最大化智能体的累积回报,并在该过程做出最佳决定,深度强化学习结合了强化学习和深度学习的特点,可以使强化学习智能体可以被应用在更加广泛的领域。
与传统的Q-learning中消耗大量内存来存储Q值不同,DQN算法通过神经网络拟合出求解Q值的函数,这种方法有效结合了神经网络理论和强化学习理论,提升了Q-learning的计算和存储效率,让Q-learning算法可以应对自动驾驶等复杂的决策场景。而DDPG算法以Actor-Cristic策略为举出,对DQN算法进行了扩充,其应用了DQN的经验回放和时序差分(利用目标值和估计值在不同时间步上的差异,使用自举法从观察到的回报和下个状态的估值来构造它的目标函数)等机制。
(1)DDPG算法的动作空间直接对策略进行学习,则会样有利于解决连续动作空间的问题。
(2)DQN相对于DDPG的优势在于DQN的学习更加稳定,并且DQN的高参相对比较少,模型相对简单。
为了简化模型,采用DQN作为智能驾驶智能体的核心算法,首先建立智能汽车的马尔可夫模型,最后建立DQN模型实现驾驶决策。

2 智能驾驶汽车强化学习框架

整体训练框架
基于深度强化学习的智能汽车决策模型_第1张图片

3 DQN模型训练流程

(1)DQN算法
DQN算法的核心是计算Q值,其结合了Q-learning算法和神经网络的优点,Q-learning的核心是在当前状态下,智能体根据观测信息来决定采取什么动作,而智能体的动作会改变环境,而环境的改变会通过下一状态的观测信息传递给智能体,智能体也会收到该动作所获得的回报信息。该算法的核心在于构建一段称为Q表的数据结构来存储在当前状态的智能体所做出的决策会收到什么回报,从而让智能体偏向于做出回报较大的动作。
Q表的更新是根据环境反馈的回报通过贝尔曼返程来更新Q表,Q值的误差函数如下:
在这里插入图片描述

(2)模型训练过程
在强化学习智能体的训练过程中探索和开发是必不可少的。探索是指探索之前未采用过的行为,而开发是指继续使用当前的最优策略。为了平衡探索和开发使用如下策略,进行算法的策略更新。
基于深度强化学习的智能汽车决策模型_第2张图片

Q-learning算法的训练为,首先建立一个Q值表,智能体同环境进行不断交互,从环境中得到状态观测值,选取并执行动作,获得下一状态的观测值和奖赏值,通过对当前动作的价值评估查抄表的方式来更改Q值表,用这种方式实现增加可以得到正奖励的动作的概率,减少可以得到负奖励动作的概率,通过多次与环境交互使得智能体的动作集最优。
DQN是在Q-learning基础上进行改进的,DQN算法在进行值函数更新时,更新的是参数,并且参数值的改变不仅仅会影响当前状态动作下的Q值输出,任意状态下的值函数都会发生改变。与传统Q-learning中消耗大量内存来存储Q值不同,DQN算法通过神经网络拟合出求解Q值的函数,这种方法有效结合了神经网络和强化学习理论,提升了Q-learning的计算和存储效率。
在DQN算法中,根据深度学习神经网络回归问题的损失函数描述,强化学习的优化目标为最小Q值和估计Q值的差值。
在训练DQN时,首先搭建两个神经网络,一个为目标值Q网络,一个为当前值Q网络,这两个网络的结构是相同的,区别仅仅是参数不同。其中目标值网络用于预测Q值,这个网络不会实时的更新,而当前值Q网络拥有最新的神经网络参数。同时为了存储过去的经历建立了一段回放记忆缓冲区,当DQN迭代一次,则对缓冲区进行随机采样,这种方法可以提升DQN的更新效率,并且使得训练数据减少相关性,减少训练的过拟合。
基于深度强化学习的智能汽车决策模型_第3张图片

4.智能驾驶马尔可夫设计

将自动驾驶过程进行数学描述为马尔可夫过程。马尔可夫过程包括状态空间,观测空间,动作空间,回报函数。

你可能感兴趣的:(强化学习,汽车,人工智能,机器学习)