图解强化学习 原理 超详解 (三)

上一篇博客中 我们讲述了马尔可夫决策过程中的策略优化及相关问题,在这一篇博客中我们将讲述Q-learn方法,以及深度强化学习的相关概念

六.Q-learn

QLearning是强化学习算法中value-based的算法,Q即为Q(s,a)就是在某一时刻的 s 状态下(s∈S),采取 动作a (a∈A)动作能够获得收益的期望,环境会根据agent的动作反馈相应的回报reward r,所以算法的主要思想就是将State与Action构建成一张Q-table来存储Q值,然后根据Q值来选取能够获得最大的收益的动作。
图解强化学习 原理 超详解 (三)_第1张图片
图解强化学习 原理 超详解 (三)_第2张图片
图解强化学习 原理 超详解 (三)_第3张图片
图解强化学习 原理 超详解 (三)_第4张图片
图解强化学习 原理 超详解 (三)_第5张图片
图解强化学习 原理 超详解 (三)_第6张图片

为了解决上述问题,即平衡策略学习中的探索与利用的关系,我们引入贪心策略

图解强化学习 原理 超详解 (三)_第7张图片
图解强化学习 原理 超详解 (三)_第8张图片
图解强化学习 原理 超详解 (三)_第9张图片

ϵ−greedy 算法

图解强化学习 原理 超详解 (三)_第10张图片
图解强化学习 原理 超详解 (三)_第11张图片
在这里插入图片描述
图解强化学习 原理 超详解 (三)_第12张图片
事实上,对于局部最优的动作a∗
,其被选择的概率最大,其余的动作概率都为 ϵ/∣A∣。
  这种贪心策略有一个问题:虽然每个动作都有被选择的概率,但是这种选择太过于随机,有一些(状态-动作)二元组应该是可以达到全局最优,但由于初始化的原因,使得它被访问的概率很低,这并不能有助于智能体很大概率的发现最优动作。

七.深度强化学习

7.1 简介

深度强化学习将深度学习的感知能力和强化学习的决策能力相结合,可以直接根据输入的图像进行控制,是一种更接近人类思维方式的人工智能方法。
深度学习具有较强的感知能力,但是缺乏一定的决策能力;而强化学习具有决策能力,对感知问题束手无策。因此,将两者结合起来,优势互补,为复杂系统的感知决策问题提供了解决思路
图解强化学习 原理 超详解 (三)_第13张图片
图解强化学习 原理 超详解 (三)_第14张图片

7.2 训练策略

图解强化学习 原理 超详解 (三)_第15张图片

7.3 DQN算法

DQN算法融合了神经网络和Q learning的方法, 名字叫做 Deep Q Network。
图解强化学习 原理 超详解 (三)_第16张图片
图解强化学习 原理 超详解 (三)_第17张图片
DQN 有一个记忆库用于学习之前的经历。在之前的简介影片中提到过, Q learning 是一种 off-policy 离线学习法, 它能学习当前经历着的, 也能学习过去经历过的, 甚至是学习别人的经历. 所以每次 DQN 更新的时候, 我们都可以随机抽取一些之前的经历进行学习. 随机抽取这种做法打乱了经历之间的相关性, 也使得神经网络更新更有效率。Fixed Q-targets 也是一种打乱相关性的机理, 如果使用 fixed Q-targets, 我们就会在 DQN 中使用到两个结构相同但参数不同的神经网络, 预测 Q 估计 的神经网络具备最新的参数, 而预测 Q 现实 的神经网络使用的参数则是很久以前的。有了这两种提升手段, DQN 才能在一些游戏中超越人类。

7.4 深度Q学习的两个不稳定因素

图解强化学习 原理 超详解 (三)_第18张图片

解决方案

经验重现

图解强化学习 原理 超详解 (三)_第19张图片

目标网络

图解强化学习 原理 超详解 (三)_第20张图片

参考:

浙江大学 《人工智能》
《机器学习》 西瓜书

你可能感兴趣的:(深度学习模型)