强化学习:Easy RL学习笔记

Easy RL学习笔记

介绍

  Easy RL是由清华大学、北京大学以及中国科学院大学的三名硕士生编写的一门强化学习入门书籍,又称为“蘑菇书”Easy RL github地址。笔者主要从事博弈论、多智能体强化学习等方面的研究。最近在学习该本书,故将学习笔记和心得在这里记录下来,供大家观看交流。之后笔者也会继续更新有关多智能体和强化学习的内容,包括强化学习算法原理和代码实现、论文复现、强化学习竞赛等,对文章内容有任何问题或想一起学习强化学习相关内容可以邮件联系。([email protected]

文章目录

  • Easy RL学习笔记
    • 介绍
    • 一、绪论
      • 1. 何为强化学习?相比监督学习有什么特点?
      • 2. 强化学习的基本结构
      • 3. 强化学习中的探索与利用窘境
    • 二、马尔科夫决策过程
    • 三、表格型方法
    • 四、策略梯度方法
    • 五、近段策略优化算法PPO

一、绪论

1. 何为强化学习?相比监督学习有什么特点?

​ 强化学习就是具备学习能力的个体在与复杂多变的环境交互时,尝试使得自身获得的累计奖励期望最大化的算法。

​  与监督学习相比,强化学习的主要特点是1.一般面对序列数据,强化学习的样本之间存在相关性(不满足独立同分布)2. 通常是延迟奖励 3.没有正确的标签,以试错的方式与环境不断交互, 提升自身策略。

2. 强化学习的基本结构

​  完整的强化学习结构包括智能体、环境、动作空间、状态空间、状态转移函数、奖励函数(四者构成MDP)。智能体得到当前的状态,根据自身策略采取一个行动。环境反馈给智能体一个奖赏,同时进入下一个状态。智能体根据反馈修正自身策略,并根据下一个状态再次做出行动。最终,智能体学习的目标是最大化累积奖励的期望。

3. 强化学习中的探索与利用窘境

  智能体在学习的过程中,仅探索是指一直去尝试还未采用过的动作,这样可以很好的估计出所有动作对应奖赏的概率分布,但可能导致自身回报较低。仅利用是指仅采用当前已知的最好动作,这样可以尽量保证自身获得一个可以接受的回报,但无法知道未采取过的动作的奖赏,这样获得的回报也不是最优的(井底之蛙)。

二、马尔科夫决策过程

  Ps:点击标题进入

三、表格型方法

  Ps:点击标题进入

四、策略梯度方法

  Ps:点击标题进入

五、近段策略优化算法PPO

  Ps:点击标题进入

你可能感兴趣的:(python,人工智能,算法)