【强化学习笔记】1.绪论

【深入浅出强化学习原理入门学习笔记】1.绪论

最近看文章,看到了阿里巴巴搜索推荐团队已经在商品的排序中开始使用强化学习了,并且取得了不错的效果。因此感觉有必要学习一下,买了深入浅出强化学习原理入门这本书,发现真心不错,就想把从中学到的东西做一下笔记。

  1. 这是一本什么书
    介绍强化学习的完全教程

  2. 强化学习解决什么问题
    智能决策问题,确切的说是序贯决策问题,就是需要连续不断做出决策才能实现最终目标的问题。
    补充一下,包含几个要素(状态,行动,状态转移概率,行动回报)
    因为本人是学习控制出身,一直想把强化学习与控制理论起来,后来发现两者关系紧密,传统控制理论需要复杂的建模,依据模型设计控制器,而强化学习只需要构架一个学习算法。

  3. 强化学习如何解决问题
    监督学习解决的是智能感知问题,从智能体从输入的数据中抽象出特征模式,用于识别;而强化学习关注于在当前状态下采取什么样的行动才能实现最终的目标。

  4. 强化学习算法分类及发展趋势
    (1)基于模型和无模型的强化学习算法(这里有无模型主要指是否依赖环境能够完全建模)
    (2)根据策略的更新和学习方法,分为基于值函数,基于直接策略搜索和AC的方法。(值函数:根据值函数确定最优策略;直接策略搜索:策略参数化;AC:两者合并)
    (3)根据回报函数是否已知,分为正向强化学习和逆向强化学习。

  5. 强化学习环境搭建
    使用OpenAI gym,环境搭建参考深度强化学习-环境准备

  6. 文章内容安排
    第1章是绪论
    第2章介绍马尔可夫决策过程(MDP)
    第3章介绍基于动态规划的强化学习方法
    第4章介绍基于蒙特卡罗的强化学习方法(表格型,状态空间和动作空间为有限集)
    第5章介绍基于时间差分法的强化学习方法(表格型,状态空间和动作空间为有限集,Q-learing, Sarsa, Sarsa-lamda, DQN等)
    第6章介绍基于值函数逼近的强化学习方法(值函数,状态空间和动作空间为连续空间)
    第7章介绍策略梯度理论(无模型,直接策略搜索,收敛速度慢)
    第8章介绍置信域策略优化理论TRPO(无模型,加快收敛速度)
    第9章确定性策略搜索
    第10章引导策略搜索
    第11章逆强化学习方法
    第12章组合梯度和值函数的方法
    第13章值迭代网络
    第14涨PILCO方法
    【强化学习笔记】1.绪论_第1张图片

参考书籍:

  1. 深入浅出强化学习原理入门

欢迎关注微信公众号:AITBOOK

你可能感兴趣的:(强化学习,强化学习笔记)