深度强化学习极简入门(二)——使用马尔可夫决策过程(MDP)描述强化学习

【引言】强化学习技术历经几十年的发展,理论严谨,应用广泛;而强化学习与深度学习相结合而形成的深度强化学习技术在视频游戏、即时战略游戏、围棋等领域达到了人类顶尖水平。上一篇博客介绍了强化学习的发展历史,这篇博客将介绍一个用于描述强化学习过程的强有力的工具——马尔可夫决策过程, 然后介绍强化学习智能体的构成要素。(参考文献见本系列第一篇博客)

希望读者能有以下方面的基础知识:

  • 概率论
  • 随机过程

目录

  • 中英文术语对照表
  • 1. 强化学习是一个马尔可夫决策过程
    • 1.1 状态和状态空间
    • 1.2 动作和动作空间
    • 1.3 状态转移函数

你可能感兴趣的:(深度强化学习极简入门,强化学习,马尔可夫决策过程,状态空间,动作空间,奖励函数)