深度强化学习极简入门(六)——强化学习中的时间差分方法(Sarsa、Q-learning)

【引言】上一篇文章介绍了表格型强化学习中的蒙特卡洛方法及其实现。这篇文章将介绍强化学习中的另一类重要思想—— 时间差分(Temporal difference, TD) 思想,以及该思想衍生出的两个重要算法:

  • Sarsa
  • Q-learning

了解原理后将实现这两个算法,并且在“悬崖行走”环境中对算法进行测试。


文章目录

  • 中英文术语对照表
  • 1 强化学习中的时间差分算法
    • 1.1 Sarsa算法
      • 1.1.1 原理介绍
      • 1.1.2 算法伪代码
    • 1.2 Q-learning算法
      • 1.2.1 原理介绍
      • 1.2.2 算法伪代码
  • 2 环境介绍:悬崖行走(CliffWalkingEnv)
  • 3 Sarsa算法实现

你可能感兴趣的:(深度强化学习极简入门,算法,动态规划)