深度强化学习极简入门(五)——强化学习中的蒙特卡洛方法

【引言】上一篇文章介绍了价值函数和贝尔曼方程这两个工具对强化学习进行更加具体的过程性描述,并介绍最优价值函数和最优策略等概念。那么最优策略存在吗?是唯一的吗?如何找到最优策略?在回答这些问题之前,先考虑一下问题想细致一点。

  • 首先,状态是智能体决策的依据,状态是连续的还是离散的?可不可以一一枚举出来?
  • 其次,智能体的动作是连续的还是离散的?可不可以很方便地列出来?

假设状态和动作都是离散的并且能够方便地列出来,这样问题就变得好处理一些了,因为可以使用一张表格,将不同状态下的不同动作所对应的未来收益记录下来加以分析。因此,强化学习领域最早被人们研究的就是表格型(tabular)强化强化学习相关算法。

本文介绍表格型强化学习中的蒙特卡洛方法,并通过二十一点扑克牌游戏编程实现该方法


文章目录

  • 中英文术语对照表
  • 1. 蒙特卡洛思想
  • 2. 使用蒙特卡洛方法解决强化学习问题
    • 2.1 理论分析
      • 2.1.1 动作价值函数评估

你可能感兴趣的:(深度强化学习极简入门,强化学习,深度强化学习,蒙特卡洛,贪婪策略,MC控制)