01强化学习基础以及马尔可夫决策过程

文章目录

  • 前言
  • 一、关于强化学习
    • 特点
    • 基本要素
      • 奖励-reward
      • 决策序列
      • 智能体与环境
      • 状态
      • 完全可观测环境与部分可观测环境
    • 智能体组成
      • 策略
      • 价值函数
      • 模型
    • 方法分类
      • 基于策略更新与优化
      • 是否依赖模型
      • 环境返回的回报函数
    • 强化学习中的问题
      • 学习与规划
      • 探索与利用
      • 预测与控制
  • 二、马尔可夫决策过程
    • 马尔可夫过程
      • 马尔可夫性质
      • 状态转移矩阵
      • 马尔可夫过程
    • 马尔可夫奖励过程
      • 回报
      • 价值函数
      • 马尔可夫奖励过程的贝尔曼方程
      • 贝尔曼方程的解
    • 马尔可夫决策过程
      • 策略
      • MDP的价值函数
      • 贝尔曼期望方程
      • 状态价值函数与动作价值函数之间的关系
      • 最优价值函数
      • 最优策略
      • 寻找最优策略
      • 贝尔曼最优方程
      • 求解最优方程


前言

记录一些强化学习的基础概念以及马尔可夫决策过程的基础概念


一、关于强化学习

特点

01强化学习基础以及马尔可夫决策过程_第1张图片

基本要素

奖励-reward

01强化学习基础以及马尔可夫决策过程_第2张图片

决策序列

01强化学习基础以及马尔可夫决策过程_第3张图片

智能体与环境

01强化学习基础以及马尔可夫决策过程_第4张图片

状态

包括环境状态、智能体状态、信息状态(包含历史上所有有用的信息,具有马尔可夫的性质,未来的状态只与当前状态有关,与过去的状态无关)

完全可观测环境与部分可观测环境

01强化学习基础以及马尔可夫决策过程_第5张图片
01强化学习基础以及马尔可夫决策过程_第6张图片

智能体组成

策略

01强化学习基础以及马尔可夫决策过程_第7张图片

价值函数

01强化学习基础以及马尔可夫决策过程_第8张图片

模型

01强化学习基础以及马尔可夫决策过程_第9张图片

方法分类

基于策略更新与优化

基于价值函数、基于策略梯度、基于执行者-评论者(结合价值函数与策略梯度的方法)

是否依赖模型

基于模型、无模型的强化学习方法

环境返回的回报函数

正向强化学习、逆向强化学习(从专家示例中学习回报函数)

强化学习中的问题

学习与规划

01强化学习基础以及马尔可夫决策过程_第10张图片

探索与利用

强化学习类似于一个试错的过程,从环境的交互中发现好的策略,探索环境中的更多信息,有选择性的放弃某些奖励,利用已知信息最大化回报,利用与探索的平衡很重要。

预测与控制

预测:给定策略下,估计某个状态未来的累积奖励
控制:最大化未来的累计奖励,找到最优策略

二、马尔可夫决策过程

马尔可夫过程

马尔可夫性质

01强化学习基础以及马尔可夫决策过程_第11张图片

状态转移矩阵

描述了不同的状态之间转移的概率
01强化学习基础以及马尔可夫决策过程_第12张图片

马尔可夫过程

01强化学习基础以及马尔可夫决策过程_第13张图片

马尔可夫奖励过程

01强化学习基础以及马尔可夫决策过程_第14张图片

回报

01强化学习基础以及马尔可夫决策过程_第15张图片
折扣因子的作用:
01强化学习基础以及马尔可夫决策过程_第16张图片

价值函数

01强化学习基础以及马尔可夫决策过程_第17张图片

马尔可夫奖励过程的贝尔曼方程

01强化学习基础以及马尔可夫决策过程_第18张图片
01强化学习基础以及马尔可夫决策过程_第19张图片
01强化学习基础以及马尔可夫决策过程_第20张图片
贝尔曼矩阵形式
01强化学习基础以及马尔可夫决策过程_第21张图片

贝尔曼方程的解

01强化学习基础以及马尔可夫决策过程_第22张图片

马尔可夫决策过程

01强化学习基础以及马尔可夫决策过程_第23张图片

策略

01强化学习基础以及马尔可夫决策过程_第24张图片
01强化学习基础以及马尔可夫决策过程_第25张图片

MDP的价值函数

01强化学习基础以及马尔可夫决策过程_第26张图片

贝尔曼期望方程

01强化学习基础以及马尔可夫决策过程_第27张图片
01强化学习基础以及马尔可夫决策过程_第28张图片

状态价值函数与动作价值函数之间的关系

01强化学习基础以及马尔可夫决策过程_第29张图片
01强化学习基础以及马尔可夫决策过程_第30张图片

最优价值函数

01强化学习基础以及马尔可夫决策过程_第31张图片

最优策略

01强化学习基础以及马尔可夫决策过程_第32张图片

寻找最优策略

01强化学习基础以及马尔可夫决策过程_第33张图片

贝尔曼最优方程

01强化学习基础以及马尔可夫决策过程_第34张图片
01强化学习基础以及马尔可夫决策过程_第35张图片

求解最优方程

01强化学习基础以及马尔可夫决策过程_第36张图片

你可能感兴趣的:(强化学习,人工智能,机器学习)