2021 重启强化学习(2)—马尔可夫决策过程

2021 重启强化学习(2)—马尔可夫决策过程_第1张图片
009.jpeg

如果想观看相关视频可以在西瓜视频(账号zidea)或者哔哩哔哩(账号zidea2015)找到我发布视频解说,注意头像和使用头像一致。

马尔可夫决策过程 MDP(Markov Decision Processes)

马尔可夫决策过程是强化学习的一个基本框架,

马尔可夫链

在概率论更多时候我们都是研究随机变量,其中包括随机变量和随机变量之间的关系。有一种随机变量关系他们是在时序有一种相互关系。那么如果我们将这样时序相关关联一组随机变量看作一个整体来研究,这就是随机过程

马尔可夫链是一种特殊的随机过程,是具备马尔可夫属性的随机过程。在之前我们介绍马尔可夫性质说到两个性质分别是

  • 马尔可夫假设
  • 观测独立假设

也就是下一个状态只取决于当前状态,而与当前状态的之间状态都没有关系。如果说某一个过程是满足马尔可夫特性的,在未来转移和过去是独立,只与现在状态有关,把具有这性质的随机过程就称为马尔可夫链

  • 过去状态集合

马尔可夫假设一个初衷就是为简化计算。

状态空间模型

  • HMM
  • Kalman Filter
  • Paticle Filter

状态转移矩阵

通常我们研究的对象都是离散的状态,其状态是有限的。描述马尔可夫状态转移矩阵是用来描述动态特性,可以可以将其称为状态转移函数、或者状态转移概率都可以。

马尔可夫链实例

这就是轨迹概念,每一条链都是一条轨迹

马尔可夫奖励过程(MRPs)

马尔可夫奖励过程,就是马尔可夫链再加上一个奖励(Reward)函数

  • 定义马尔可夫奖励过程(MRP)
    • S 表示状态集合
    • P 是动态/转移模型可以表示为
    • R 是奖励函数
    • Discount factor(折扣量)

引入奖励,奖励过程看成随波逐流,随着事先定义好状态转移进行流动。

马尔可夫决策过程(MDPs)

马尔可夫决策过程(MDP),当我们买了某只股票,或者投掷硬币进行下注,之后我们就能等待结果,根据结果来得到回报。马尔可夫决策过程(MDP) 会根据不同状态进行不同动作。

  • S 表示状态的集合
  • A 表示动作的集合,对于任意 通常来用 表示动作集合是针对于某一个状态来说
  • 是 Action 是动态/转移模型 ,也就是 MDP 动态特性
  • P 状态转移函数
  • R 是奖励函数
  • 折扣系数
  • MDP 是

你可能感兴趣的:(2021 重启强化学习(2)—马尔可夫决策过程)