Richard S.Sutton 《强化学习》 学习笔记 第三章

目录

  • 第3章 有限马尔科夫决策过程
    • 3.1 “智能体-环境”交互接口
    • 3.2 目标和收益
    • 3.3 回报和分幕(episodes)
    • 3.4 分幕式和持续性任务的统一表示法
    • 3.5 策略和价值函数
      • 贝尔曼方程:
    • 最优策略和最优价值函数
    • 小结

第3章 有限马尔科夫决策过程

一二章链接

  • MDP涉及了延迟收益,需要在当前收益和延迟收益之间权衡。
  • 赌博机问题估计每个动作的价值 q ∗ ( a ) q_*(a) q(a),MDP问题中估计每个动作a在每个状态s中的价值 q ∗ ( s , a ) q_*(s,a) q(s,a),或者估计给定最优动作下的每个状态的价值 v ∗ ( s ) v_*(s) v(s)

3.1 “智能体-环境”交互接口

  • MDP是一种通过交互式学习来实现目标的理论框架。进行学习以及实施决策的机器被称为agent智能体,agent之外所有与其相互作用的事物被称为环境。
  • 在有限MDP中,状态、动作和收益的集合(S,A,R)只有有限元素。
  • 随机变量 R t R_t Rt S t S_t St具有明确定义的离散概率分布,且只依赖于前序状态和动作 p ( s ′ , r ∣ s , a ) = P r { S t = s ′ , R t = r ∣ S t − 1 = s , A t − 1 = a } p(s',r|s,a)=Pr\left \{ {S_t=s',R_t=r|S_{t-1}=s,A_{t-1}=a} \right \} p(s,rs,a)=Pr{St=s,Rt=rSt1=s,At1=a}
    函数p定义了MDP的动态特性
  • R t R_t Rt S t S_t St的每个可能的值出现的概率只取决于前一个状态 R t − 1 R_{t-1} Rt1和前一个动作 S t − 1 S_{t-1} St1,且与更早之前的状态或动作完全无关。
  • 动作:我们想做的决策;状态:对决策有帮助的事情

任何目标导向的行为的学习问题都可以概括为智能体及其环境之间来回传递的三个信号:

  1. 用来表示智能体做出的选择(行动)
  2. 表示做出该选择的基础(状态)
  3. 定义智能体的目标(收益)

3.2 目标和收益

  • agent的目标是最大化收到的总收益。
  • 收益信号并不是传授智能体如何实现目标的先验知识;只能用来传达什么是你想要实现的目标,而不是如何实现目标。

3.3 回报和分幕(episodes)


补充知识:

  • 期望与均值的区别:
  1. 均值,其实是针对实验观察到的特征样本而言的;期望是针对于随机变量而言的一个量,可以理解是一种站在“上帝视角”的值。针对于他的样本空间而言的。
  2. 均值为多个随机变量的和再除以个数,相当于还是一个随机变量,当数量足够多的时候,这个随机变量会收敛,这个收敛的值为期望。
  3. 期望是先验概率,均值是后验。
  • 大数定律:
    在随机事件的大量重复出现中,往往呈现几乎必然的规律,这个规律就是大数定律。通俗地说,这个定理就是,在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率。偶然中包含着某种必然。

  • 智能体的目标是最大限度提高长期收益。-> 如何定义?
  • 最大化期望回报 G t G_t Gt:
    1. 分幕式任务 G t = R t + 1 + R t + 2 + . . . + R T G_t = R_{t+1}+R_{t+2}+...+R_{T} Gt=Rt+1+Rt+2+...+RT;
      T代表最终时刻;这种情况下,智能体和环境的交互可以被分为一系列子序列(从开始到最终时刻),每个子序列被称为幕(episodes);这些episodes在同样的终结状态下结束,但对不同结果有不同的收益。
    2. 交互是持续不断的,称为“持续性任务”: G t = R t + 1 + γ R t + 2 + γ 2 R t + 3 + . . . = ∑ k = 0 ∞ γ k R t + k + 1 G_t = R_{t+1}+ \gamma R_{t+2}+{ \gamma}^2R_{t+3}+...={\sum_{k=0}^{\infty}\gamma^kR_{t+k+1} } Gt=Rt+1+γRt+2+γ2Rt+3+...=k=0γkRt+k+1
      γ \gamma γ是折扣率,等于0时代表智能体“目光短浅”,只关注当前收益。通常来说,最大化当前收益会减少未来的收益。
      化简可得: G t = R t + 1 + γ G t + 1 G_t = R_{t+1}+\gamma G_{t+1} Gt=Rt+1+γGt+1

3.4 分幕式和持续性任务的统一表示法

  • 把幕的终止当做是一个特殊的吸收状态的入口,只会转移到自己并且只产生零收益。
    Richard S.Sutton 《强化学习》 学习笔记 第三章_第1张图片
    无论是计算前T个收益还是计算无限序列的综合,都能得到相同的回报。

3.5 策略和价值函数

  • 价值函数是状态(状态与动作二元组)的函数,用来评估当前智能体在给定状态(给定状态与动作)下有多好(即回报的期望值)。
  • 策略是从状态到每个动作的选择概率之间的映射。 π ( a ∣ s ) \pi(a|s) π(as)代表状态为s时,选择动作a的概率。
  • 策略 π \pi π下状态 s s s的价值函数记为 V π ( s ) V_\pi(s) Vπ(s)状态价值函数):
    在这里插入图片描述
  • 策略 π \pi π下状态 s s s时采取动作 a a a的价值记为 q π ( s , a ) q_\pi(s,a) qπ(s,a)动作价值函数),即根据策略,从状态 s s s开始,执行动作 a a a后,所有可能的决策序列的期望回报:
    在这里插入图片描述
  • 价值函数 v π v_\pi vπ q π q_\pi qπ都能从经验中估算得到。如计算无穷次状态s下的回报值,就会收敛。这种估算方法称为蒙特卡洛方法(从真实回报的多个随机样本中求平均值)。

贝尔曼方程:

  • 在RL和DP中,价值函数有一个基本特性,即满足某种递归关系:
    Richard S.Sutton 《强化学习》 学习笔记 第三章_第2张图片
    (这一个公式第二行到第三行我没有看明白,好像是把 G t + 1 G_{t+1} Gt+1代换了?)
  • 贝尔曼方程用等式表达了状态价值和后续状态价值之间的关系。
  • 贝尔曼方程对所有可能性采用其出现概率进行了加权平均。
  • 起始状态的价值一定等于后续状态的(折扣)期望值加上对应收益的期望值。
    感觉下面的式子更好理解一些:
    ​​​​​​在这里插入图片描述

最优策略和最优价值函数

总会存在至少一个策略不劣于其他所有的策略,就是最优策略。
在这里插入图片描述
最优动作价值函数:
在这里插入图片描述
关系:
在这里插入图片描述

小结

  1. 强化学习是在交互中学习如何行动以实现某个目标的机器学习方法。
  2. 动作由智能体选择,状态是做出选择的基础,收益是评估选择的基础。策略是一个智能体选择动作的随机规则,是状态的一个函数。其目的是随着时间的推移最大化总收益。
  3. RL使用完备定义的转移概率描述后,构成了马尔科夫决策(MDP)过程。
  4. 回报 G t G_t Gt是智能体要最大化的全部未来收益的函数。非折扣形式适用于分幕式任务;折扣形式适用于持续性任务。
  5. 智能体确定了策略后,该策略的价值函数可以对每个状态或“状态-动作”二元组给出对应的期望回报值。
  6. 最优价值函数对每个状态或“状态-动作”二元组给出所有策略种最大的期望回报值。
  7. 贝尔曼方程是最优价值函数必须满足的一致性条件。

你可能感兴趣的:(强化学习,人工智能,机器学习,强化学习)