强化学习中累积奖赏公式的推导

转载于 强化学习中累积奖赏公式的推导_qingtian11112的博客-CSDN博客_强化学习累计奖励

1. 一些符号解释

  • P(C∣D)表示条件概率,在D发生的条件下,C发生的概率
  • E [C∣D] 表示在D发生的条件下,求C的期望,即有  
  • X 表示状态空间,即所有状态 x 的集合,有x ∈ X 
  • A 表示动作空间,即所有动作 a 的集合,有a ∈ A
  • R表示获得的奖赏
  • π 表示策略函数,有, 表示在状态 x 下执行动作 a 的概率

 2.一些假设

1)马尔科夫假设:下一时刻的状态只与当前时刻的状态有关,而与其他时刻的状态无关。

2)下一时刻的状态只与这一时刻的状态以及这一时刻的行为有关:

     P_{x->x^{'}}^{a}表示执行动作 a 后从状态 x 转移到状态 x ′ 

3)下一时刻的奖赏函数值只与这一时刻的状态及这一时刻的行为有关:


      eg:      

      在状态 x 下执行动作 a 后可能会转换到状态 x ′ 或 x'' ,即下一时刻的状态服从概率分布:

      这两种情况会产生不同的奖赏:

      R_{x}^{a} 表示在状态 x 下执行动作 a 后所产生奖赏的期望值:

强化学习中累积奖赏公式的推导_第1张图片

      由此得                   (a)


3.两个定义

1. 状态值函数:衡量某个状态最终能获得多少累积奖赏的函数。下式表示从状态 x 出发,使用策略 π 所带来的累积奖赏:

 2. 状态-动作值函数:衡量某个状态下采取某个行为后,最终能获得多少累积奖赏的函数。下式表示从以状态 x 出发,执行动作 a 后再使用策略 π 带来的累积奖赏:

4.展开和推导

1. 展开

   是 x 确定的情况下的累积奖励,并没有指定执行哪个动作,而是 x 和 a 确定时的累积奖励,应用全概率展开,有:

    代入策略函数公式,得:

2.  展开

强化学习中累积奖赏公式的推导_第2张图片

      由 R_{x}^{a }  的定义和 (a) 式得:

      应用全概率展开得:

强化学习中累积奖赏公式的推导_第3张图片

    (没有完全理解,是某状态下某行为得到的奖励 = 某状态下所有行为的奖励 * 某行为的概率吗?)

       综上,

3. 结合

     代入 得

你可能感兴趣的:(机器学习)