4.3 Policy Iteration

《Reinforcement Learning: An Introduction》笔记
4.3 Policy Iteration


image.png

个人理解,这个算法的主要思路是:
(a) 首先任意初始化一个策略 ,和一个值函数,
(b) 之后,通过Policy Evaluation不断迭代值函数v(s),直到近似收敛(until delta < theta),这一步的依据是式(4.5):

的存在性保证了的收敛性。最终得到的值函数是的近似。
(c) 得到策略及对应的值函数 可以看成是 后,通过policy improvement得到更优的策略,注意:

在有限马尔可夫决策过程中是一定可以取到的,因此在此时的值函数下,可以得到一个新的策略,这个策略在值函数V下比原来的策略更好,如果该新策略与原策略不同,则回到Policy Evaluation(b)步骤,确定新策略下的值函数,然后再执行Policy Improvement步骤,确定新值函数下更优的新新策略,如此循环反复,直到某k+1次Improvement后得到的策略函数与第k次得到的策略函数相同。

你可能感兴趣的:(4.3 Policy Iteration)