强化学习——值迭代和策略迭代

【强化学习】值迭代和策略迭代

在强化学习中我们经常会遇到策略迭代与值迭代,但是很多人都搞不清楚他们两个之间的区别,他们其实都是强化学习中的动态规划方法(DP)。 ——《Reinforcement Learning:An Introduction》

(一)值迭代

对每一个当前状态 s ,对每个可能的动作 a 都计算一下采取这个动作后到达的下一个状态的期望价值。看看哪个动作可以到达的状态的期望价值函数最大,就将这个最大的期望价值函数作为当前状态的价值函数 V(s) ,循环执行这个步骤,直到价值函数收敛。

强化学习——值迭代和策略迭代_第1张图片强化学习——值迭代和策略迭代_第2张图片


 

(二)策略迭代

从一个初始化的策略出发,先进行策略评估,然后改进策略,评估改进的策略,再进一步改进策略,经过不断迭代更新,直达策略收敛,这种算法被称为“策略迭代”

 强化学习——值迭代和策略迭代_第3张图片强化学习——值迭代和策略迭代_第4张图片

 

 


 

References:

 [1] 【强化学习】值迭代与策略迭代

 

 

 

 

转载于:https://www.cnblogs.com/xxxxxxxxx/p/11536460.html

你可能感兴趣的:(人工智能,数据结构与算法)