基于table的Q learning和Sarsa算法

Off-policy Q learning算法和On-policy Sarsa learning都是时序差分(TD)下对动作价值函数优化的单步方法,在没有神经网络之前,都是通过table的方法,下面简单介绍一下:

 

最佳决策可以通过遍历所有的情况去得到,有些时候情况比较多元,只能通过部分的情况去学习经验,然后得到一个亚最佳决策(趋近于最佳决策)。

那么如何得到亚最佳决策是我们关心的问题。

 

Off-policy Q learning算法(冒险想象派):

基于table的Q learning和Sarsa算法_第1张图片

决策算法:在行为准则Q表(在状态s下所有可以选择动作的价值表)中,遵循e-greedy策略选取最大价值的动作进行执行,重复执行。

更新算法:更新行为准则Q表,通过价值的现实值和估计值。

Gamma值:如果 gamma 从 0 变到 1,对远处的价值看得越清楚, 所以机器人渐渐变得有远见, 不仅仅只看眼前的利益, 也为自己的未来着想。

On-policy Sarsa learning算法(保守实践派):

基于table的Q learning和Sarsa算法_第2张图片

决策算法:在行为准则Q表(在状态s下所有可以选择动作的价值表)中,遵循e-greedy策略选取最大价值的动作进行执行,重复执行,决策算法完全跟Qlearning算法相同。

更新算法:更新行为准则Q表,通过价值的现实值和估计值,有一点不同:采取动作之后的下一个状态中可选择动作中价值最高的动作是否是下一步必须执行的?Sarsa真实的采取了这个动作。

Sarsa-lambda learning算法:

基于table的Q learning和Sarsa算法_第3张图片

Lambda=0时,Sarsa-lambda就是Sarsa算法。

Lambda=1时,Sarsa-lambda更新的获取的是reward前所有经历的步。

更新力度随着Lambda的增大而增大。



你可能感兴趣的:(RL,algorithm)