SARSA 和 Q-learning 的区别

下面这张图截取自书上的,SARSA算法是在线算法,Q-learn是离线算法。两者的第一步选择动作都是epsilon-greedy,而第二部更新Q函数的时候,Q-learning 直接选择用最优的动作a去更新Q函数,而SARSA选择用之前的策略采样出来的A‘去更新Q函数。

这就是为什么叫SARSA在线算法,因为更新策略用的A’和上一步的A都是由一个policy 产生的。

而Q-learning中,更新用的a来自贪心,A才是由之前的策略产生的。

SARSA 和 Q-learning 的区别_第1张图片

这样子说起来好像没什么区别,书上有个例子,看一下就知道了。

SARSA 和 Q-learning 的区别_第2张图片

书上的cliff的例子中蓝线是SARSA, 红线是Q-learning。SARSA找到的线离悬崖更远一些,因为SARSA中,A和A‘的产生用的都是epsilon-greedy,即使是很后期的时候,也会由于随机动作掉到悬崖里,从而导致对临近悬崖处的Q函数值较小。而Q-learning直接选择最大的action a',在他眼里,只有最优选择才会影响Q值,自然不会管边上那个cliff,因为cliff永远不会是那个选出来的最优动作a,自然也不会参与Q函数更新。

总结一下就是,因为Q-learning总是选择最有动作去更新,他选出来的路会喜欢“行险”,对Q-learning来说,只有一条生路和四处都是生路是一样的。而SARSA不同,他偏向于找康庄大道,四处都安全。所以SARSA选出的路离峭壁更远。

 

SARSA 和 Q-learning 的区别_第3张图片

下面这张图是两个实验的结果,这是对采样的所有epsode求平均的结果。我们发现Q-learning的rewards更少。这是由于,epsilon-greedy有时候会出现随机行为。这样的随机行为在险地,也就是离峭壁更近的地方,容易跳进去,造成奖励减少。书中也说了,当epsilon减小的时候,两者曲线会接近。

当然我还有个问题,什么情况下SARSA表现会比Q-learning好。

你可能感兴趣的:(机器学习算法)