深度学习中sarsa算法和Q-learning算法的区别

sarsa 和 Q-learning都是时序差分下对动作价值函数优化的单步方法,算法基本上一样,只有一点:
为了更新St的动作价值函数,需要St+1的动作价值函数,St+1是由St和At决定的,但是St+1对应的action由什么决定呢?

sarsa的处理方式是episinon + greedy,和St选择aciton采取的方法是一样的,称为 on-policy;
Q-learning的处理方式是greedy,但是St选择action的方法还是episinon + greedy,称为 off-policy;;

你可能感兴趣的:(增强学习,机器学习,算法,时序差分)