[强化学习] off-policy和on-policy、Q-learning和Sarsa的区别、Sarsa-lambda、Q-lambda
看了莫凡大神(link)关于Q-learning和Sarsa的视频之后,大概了解了Q-learning和Sarsa,但是对其区别还是有点懵懵懂懂,这篇博客便是后续对其理解的过程记录。Q-learning和Sarsa都是时序差分模型,这部分后面将再次介绍。提到Q-learning和Sarsa的区别,避免不了提到“off-policy”和“online-policy”策略,下面我将首先介绍“off-p