【强化学习RL】model-free的prediction和control — MC, TD(λ), SARSA, Q-learning等
本系列强化学习内容来源自对DavidSilver课程的学习课程链接http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html在上一文介绍了RL基础概念和MDP后,本文介绍了在model-free情况下(即不知道回报Rs和状态转移矩阵Pss'),如何进行prediction,即预测当前policy的state-valuefunctionv(s)