强化学习笔记(4)无模型控制Model-Free Control(On-policy learning, off-policy learning, GLIE, Sarsa, Q-learning)
文章目录Introduction概念On-PolicylearningOff-PolicylearningMonte-CarloControl问题1:使用行为价值函数代替状态价值函数贪婪策略基于行为价值函数的更新:问题2:使用贪婪算法的局限性例解决方案:ϵ−greedy\epsilon-greedyϵ−greedyGLIE定理:GLIEMonte-CarloControl定理TDControlSa