Reinforcement Learning: An Introduction Second Edition - Chapter 10
On-policyControlwithApproximation对动作价值函数q^(s,a,w)≈q∗(s,a)\hat{q}(s,a,\mathbf{w})\approxq_*(s,a)q^(s,a,w)≈q∗(s,a)进行参数化逼近的控制问题。半梯度Sarsa算法,使用函数逼近的持续性任务:放弃折扣,重新定义控制问题。持续性任务:带差分价值的平均收益的情形。10.1EpisodicSemi-