《强化学习Sutton》读书笔记(六)——n步Bootstrapping(n-step Bootstrapping)
此为《强化学习》第七章n-stepBootstrapping。nn步Bootstrapping是MC和TD(0)的综合。随着对参数nn的调整,我们可以看到TD是如何过渡到MC的。而最佳的方法往往就是介于TD和MC之间。nn步TD估计在上一章的TD(0)方法中,我们有v(St)←v(St)+α(Gt−v(St))v(St)←v(St)+α(Gt−v(St))并且,我们使用了一步后的状态值函数来估计G