强化学习系列(九):On-policy Prediction with Approximation
一、前言针对on-policyprediction问题,用functionapproximate估计state-valuefunction的创新在于:valuefunction不再是表格形式,而是权重参数为w的数学表达式,即v̂(s,w)≈vπ(s)v^(s,w)≈vπ(s)。其中v̂v^可以是state的线性函数,也可以是一个多层人工神经网络(ANN),也可以是一个决策树。值得注意的是,权重ww