reinforcement learning,增强学习:Model-Free Prediction
首先回忆上一次的内容:对于给定的MDP,使用PolicyEvaluation进行prediction(对于给定的policyπ,evaluate该policyπ能够达到的Vπ(s))使用PolicyIteration、ValueIteration进行control(没有特定的policyπ,希望找到针对该MDP最优的policyπ*,同时给出π*在每个状态的最优值Vπ*(s))本次内容:Model