强化学习基础学习系列之model-free/planning/model-base/dyna方法总结
介绍model-free方法planningmodel-base方法dyna方法关于使用sample的forwardsearch方法的理解各种机制的总结介绍前面说的value-base方法(除了动态规划)也好,policy-base的方法也好,都是假设没有模型而直接与实际环境交互来学习的,我们把没有用到模型的方法叫做model-free方法,但并不是说value-base和policy-base方