深度增强学习David Silver(八)——Integrating Learning and Planning
本节课主要讲:Model-BasedReinforcementLearningIntegratedArchitecturesSimulation-BasedSearchmodel用一个具有参数η的MDP⟨S,A,P,R⟩表示。它告诉我们怎么从一个状态转移到另一个状态,和发生动作之后的奖励。假设S和A都已知,则Pη≈P,Rη≈R。model-freeRL直接从经验中学习价值函数或者策略。model-