强化学习-赵世钰(三):贝尔曼最优方程【Bellman Optimal Equation】【贝尔曼最优方程符合收缩映射理论-->可通过迭代法求解最优State Values-->得到最优策略】
强化学习的目的是寻找最优策略。这里学习贝尔曼最优公式需要重点关注两个概念和一个工具:两个概念:optimalstatevalue和optimalpolicy一个基本工具:theBellmanoptimalityequation(BOE)一、MotivatingexamplesFirst,wecalculatethestatevaluesofthegivenpolicy.Inparticular,t