David Silver UCL强化学习课程学习笔记三之Planning by Dynamic Programming 动态规划

Lecture 3: Planning by Dynamic Programming 动态规划
https://www.davidsilver.uk/wp-content/uploads/2020/03/DP.pdf

Introduction

David Silver UCL强化学习课程学习笔记三之Planning by Dynamic Programming 动态规划_第1张图片
基本思想:问题的最优解如果可以由子问题的最优解推导得到,则可以先求解子问题的最优解,在构造原问题的最优解;若子问题有较多的重复出现,则可以自底向上从最终子问题向原问题逐步求解。
使用条件:可分为多个相关子问题,子问题的解被重复使用
David Silver UCL强化学习课程学习笔记三之Planning by Dynamic Programming 动态规划_第2张图片
David Silver UCL强化学习课程学习笔记三之Planning by Dynamic Programming 动态规划_第3张图片

动态规划的要求
动态规划是一种解决包含以下两种属性问题的普遍算法
最优子结构和重叠子问题。
可以看到MDP满足这两个性质(贝尔曼防尘的递归分解,值函数的储存和重用)
动态规划法用于解决预测和控制两个问题

Policy Evaluation 策略评估

David Silver UCL强化学习课程学习笔记三之Planning by Dynamic Programming 动态规划_第4张图片
David Silver UCL强化学习课程学习笔记三之Planning by Dynamic Programming 动态规划_第5张图片
推演的过程类似MDP中的同步推演。

Policy Iteration 策略迭代

David Silver UCL强化学习课程学习笔记三之Planning by Dynamic Programming 动态规划_第6张图片
policy不是固定的,评估的作用在于更新。对于上个policy采用贪心算法
David Silver UCL强化学习课程学习笔记三之Planning by Dynamic Programming 动态规划_第7张图片
评估和改进是交替进行的。
评估:策略π→值函数vπ
改进:值函数vπ贪心得到π
David Silver UCL强化学习课程学习笔记三之Planning by Dynamic Programming 动态规划_第8张图片
也可以通过状态值函数更新策略。

Value Iteration 值迭代

David Silver UCL强化学习课程学习笔记三之Planning by Dynamic Programming 动态规划_第9张图片
David Silver UCL强化学习课程学习笔记三之Planning by Dynamic Programming 动态规划_第10张图片
David Silver UCL强化学习课程学习笔记三之Planning by Dynamic Programming 动态规划_第11张图片
值迭代与策略迭代的不同
值迭代使用的是贝尔曼最优方程,隐式地求解收敛到最优值函数。策略迭代使用的是贝尔曼期望方程。
值迭代不迭代策略,始终采用同一策略,但采用最优策略更新。策略迭代迭代策略。

David Silver UCL强化学习课程学习笔记三之Planning by Dynamic Programming 动态规划_第12张图片
同步DP算法总结

Extensions to Dynamic Programming 动态规划扩展

David Silver UCL强化学习课程学习笔记三之Planning by Dynamic Programming 动态规划_第13张图片
异步DP算法
David Silver UCL强化学习课程学习笔记三之Planning by Dynamic Programming 动态规划_第14张图片
David Silver UCL强化学习课程学习笔记三之Planning by Dynamic Programming 动态规划_第15张图片
David Silver UCL强化学习课程学习笔记三之Planning by Dynamic Programming 动态规划_第16张图片
David Silver UCL强化学习课程学习笔记三之Planning by Dynamic Programming 动态规划_第17张图片
全幅backups
David Silver UCL强化学习课程学习笔记三之Planning by Dynamic Programming 动态规划_第18张图片
样例backups

Contraction Mapping 收缩映射

David Silver UCL强化学习课程学习笔记三之Planning by Dynamic Programming 动态规划_第19张图片

你可能感兴趣的:(强化学习,动态规划,算法,强化学习,人工智能)