递归与动态规划
- 写在前面
- 关于Planning 与 Learning
- 关于有模型和无模型
- 写在最后
-
更多代码: gitee主页:https://gitee.com/GZHzzz
博客主页: CSDN:https://blog.csdn.net/gzhzzaa
写在前面
作为一个新手,写这个强化学习-基础知识专栏是想和大家分享一下自己强化学习的学习历程,希望大家互相交流一起进步。希望自己在2022年能保证把强化学习基础概念都过一遍,主要是成体系介绍强化学习的基础知识,在gitee收集了强化学习经典论文和基于pytorch的经典模型 ,大家一起互相学习啊!可能会有很多错漏,希望大家批评指正!不要高估一年的努力,也不要低估十年的积累,与君共勉!
关于Planning 与 Learning
- Learning 和 Planning 是序列决策的两个基本问题。
-
在强化学习中,环境初始时是未知的,agent 不知道环境如何工作,agent 通过不断地与环境交互,逐渐改进策略。
-
在 plannning 中,环境是已知的,我们被告知了整个环境的运作规则的详细信息。
Agent 能够计算出一个完美的模型,并且在不需要与环境进行任何交互的时候进行计算。Agent 不需要实时地与环境交互就能知道未来环境,只需要知道当前的状态,就能够开始思考,来寻找最优解。
在这个游戏中,规则是制定的(可能是动态的),我们知道选择 left 之后环境将会产生什么变化。我们完全可以通过已知的变化规则,来在内部进行模拟整个决策过程,无需与环境交互。
关于有模型和无模型
- 我们说的模型就是环境,对环境的了解
-
有模型就是指知道环境转移函数,学习问题就变成的规划问题(比如有条件的动态规划),也叫model-based
-
无模型就是不知道环境模型,只能用神经网络近似环境模型,所以强化学习的出现主要就是解决传统规划不能做的事
-
当然也有基于模型的强化学习算法(论文很多),本质上是加“约束”的强化学习
-
一个常用的强化学习问题解决思路是,先学习环境如何工作,也就是了解环境工作的方式,即学习得到一个模型,然后利用这个模型进行规划。
写在最后
十年磨剑,与君共勉!
更多代码:gitee主页:https://gitee.com/GZHzzz
博客主页:CSDN:https://blog.csdn.net/gzhzzaa
while True:
Go life
谢谢点赞交流!(❁´◡`❁)