表格型方法求解RL——Sarsa和Q_learining

内容都是百度AIstudio的内容,我只是在这里做个笔记,不是原创。

https://aistudio.baidu.com/aistudio/education/group/info/1335

首先记录如何下载代码和跑例子

 

表格型方法求解RL——Sarsa和Q_learining_第1张图片

 然后进入文件夹里,运行python train.py。

表格型方法求解RL——Sarsa和Q_learining_第2张图片

如果出现下述情况

表格型方法求解RL——Sarsa和Q_learining_第3张图片 方法:

windows:
set CUDA_VISIBLE_DEVICES=""
linux:
export CUDA_VISIBLE_DEVICES=""

 

 Sarsa和Q_learining的区别如下:

表格型方法求解RL——Sarsa和Q_learining_第4张图片

表格型方法求解RL——Sarsa和Q_learining_第5张图片 Sarsa和Q-learning的区别表格型方法求解RL——Sarsa和Q_learining_第6张图片

用人话讲:那就是Saras在执行learn方法时会用到下次状态下次动作(这个动作是下个状态一定执行动作) ,而Q-learning在执行learn方法时只用到下次状态(也用到下次动作,但是这个动作是最优策略选的动作,但不一定是下次实际执行的动作)

把代码对比一下:

先看Q-learning,计算reward时会使用下次动作,但只是最优策略的动作,下次实际的动作是靠sample函数得到的。

表格型方法求解RL——Sarsa和Q_learining_第7张图片

 Saras,在learn的时候也用到下次动作,不过这是下次实际执行的动作。

表格型方法求解RL——Sarsa和Q_learining_第8张图片

两种方法下次实际执行动作都是通过sample()函数得到的,而且是一样的

 表格型方法求解RL——Sarsa和Q_learining_第9张图片

代码执行就是Git clone到本地后,切换到课程文件夹下就可以了。

表格型方法求解RL——Sarsa和Q_learining_第10张图片 执行界面

表格型方法求解RL——Sarsa和Q_learining_第11张图片

你可能感兴趣的:(表格型方法求解RL——Sarsa和Q_learining)