【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.3】基于神经网络方法求解RL

一、学习内容

3.基于神经网络方法求解RL

3.1函数逼近与神经网络

当状态空间非常庞大的时候,用Q表格来对Q-value进行评估,内存方面非常不现实。

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.3】基于神经网络方法求解RL_第1张图片

因此可以加个w参数,改用值函数拟合的方法:

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.3】基于神经网络方法求解RL_第2张图片

一个简单的例子如图所示,神经网络输出动作,定义损失函数,进行优化:

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.3】基于神经网络方法求解RL_第3张图片

Q-learning的流程:

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.3】基于神经网络方法求解RL_第4张图片

用神经网络:

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.3】基于神经网络方法求解RL_第5张图片

3.2DQN算法解析

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.3】基于神经网络方法求解RL_第6张图片

DQN的2大创新点在于:经验回放,和固定Q目标。分别是为了解决样本关联性和训练非平稳性问题。

经验回放,举个形象例子,前台小兵采样预测,S、A、R、S放入经验池,后台军师从经验池中进行学习

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.3】基于神经网络方法求解RL_第7张图片

固定Q目标,就是隔一段时间拷贝一次到target网络,而不是每次都更新,增强训练的稳定性。

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.3】基于神经网络方法求解RL_第8张图片

DQN算法整体流程如下:

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.3】基于神经网络方法求解RL_第9张图片

画成流程图更方便理解:

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.3】基于神经网络方法求解RL_第10张图片

写代码的时候则可以参考这个架构:

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.3】基于神经网络方法求解RL_第11张图片

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.3】基于神经网络方法求解RL_第12张图片3.3PARL中DQN代码

DQN中agent的model可以这么定义:

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.3】基于神经网络方法求解RL_第13张图片

DQN的算法可以这么来操作model,定义超参数:

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.3】基于神经网络方法求解RL_第14张图片

固定Q目标、隔段时间同步,则可以定义sync函数:

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.3】基于神经网络方法求解RL_第15张图片

predict()

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.3】基于神经网络方法求解RL_第16张图片

learn()

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.3】基于神经网络方法求解RL_第17张图片

agent的learn和build_programm()函数:

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.3】基于神经网络方法求解RL_第18张图片

用于学习的sample()和predict()函数:

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.3】基于神经网络方法求解RL_第19张图片

3.4DQN训练展示、总结

CartPole训练的例子:

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.3】基于神经网络方法求解RL_第20张图片

训练流程:

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.3】基于神经网络方法求解RL_第21张图片

训练代码:

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.3】基于神经网络方法求解RL_第22张图片

测试代码:

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.3】基于神经网络方法求解RL_第23张图片

PARL常用的API:

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.3】基于神经网络方法求解RL_第24张图片

第3课的总结~~~

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.3】基于神经网络方法求解RL_第25张图片

课后练习,Montain-Car的例子:

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.3】基于神经网络方法求解RL_第26张图片

你可能感兴趣的:(深度学习,强化学习,深度学习,机器学习,神经网络,算法)