【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.5】连续动作空间上求解RL

一、学习内容

5.连续动作空间上求解RL

5.1连续动作空间

离散和连续动作跟环境有关:

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.5】连续动作空间上求解RL_第1张图片

可分别采用随机性策略和确定性策略:

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.5】连续动作空间上求解RL_第2张图片

实践中可分别用sample函数和tanh函数:

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.5】连续动作空间上求解RL_第3张图片

DDPG(Deep Deterministic Policy Gradient)的来源:

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.5】连续动作空间上求解RL_第4张图片

DDPG可看做DQN的扩展版本,添加了策略网络,使用了RL中的Actor-Critic架构

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.5】连续动作空间上求解RL_第5张图片

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.5】连续动作空间上求解RL_第6张图片

DQN有2条经验的:target网络,以及经验回放

DDPG里面也用了相同的方式来稳定训练,算法如下:

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.5】连续动作空间上求解RL_第7张图片

5.2DDPG代码与总结

DDPG的算法结构整体如下:

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.5】连续动作空间上求解RL_第8张图片

model文件中算法如下:

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.5】连续动作空间上求解RL_第9张图片

algorithm文件中算法如下:

1)critic网络更新:

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.5】连续动作空间上求解RL_第10张图片

2)actor网络更新:

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.5】连续动作空间上求解RL_第11张图片

2)target网络更新:

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.5】连续动作空间上求解RL_第12张图片

agent文件中算法如下(这里就不细说了,还是PARL的框架:)):

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.5】连续动作空间上求解RL_第13张图片

训练过程(以CartPole为例):

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.5】连续动作空间上求解RL_第14张图片

DDPG的总结如下:

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.5】连续动作空间上求解RL_第15张图片

5.3大作业与创意赛环境

这里面主要展示一些RL常用的模拟环境,大家可以尝试一下:)

1)PARL中的四轴飞行器环境(收敛时间大概7-8小时)

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.5】连续动作空间上求解RL_第16张图片

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.5】连续动作空间上求解RL_第17张图片

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.5】连续动作空间上求解RL_第18张图片

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.5】连续动作空间上求解RL_第19张图片

2)电梯环境

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.5】连续动作空间上求解RL_第20张图片

3)简单弹跳和接球游戏

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.5】连续动作空间上求解RL_第21张图片

4)简单的游戏

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.5】连续动作空间上求解RL_第22张图片

5)机械臂、股票预测、飞行器等环境

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.5】连续动作空间上求解RL_第23张图片

6)机械臂环境

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.5】连续动作空间上求解RL_第24张图片

7)交通灯信号控制环境

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.5】连续动作空间上求解RL_第25张图片

最后,回顾下课程大纲:

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.5】连续动作空间上求解RL_第26张图片

给了个后续学习的推荐材料:

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.5】连续动作空间上求解RL_第27张图片

你可能感兴趣的:(深度学习,强化学习,深度学习,算法)