从零开始学习PPO算法编程(pytorch版本)

从零开始学习PPO算法编程(pytorch版本)(一)

这几篇文章介绍了使用Pytorch进行PPO(近端策略优化)算法编程。这个文章是我从网上进行PPO学习实践是边学边写的,希望能把整体的流程捋顺。

这篇文章首先总体介绍一下编写PPO算法的流程和使用到的文件。

学习PPO算法编程的基础:Python,pytorch,强化学习,策略梯度算法介绍,PPO的理论知识。以下是一些学习参考的内容:
直观理解PPO算法
PPO算法【理论篇】
PPO算法通俗理解
PG算法
策略梯度下降算法
强化学习知识整理

参考网络上的教程进行实践,首先将训练代码分为4个文件,分别是main.py,ppo.py,network.py和arguments.py。
arguments.py: 解析命令行参数,main函数可以调用。
main.py: 可执行文件,使用arguments.py解析命令行参数,初始化环境和PPO模型。
PPO.py: 保存PPO模型
network.py: 用于在PPO模型中定义Actor-Critic网络的神经网络模块,包含一个前馈神经网络。
Actor-Critic模型会定期保存到二进制文件ppo_actor.pthppo_critic.pth中,可以在测试或继续训练时加载它们。

测试代码主要位于eval_policy.py中,由main.py调用。
eval_policy.py: 在指定的环境中测试经过训练的策略,这个模块完全独立于其他所有文件。

从零开始学习PPO算法编程(pytorch版本)_第1张图片
从零开始学习PPO算法编程(pytorch版本)_第2张图片
参考:
Coding PPO from Scratch with PyTorch

你可能感兴趣的:(PPO算法(pytorch),强化学习,神经网络,深度学习,pytorch,算法)