强化学习实战——OpenAI Gym环境配置+实战演示(win10)

一、OpenAI Gym环境配置

1、创建虚拟环境

conda create --name zyj(环境名) python==3.7
conda activate zyj

在这里插入图片描述
2、下载依赖包
参考材料
#可以直接pip下载的包:

pip install ffmpeg
pip install pyvirtualdisplay
pip install importlib-metadata==4.12.0
pip install stable-baselines3[extra]
pip install huggingface_sb3
pip install pyglet==1.5.1
pip install ale-py==0.7.4

#需要手动安装包下载:
1)下载gym[box2d](2步)
box2d.whl文件下载网址
强化学习实战——OpenAI Gym环境配置+实战演示(win10)_第1张图片

pip install xxx.whl
pip install gym

2)下载python-opengl
借鉴博客
在这里插入图片描述

pip install xxx.whl

3)下载pickle5
遇到问题:无法安装pickle5原因是:python3.8与该包不兼容,必须降python3.7的版本
pickle5.whl文件下载网址
强化学习实战——OpenAI Gym环境配置+实战演示(win10)_第2张图片

pip install xxx.whl

4)下载xvfb
强化学习实战——OpenAI Gym环境配置+实战演示(win10)_第3张图片

pip install xxx.whl

强化学习实战——OpenAI Gym环境配置+实战演示(win10)_第4张图片
附:

#删除虚拟环境指令
conda remove -n zyj --all
#查看现有虚拟环境指令
conda info --envs

二、实战演示

实例:ThomasSimonini/ppo-LunarLander-v2
在这里插入图片描述

#依赖包
pip install stable-baselines3
pip install huggingface_sb3
#运行程序
import gym

from huggingface_sb3 import load_from_hub
from stable_baselines3 import PPO
from stable_baselines3.common.evaluation import evaluate_policy

# Retrieve the model from the hub
## repo_id =  id of the model repository from the Hugging Face Hub (repo_id = {organization}/{repo_name})
## filename = name of the model zip file from the repository
checkpoint = load_from_hub(repo_id="ThomasSimonini/ppo-LunarLander-v2", filename="ppo-LunarLander-v2.zip")
model = PPO.load(checkpoint)

# Evaluate the agent
eval_env = gym.make('LunarLander-v2')
mean_reward, std_reward = evaluate_policy(model, eval_env, n_eval_episodes=10, deterministic=True)
print(f"mean_reward={mean_reward:.2f} +/- {std_reward}")
 
# Watch the agent play
obs = eval_env.reset()
for i in range(1000):
    action, _state = model.predict(obs)
    obs, reward, done, info = eval_env.step(action)
    eval_env.render()
    if done:
        obs = eval_env.reset()
eval_env.close()

结果展示
强化学习实战——OpenAI Gym环境配置+实战演示(win10)_第5张图片

你可能感兴趣的:(强化学习实战,python,linux,ubuntu)