Gym实践(一)——环境安装

提示:转载请注明出处,若本文无意冒犯到您的合法权益,请及时与作者联系。

Gym实践(一)——环境安装

一、Gym是什么?

OpenAI Gym

OpenAI Gym 评估平台

二、安装步骤

1.安装Anaconda和PyCharm

2.创建虚拟环境

3.安装Gym库

4.设置PyCharm的Python解析器

5.在PyCharm中验证Gym程序


一、Gym是什么?

OpenAI Gym是一款用于研发和比较强化学习算法的工具包,它支持训练智能体(agent)做任何事——从行走到玩Pong或围棋之类的游戏都在范围中。

OpenAI Gym包含两部分:

  • gym 开源 包含一个测试问题集,每个问题成为环境(environment),可以用于自己的强化学习算法开发,这些环境有共享的接口,允许用户设计通用的算法,例如:Atari、CartPole等。

  • OpenAI Gym 服务
    提供一个站点和api ,允许用户对自己训练的算法进行性能比较。OpenAI Gym 环境

OpenAI Gym

提供了多种多样的环境,从简单到困难,并涉及到许多不同类型的数据。

  • Classic control and toy text:
    提供了一些RL相关论文中的一些小问题,开始学习Gym从这开始!
  • Algorithmic:
    提供了学习算法的环境,比如翻转序列这样的问题,虽然能很容易用直接编程实现,但是单纯用例子来训练RL模型有难度的。这些问题有一个很好的特性: 能够通过改变序列长度改变难度
  • Atari:
    这里提供了一些小游戏,比如我们小时候玩过的小蜜蜂,弹珠等等。这些问题对RL研究有着很大影响!
  • Board games:
    提供了Go这样一个简单的下棋游戏,由于这个问题是多人游戏,Gym提供有opponent与你训练的agent进行对抗。
  • 2D and 3D robots:
    机器人控制环境。 这些问题用 MuJoCo 作为物理引擎。

当然还有很多好玩的问题,比如CNN的自动调参、Minecraft等。

OpenAI Gym 评估平台

用户可以记录和上传算法在环境中的表现,生成评估报告。

在每个环境下都有一个排行榜,用来比较大家的模型表现。

  • 用户可以使用Monitor Wrapper包装自己的代码环境,Gym记录算法的性能。
  • 用户上传自己模型的Gist,可以生成评估报告,还能录制模型玩游戏的小视频。

二、安装步骤

1.安装Anaconda和PyCharm

使用Anaconda3可以参考博客:环境安装——Anaconda安装(https://blog.csdn.net/qq_41959920/article/details/109095410)

安装PyCharm可以参考网络资料。

2.创建虚拟环境

通过输入以下命令行来创建一个虚拟环境

conda create --name gym_py_3.6_Lab python=3.6

创建好后激活该环境

activate gym_py_3.6

3.安装Gym库

通过输入以下命令行来安装Gym库:

pip install gym -i https://pypi.tuna.tsinghua.edu.cn/simple

以上的意思是通过pip通过https://pypi.tuna.tsinghua.edu.cn/simple地址来安装gym,这里设置为清华镜像地址是为了让下载速度更快,一般它原本默认的下载地址速度会比较慢。

安装成功后,界面会出现如下命令:

Gym实践(一)——环境安装_第1张图片

该界面显示已经成功安装了Gym-0.17.3及其相应的依赖包

4.设置PyCharm的Python解析器

如果我们想要在PyCharm中使用刚刚的Gym库,就要先将其Python解析器切换到对应虚拟环境中的Python.exe

具体办法就是打开项目/设置:

Gym实践(一)——环境安装_第2张图片

5.在PyCharm中验证Gym程序

新建一个Python3文件,在其中输入如下代码来调用Gym库:

import gym


def main():
    env = gym.make('CartPole-v0')
    for i_episode in range(20):
        observation = env.reset()
        for t in range(100):
            env.render()
            print(observation)
            action = env.action_space.sample()
            observation, reward, done, info = env.step(action)
            if done:
                print("Episode finished after {} timesteps".format(t + 1))
                break


if __name__ == "__main__":
    main()

运行后出现如下训练场景即表示Gym已经可以正常调用:

Gym实践(一)——环境安装_第3张图片

你可能感兴趣的:(机器学习之强化学习,机器学习,强化学习,python)