强化学习:gym库的二次开发学习

gym包含的主要文件

envs: 所有环境都保存在这个文件下
spaces :环境所定义的状态、动作空间
utils: 环境中使用的一组常用实用程序
warppers :包装,用于对已有的环境进行改变或者扩展
init :读取时初始化
core: 核心环境,直接链接到给定的环境
gym创建的环境主要在envs中,在这个里面可以找到常用的几个环境,比如:cart-pole, MountainCar等等。自我构建的gym环境都应该在放在envs下子文件夹中的一个py文件中的类,例如:gym\envs\classic_control\cartpole.py。

gym registry

所有构建的环境都需要调用gym库,然后再通过gym库来调用所写的环境。所以需要现在gym的内部构件一个内链接,指向自己构建的环境。

envs下 init 文件下

register(
    id='CartPole-v1',
    entry_point='gym.envs.classic_control:CartPoleEnv',
    max_episode_steps=500,
    reward_threshold=475.0,
 )

id :调用所构建的环境的名称,调用该环境的时所起的名字
entry_point: 所在的位置

在所在文件夹下建立 init 文件,在下面调用

from gym.envs.classic_control.cartpole import CartPoleEnv

其中是cartpole是环境所存在的文件名字,CartPoleEnv是该文件下的类。

gym构建环境

自我定义的环境为一个类,继承于gym.env

必须的变量

这个类包含如下两个变量值:state 和 action
对应的两个空间为observation _space 和 action _space
这两个空间必须要用 space 文件夹下的类在init中进行定义。
其中 state是一个 object 一般为一个np.array 包含多个状态指示值。

必须的函数

step : 利用输入动作给出下一步的环境和奖励(核心)
reset :重置环境,将状态设置为初始状态,返回状态值

状态、动作空间的构建

连续空间主要由spaces.Box定义
self.action_space = spaces.Box(low=-10, high=10, shape=(1,2))
定义了一个变量空间范围为[0,2) 之间的整数
self.observation_space = spaces.Discrete(2)
定义了一个变量空间为0,1的2维整数变量
self.observation_space = spaces.MultiBinary(2)
self.observation_space = MultiDiscrete()

学习环境开发案例

https://blog.csdn.net/extremebingo/article/details/80867486
https://www.toutiao.com/a6634078876299428355/

你可能感兴趣的:(强化学习:gym库的二次开发学习)