汀、

【五】gym搭建自己的环境之寻宝游戏，详细定义自己myenv.py文件以及算法实现

【一】gym环境安装以及安装遇到的错误解决

【二】gym初次入门一学就会-简明教程

【三】gym简单画图

【四】gym搭建自己的环境，全网最详细版本，3分钟你就学会了！

【五】gym搭建自己的环境____详细定义自己myenv.py文件

【六】gym搭建自己环境升级版设计，动态障碍------强化学习

环境文件下载地址：丨汀/MyEnv ｛目前暂未更新｝

gym搭建自己的环境之详细定义自己myenv.py文件

1.模板化环境编程（统一环境代码框架）

通过上篇文章我们已经可以注册搭建自己环境了，下面开始详细构建自己的myenv.py文件，还有疑问请看文章【四】。

首先需要定义自己的环境myenv.py，其代码框架如下:
import gym
"""
 gym.Env是gym的环境基类,自定义的环境就是根据自己的需要重写其中的方法；
 必须要重写的方法有: 
  __init__()：构造函数
  reset()：初始化环境
  step()：环境动作,即环境对agent的反馈
  render()：如果要进行可视化则实现
"""
class MyEnv(gym.Env):
函数reset()作用：智能体需要一次次地尝试累积经验，然后从经验中学到好的动作。一次尝试称之为一条轨迹或一个episode. 每次尝试都要到达终止状态. 一次尝试结束后，智能体需要从头开始，这就需要智能体具有重新初始化的功能。

一个仿真环境必不可少的两部分是物理引擎和图像引擎。物理引擎模拟环境中物体的运动规律；图像引擎用来显示环境中的物体图像

· render()函数作用：起到图像引擎作用，对于强化学习算法渲染函数可以没有，但是加入图像引擎可以方便调试代码时直观显示当前环境中物体的状态。

·step()函数作用：起到物理引擎，其输入是动作a，输出是：下一步状态，立即回报，是否终止，调试项；该函数中，一般利用智能体的运动学模型和动力学模型计算下一步的状态和立即回报，并判断是否达到终止状态。
from gym import spaces, core
 # core.Env是gym的环境基类,自定义的环境就是根据自己的需要重写其中的方法；
 #同上

class MyEnv(core.Env):
	def __init__(self):
		self.action_space = spaces.Box(low=-1, high=1, shape=(1, )) # 动作空间
		self.observation_space =  spaces.Box(low=-1, high=1, shape=(1, )) # 状态空间
		# 其他成员
	
	def reset(self):
		...
		obs = self.get_observation()
		return obs
	
	def step(self, action):
		...
		reward = self._get_reward()
		done = self._get_done()
		obs = self._get_observation(action)
		info = {} # 用于记录训练过程中的环境信息,便于观察训练状态
		return obs, reward, done, info
		# 根据需要设计相关辅助函数
	def _get_observation(self, action):
		...
		return obs
	
	def _get_reward(self):
		...
		return reward

	def _get_done(self):
		...
		return done

2.项目环境搭建

背景介绍：机器人在一个二维迷宫中走动寻找电池，迷宫中有障碍物、大山、电池。大山机器人是无法走的，游戏终止条件是：机器人设计障碍物里或者找到电池；如何最佳的策略，让机器人尽快地找到电池获得奖励呢。下面将进行解答：

2.1 状态空间代码：

       self.states = range(0,16) #状态空间
       
        self.terminate_states = dict()  #终止状态为字典格式
        self.terminate_states[11] = 1
        self.terminate_states[12] = 1
        self.terminate_states[15] = 1

        self.actions = ['n','e','s','w']

        self.rewards = dict();        #回报的数据结构为字典
        self.rewards['8_s'] = -1.0
        self.rewards['13_w'] = -1.0
        self.rewards['7_s'] = -1.0
        self.rewards['10_e'] = -1.0
        self.rewards['14_e'] = 1.0

        self.t = dict();             #状态转移的数据格式为字典
        self.t['1_s'] = 5
        self.t['1_e'] = 2
        self.t['2_w'] = 1
        self.t['2_e'] = 3
        self.t['3_s'] = 6
        self.t['3_w'] = 2
        self.t['3_e'] = 4
        self.t['4_w'] = 3
        self.t['4_s'] = 7
        self.t['5_s'] = 8
        self.t['5_n'] = 1
        self.t['6_n'] = 3
        self.t['6_s'] = 10
        self.t['6_e'] = 7
        self.t['7_w'] = 6
        self.t['7_n'] = 4
        self.t['7_s'] = 11
        self.t['8_n'] = 5
        self.t['8_e'] = 9
        self.t['8_s'] = 12
        self.t['9_w'] = 8
        self.t['9_e'] = 10
        self.t['9_s'] = 13
        self.t['10_w'] = 9
        self.t['10_n'] = 6
        self.t['10_e'] = 11
        self.t['10_s'] = 14
        self.t['10_w'] = 9
        self.t['13_n'] = 9
        self.t['13_e'] = 14
        self.t['13_w'] = 12
        self.t['14_n'] = 10
        self.t['14_e'] = 15
        self.t['14_w'] = 13

2.2 step函数创建：

动作空间：需要注意的是输出的顺序不要弄错了，对于调试信息，可以为空，但不能缺少，否则会报错，常用{}来代替。

简单阐释：状态转移根据当前状态和动作得到下一步状态，然后判断是否达到终止条件is_terminal决定游戏进程。reward只有到达目的或者障碍是才有其余情况为
   def step(self, action):
        #系统当前状态
        state = self.state
        if state in self.terminate_states:
            return state, 0, True, {}
        key = "%d_%s"%(state, action)   #将状态和动作组成字典的键值

        #状态转移
        if key in self.t:
            next_state = self.t[key]
        else:
            next_state = state
        self.state = next_state

        is_terminal = False

        if next_state in self.terminate_states:
            is_terminal = True

        if key not in self.rewards:
            r = 0.0
        else:
            r = self.rewards[key]

        return next_state, r, is_terminal,{}

2.3 render函数的建立:

    def render(self, mode='human'):      #可视化画图
        from gym.envs.classic_control import rendering
        screen_width = 600
        screen_height = 600

        if self.viewer is None:

            self.viewer = rendering.Viewer(screen_width, screen_height)#调用rendering中的画图函数，#创建600*600的窗口
# 创建网格世界，一共包括10条直线，事先算好每条直线的起点和终点坐标，然后绘制这些直线，代码如下：
            #创建网格世界
            self.line1 = rendering.Line((100,100),(500,100))
            self.line2 = rendering.Line((100, 200), (500, 200))
            self.line3 = rendering.Line((100, 300), (500, 300))
            self.line4 = rendering.Line((100, 400), (500, 400))
            self.line5 = rendering.Line((100, 500), (500, 500))
            self.line6 = rendering.Line((100, 100), (100, 500))
            self.line7 = rendering.Line((200, 100), (200, 500))
            self.line8 = rendering.Line((300, 100), (300, 500))
            self.line9 = rendering.Line((400, 100), (400, 500))
            self.line10 = rendering.Line((500, 100), (500, 500))

            #创建大山
            self.mountain = rendering.make_circle(40)
            self.circletrans = rendering.Transform(translation=(250,350))
            self.mountain.add_attr(self.circletrans)
            self.mountain.set_color(0,1,1)

            #创建第一个障碍物
            self.obstacle_1 = rendering.make_circle(35)
            self.circletrans = rendering.Transform(translation=(450, 250))
            self.obstacle_1.add_attr(self.circletrans)
            self.obstacle_1.set_color(0, 0, 0)

            #创建第二个障碍物
            self.obstacle_2 = rendering.make_circle(35)
            self.circletrans = rendering.Transform(translation=(150, 150))
            self.obstacle_2.add_attr(self.circletrans)
            self.obstacle_2.set_color(0, 0, 0)

            #创建电池
            self.Battery = rendering.make_circle(35)
            self.circletrans = rendering.Transform(translation=(450, 150))
            self.Battery.add_attr(self.circletrans)
            self.Battery.set_color(0, 1, 0.5)

            #创建机器人
            self.robot= rendering.make_circle(30)
            self.robotrans = rendering.Transform()
            self.robot.add_attr(self.robotrans)
            self.robot.set_color(1, 0.8, 0)
# 创建完之后，给11条直线设置颜色，并将这些创建的对象添加到几何中代码如下：
            self.line1.set_color(0, 0, 0)
            self.line2.set_color(0, 0, 0)
            self.line3.set_color(0, 0, 0)
            self.line4.set_color(0, 0, 0)
            self.line5.set_color(0, 0, 0)
            self.line6.set_color(0, 0, 0)
            self.line7.set_color(0, 0, 0)
            self.line8.set_color(0, 0, 0)
            self.line9.set_color(0, 0, 0)
            self.line10.set_color(0, 0, 0)
# 添加组件到Viewer中
            self.viewer.add_geom(self.line1)
            self.viewer.add_geom(self.line2)
            self.viewer.add_geom(self.line3)
            self.viewer.add_geom(self.line4)
            self.viewer.add_geom(self.line5)
            self.viewer.add_geom(self.line6)
            self.viewer.add_geom(self.line7)
            self.viewer.add_geom(self.line8)
            self.viewer.add_geom(self.line9)
            self.viewer.add_geom(self.line10)
            self.viewer.add_geom(self.mountain)
            self.viewer.add_geom(self.obstacle_1)
            self.viewer.add_geom(self.obstacle_2)
            self.viewer.add_geom(self.Battery)
            self.viewer.add_geom(self.robot)
# 接下来，开始设置机器人的位置。机器人的位置根据其当前所处的状态不同，所在的位置不同。我们事先计算出每个状态处机器人位置的中心坐标，并存储到两个向量中，并在类初始化中给出
        self.x=[150,250,350,450] * 4
        self.y=[450] * 4 + [350] * 4 + [250] * 4 + [150] * 4
"""为了让结果可视化，我们需要自己渲染结果，比如我打算设置一个600×600的窗口，
那么，每一格的中心的横坐标为[150, 250, 350, 450]重复4次（因为是一个1×16的list，每4个为环境的一行），
相应地，纵坐标为150,250,350,450分别重复4次。"""

# 根据这两个向量和机器人当前的状态，我们就可以设置机器人当前的圆心坐标了即：
        if self.state is None: 
            return None

        self.robotrans.set_translation(self.x[self.state-1], self.y[self.state- 1])

        return self.viewer.render(return_rgb_array=mode == 'rgb_array')

2.4 reset()函数的建立：

reset()函数常常用随机的方法初始化机器人的状态，即：
    def reset(self):
        self.state = self.states[int(random.random() * len(self.states))]  #随机初始化机器人状态在[1-16之间随便选]
        return self.state
关闭窗口：
    def close(self):
        if self.viewer:
            self.viewer.close()
下面对创建网格世界进行详细阐释：比如需要创建下面的往网格，则需要10条线，3行4列（本来需要7条），但是有空缺，则8，9，10，需要每个创建从开始到结束的坐标

2.5 环境生成效果图：

2.6 完整代码和文件创建位置：