机器人找金币问题,实例要求和代码见我的上一篇博客链接: 《深入浅出强化学习原理入门》学习笔记(三)机器人找金币应用实例.
测试环境时,书中的示例代码如下。
import gym
env = gym.make('GridWorld-v0')
env. reset ()
env. render ()
但是我发现这段代码不能表现出机器人的状态变化,所以对进行了修改,加入循环判断和时延,并打印出总的反馈reward,让机器人找到金币的过程动态显示出来。
以下是修改后的代码。
# 环境测试
import gym
import random
import time
env=gym.make('GridWorld-v0')
env.reset()
reward=0
while True:
action = env.actions[int(random.random()*len(env.actions))]
next_state,r,is_terminal,info = env.step(action)
env.render()
reward += r
if is_terminal == True:
print("reward:",reward)
break
time.sleep(0.2)