机器人找金币问题环境测试优化

机器人找金币问题环境测试优化_第1张图片
机器人找金币问题,实例要求和代码见我的上一篇博客链接: 《深入浅出强化学习原理入门》学习笔记(三)机器人找金币应用实例.

测试环境时,书中的示例代码如下。

import gym
env = gym.make('GridWorld-v0')
env. reset ()
env. render ()

但是我发现这段代码不能表现出机器人的状态变化,所以对进行了修改,加入循环判断和时延,并打印出总的反馈reward,让机器人找到金币的过程动态显示出来。

以下是修改后的代码。

# 环境测试
import gym
import random
import time
env=gym.make('GridWorld-v0')
env.reset()
reward=0
while True:
        action = env.actions[int(random.random()*len(env.actions))]
        next_state,r,is_terminal,info = env.step(action)
        env.render()
        reward += r
        if is_terminal == True:
            print("reward:",reward)
            break
        time.sleep(0.2)

结果演示动图如下
机器人找金币问题环境测试优化_第2张图片

你可能感兴趣的:(python,强化学习)