强化学习中,gym的核心接口environment, 以及 render(), reset(), step() ,ob等

  • gym的核心接口是environment,核心方法如下
  1. reset():重置环境状态,回到初始环境,方便下一次训练
  2. step(action):完成一个时间步,返回4个值
    1. observation:object, 对环境的观测
    2. reward:float,即时的奖励
    3. done:bool 是否需要重置环境(如游戏这个时间步后游戏结束)
    4. info :dict 用于调试诊断信息
  3. render():重绘环境图像

你可能感兴趣的:(强化学习,强化学习,gym)