强化学习中,gym的核心接口environment, 以及 render(), reset(), step() ,ob等
gym的核心接口是environment,核心方法如下reset():重置环境状态,回到初始环境,方便下一次训练step(action):完成一个时间步,返回4个值observation:object,对环境的观测reward:float,即时的奖励done:bool是否需要重置环境(如游戏这个时间步后游戏结束)info:dict用于调试诊断信息render():重绘环境图像