强化学习之Grid World的Monte Carlo算法解析【MiniWorld】SYSU_2023SpringRL

强化学习之Grid World的Monte Carlo算法解析【MiniWorld】SYSU_2023SpringRL

  • 题目以及思路
  • 代码
  • 结果
  • 算法解析
    • 代码算法流程

题目以及思路

环境在这篇博客强化学习原理及应用作业之动态规划算法【SYSU_2023SpringRL】里面介绍了,不再赘述。

看看提示:蒙特卡洛方式在每次 episode 结束后(即从每次 env.reset() 到一个回合结束,结束可能有两个原因,一是环境 step 后返回 done=True ,二是当前回合步数达到最大值 t>=env.max_step())更新遍历过的状态的 V 值。

Assignment1/mc.py 提供了一个示例模板,模板内容可根据需求使用和修改,但需要保证其是一个可运行的程序,运行结果需打印出最终收敛的 V 表 v ,以及使用 env.update_r(v) 后将 V 表的值同步至环境端后的渲染图形,输出格式不限制。

提示:MC 和 TD 方法需要运用探索和 Q 表技巧。

关键是探索和Q表技巧,探索就是用一个

你可能感兴趣的:(扩散模型,机器学习,蒙特卡洛方法,Monte-Carlo,强化学习,MiniWorld)