强化学习之Grid World的时序差分算法解析【MiniWorld】SYSU_2023SpringRL

强化学习之Grid World的Monte Carlo算法解析【MiniWorld】SYSU_2023SpringRL

  • 题目以及思路
    • 代码
    • 运行结果
    • 算法解析
    • 代码算法流程

题目以及思路

环境在这篇博客强化学习原理及应用作业之动态规划算法【SYSU_2023SpringRL】里面介绍了,不再赘述。
蒙特卡洛在这篇博客里面:机器学习之Grid World的Monte Carlo算法解析【MiniWorld】SYSU_2023SpringRL

看看提示:需要智能体和环境交互,交互方式可参考 蒙特卡洛 方法中的描述。时间差分方法不需要等到整个 episode 结束后再更新,而是每步都可以更新 V 值(TD(0)方法)。

Assignment1/td.py 提供了一个示例模板,模板内容可根据需求使用和修改,但需要保证其是一个可运行的程序,运行结果需打印出最终收敛的 V 表 v ,以及使用 env.update_r(v) 后将 V 表的值同步至环境端后

你可能感兴趣的:(扩散模型,机器学习,时序差分方法,强化学习,Sarsa,算法,MiniWorld)