强化学习原理及应用作业之动态规划算法【SYSU_2023SpringRL】

强化学习原理及应用作业之动态规划算法【SYSU_2023SpringRL】

  • 题目描述:
  • 任务一:动态规划方法
  • 一、策略迭代算法
    • 1、代码
    • 2、结果
    • 3、思路讲解
      • 策略评估
      • 策略提升
  • 二、价值迭代算法
    • 1、代码
    • 2、结果
    • 3、思路讲解
      • 算法整个流程
  • 总结

题目描述:

本次实践作业将在以下环境进行:
强化学习原理及应用作业之动态规划算法【SYSU_2023SpringRL】_第1张图片
该环境由一个 6×6 网格组成,其中黄色圆圈为智能体出发点,黑色格子为无法通过的墙壁,若智能体向着墙壁方向移动,则会停留在原地,地图边界的移动同理。带有黄色边框的格子为终止状

你可能感兴趣的:(扩散模型,算法,动态规划,强化学习,策略迭代,价值迭代)