强化学习——格子游戏问题

系列文章目录

提示:国科大其他课程资料整理
国科大高级AI——强化学习(格子问题)
国科大高级AI——博弈论以及相关考题
国科大高级AI——一阶谓词逻辑
国科大高级AI——证明题历年考题
国科大高级AI——深度学习整理
国科大高级AI——野人和传教士问题
国科大模式识别——历年考题以及课后题整理


文章目录

  • 系列文章目录
  • 前言
  • 一、题目描述
  • 二、计算过程
    • 1.策略评估
    • 2.策略提升
    • 3.最优策略


前言

这是一道2020-2021国科大高级人工智能期末考试的一道格子题


一、题目描述

每一个格子等概率向着4个方向移动,每次移动一步,收益为 -1 ,移动到出口结束游戏。若当前移动会导致出界,则移动后位置不变:
黄色是出口。
强化学习——格子游戏问题_第1张图片

二、计算过程

强化学习——格子游戏问题_第2张图片

1.策略评估

利用动态规划的方法求当前策略下每个格子估值

强化学习——格子游戏问题_第3张图片

2.策略提升

根据每个格子的估值求对应的贪心策略

强化学习——格子游戏问题_第4张图片

3.最优策略

根据第二问得到的贪心策略,列出方程组并求解
强化学习——格子游戏问题_第5张图片
得到新的状态估值
强化学习——格子游戏问题_第6张图片
根据新的状态估值得到新的贪心策略
强化学习——格子游戏问题_第7张图片
根据新的贪心策略,列出在此贪心策略下的方程组
强化学习——格子游戏问题_第8张图片

到此计算发现:v1、v2、v3、v4状态估值不变,则最优策略与其相对应状态估值如下:
强化学习——格子游戏问题_第9张图片 强化学习——格子游戏问题_第10张图片

你可能感兴趣的:(国科大,贪心算法,算法,动态规划,强化学习)