强化学习之动作价值函数 9

在价值函数的基础之上,动作价值函数是在状态S下选择动作a然后遵循这个策略的值,下图左边的定义是价值函数,右边是动作价值函数。
强化学习之动作价值函数 9_第1张图片
在动作价值函数的基础上,原来每个格子的值需要考虑动作的行为(上下左右),这样格子的值被分为4块。
强化学习之动作价值函数 9_第2张图片
强化学习之动作价值函数 9_第3张图片
假设我们从图中的左上角开始,黄线遵循的策略。我们采取向下的行动,得到reward-1,然后遵循策略到达终点,那么这个格子采取向下动作的动作价值函数为(-1)-1-1-1-1+5 = 0。计算所有可能得到
强化学习之动作价值函数 9_第4张图片
其中在最优策略下,最优动作价值函数用q*表示。

那么,通过和环境交互后,已知最优动作价值函数的情况下,如何知道最优策略呢?只要取得每个格子的最大动作价值函数就可以了,在最左边第二行三个1的情况下,采取哪一个动作都会产生最优策略。如何得到最优动作价值函数是接下来的问题。
强化学习之动作价值函数 9_第5张图片

你可能感兴趣的:(强化学习)