值迭代和策略迭代

简单来说:
策略迭代包括两个部分:策略评估和策略改进。而值迭代是针对于策略迭代所存在的问题进行改进的,因为策略迭代需要先进行对策略评估收敛之后,才进行策略改进。值迭代的底层逻辑是,策略评估和策略改进可以同步的。因此可以将公式(4)转化为下面的公式(5),从而将值迭代转化为一个公式
值迭代和策略迭代_第1张图片

https://aijishu.com/a/1060000000100717

你可能感兴趣的:(强化学习,python)