强化学习《基于策略 - PPO,TRPO,PPO2》

在上一篇博客最后,我们说到了θ和θ^k是不能差太多的,不然结果会不好,那么怎么避免它们差太多呢?
这就是这一篇要介绍的PPO所在做的事情。

1:PPO1算法:

强化学习《基于策略 - PPO,TRPO,PPO2》_第1张图片
强化学习《基于策略 - PPO,TRPO,PPO2》_第2张图片
强化学习《基于策略 - PPO,TRPO,PPO2》_第3张图片
2:TRPO算法
强化学习《基于策略 - PPO,TRPO,PPO2》_第4张图片
3:PPO2算法
强化学习《基于策略 - PPO,TRPO,PPO2》_第5张图片
强化学习《基于策略 - PPO,TRPO,PPO2》_第6张图片
强化学习《基于策略 - PPO,TRPO,PPO2》_第7张图片
在这里插入图片描述
强化学习《基于策略 - PPO,TRPO,PPO2》_第8张图片
强化学习《基于策略 - PPO,TRPO,PPO2》_第9张图片

你可能感兴趣的:(强化学习,PPO,TRPO,PPO2)