【强化学习】重要性采样的直观理解

目的:为了让智能体θ1 看着 另一个智能体θ2玩游戏,然后智能体θ1从θ2中学习。即舍弃on-policy的缓慢,智能体2负责玩,智能体1负责学。可以异步进行提升效率。

直观理解

  • 最开始的时候
    智能体1 和 智能体2 完全一样。假设有三个动作 分别是左中右
    这个时候的概率是 【0.5,0.2,0.3】
    他们的行为完全一致,那么重要性采样的权重对于左中右动作都是 【1,1,1】

  • 当我智能体1学习了很多轮
    这个时候智能体2还是他自己没动,左中右的概率是【0.5,0.2,0.3】
    假设这个时候智能体1的左中右概率是【0.9,0.1,0.1】
    那么对于采样出来的样本的重要性权重则会变为【0.9/0.5,0.1/0.2,0.1/0.3】
    就是对于采样样本来说,我应该对他学习多少。

直观的理解就是 虽然此时此刻我学习的对象是 动作【右】
但是智能体1在学习了很多轮后 对于这次的采样只会学 0.1/0.3 在最开始的时候他是学 0.3/0.3 这么多的。
就是说对于动作【右】,你智能体2虽然是采样出来了,但是我智能体1觉得不那么重要了,就学的更少了。

你可能感兴趣的:(强化学习,人工智能,机器学习,算法)