强化学习6——Value-based RL和Policy-based RL 的区别

Value-based RL和Policy-based RL 的区别

​ Value-based RL 都是确定的一个策略: a t = arg ⁡ max ⁡ a Q ( a , s t ) a_{t}=\arg \max _{a} Q\left(a, s_{t}\right) at=argmaxaQ(a,st)

​ Policy-based RL 产生的是各个动作的概率: π θ ( a ∣ s ) \pi_\theta(a|s) πθ(as)。例如下图用神经网路来构建策略, θ \theta θ可以看做是各个连接层之间的参数,输入的是游戏的像素(状态),通过网络输出的是每个动作的概率(这里就是上或者下)。

强化学习6——Value-based RL和Policy-based RL 的区别_第1张图片

Value-based RL:学习价值函数,从价值函数采取出策略,是一种间接产生策略的方法。

Policy-based RL:学习策略函数,直接产生策略的方法。

你可能感兴趣的:(强化学习,算法,人工智能)