值迭代、策略迭代

值函数

策略: 状态s到动作a的映射: π:SA
值函数:值函数都是对应于特定的策略的,即 Vπ
对于策略 π ,状态s的值函数:

Vπ(s)=E[R(s0)+γR(s1)+γ2R(s2)+...|s0=s,π].

也可表示为Bellman形式,是一种迭代思想:

Vπ(s)=R(s)+γsSPsπ(s)(s)Vπ(s).

其中 Psπ(s)(s) 表示对应于策略 π 的状态转移概率,即从s转到s’的概率

最优的值函数

对于某状态s的最优值函数用 V(s)
定义如下:
V(s)=maxπVπ(s).
由上式可知,最优的策略 π 对应最优的值函数、

写成Bellman方程就是:

V(s)=R(s)+maxaAγsSPsa(s)V(s).

最优的策略

π 表示
在某一状态s下的最优策略定义如下:

π(s)=argmaxaAsSPsa(s)V(s).

值迭代

值迭代、策略迭代_第1张图片

策略迭代

值迭代、策略迭代_第2张图片

其中 V:=Vπ 的计算可根据第一节值函数的定义计算

你可能感兴趣的:(强化学习,强化学习,机器学习,人工智能)