强化学习4——无模型预测(蒙特卡洛法和TD法)

文章目录

  • 强化学习——无模型预测与控制
    • 无模型的概念
    • 无模型预测
      • 蒙特卡洛法
        • 基本蒙特卡洛
        • 改进增量MC更新算法
        • 动态规划(DP)与蒙特卡洛(MC)的区别
        • Temporal Difference(TD)学习
        • TD和MC的区别

强化学习——无模型预测与控制

无模型的概念

​ 状态转移的概率和相应的奖励都是未知的,需要agent试探,相当于经验主义。agent通过不断地执行action与环境交互,然后得到实际的return,执行N次求其平均值。

无模型预测

蒙特卡洛法

​ agent在现实中从状态 s s s通过一个策略与环境进行交互,得到多个轨迹,每个轨迹会得到一个实际的收益 G t = R t + 1 + γ R t + 2 + γ 2 R t + 3 + … G_t=R_{t+1}+\gamma R_{t+2}+\gamma^{2} R_{t+3}+\ldots Gt=Rt+1+γRt+2+γ2Rt+3+,对多个轨迹收益进行一个平均,就可以得到在这个策略下面,状态 s s s的价值 v π ( s ) = E π [ G t ∣ s t = s ] v_{\pi}(s)=\mathbb{E}_{ \pi}\left[G_{t} \mid s_{t}=s\right] vπ(s)=Eπ[Gtst=s]

基本蒙特卡洛

强化学习4——无模型预测(蒙特卡洛法和TD法)_第1张图片

​ 基本蒙特卡洛解析:

​ ① agent通过策略 π \pi π与环境交互得到许多轨迹序列(agent通过action不停地和environment交互得到),每个轨迹中的状态都有对应的回报Gt。

​ ② 开始估算v(s),N(s)=0,S(s)=0,t=0

​ ① 在每个 episode 中,如果在时间步 t 状态 s 被访问了,那么
​ ①状态 s 的访问数 N ( s ) N(s) N(s) 增加 1,

​ ② 状态 s 的总的回报 S ( s ) S(s) S(s) 增加 G t G_t Gt

​ ③状态 s 的价值可以通过 return 的平均来估计,即 v ( s ) = S ( s ) / N ( s ) v(s)=S(s)/N(s) v(s)=S(s)/N(s)

根据大数定律只要 N ( s ) → ∞ N_(s) \rightarrow \infin N(s) v ( s ) → v π ( s ) v(s) \rightarrow v^\pi(s) v(s)vπ(s)

改进增量MC更新算法

强化学习4——无模型预测(蒙特卡洛法和TD法)_第2张图片

红线公式推导如下

强化学习4——无模型预测(蒙特卡洛法和TD法)_第3张图片

动态规划(DP)与蒙特卡洛(MC)的区别

​ 动态规划(DP)需要考虑到下一次转移的所有状态;蒙特卡洛因为是现实中得到的return,不存在不确定性,所以它下一次转移只可能是一个状态。

Temporal Difference(TD)学习

强化学习4——无模型预测(蒙特卡洛法和TD法)_第4张图片

v ( S t ) ← v ( S t ) + 1 N ( S t ) ( G t − v ( S t ) ) v\left(S_{t}\right) \leftarrow v\left(S_{t}\right)+\frac{1}{N\left(S_{t}\right)}\left(G_{t}-v\left(S_{t}\right)\right) v(St)v(St)+N(St)1(Gtv(St)),其中 G t = R t + 1 + γ R t + 2 + γ 2 R t + 3 + … = R t + 1 + γ G t + 1 G_t=R_{t+1}+\gamma R_{t+2}+\gamma^{2} R_{t+3}+\ldots=R_{t+1}+\gamma G_{t+1} Gt=Rt+1+γRt+2+γ2Rt+3+=Rt+1+γGt+1,而由于这是一个确定的真实学习场景所以 v ( s t + 1 ) = E [ G t + 1 ∣ s t + 1 = s ] = G t + 1 v(s_{t+1})=\mathbb{E}\left[G_{t+1} \mid s_{t+1}=s\right]=G_{t+1} v(st+1)=E[Gt+1st+1=s]=Gt+1

TD和MC的区别

TD:从不完整的序列开始学习;可以是连续的无终止的状态;利用了马尔科夫性质

MC:整个序列完成之后开始学习;必须有终止;可以不是马尔科夫的环境

你可能感兴趣的:(强化学习,强化学习,算法,人工智能)