强化学习4:回合更新价值迭代

文章目录

  • 回合更新价值迭代
    • 同策
      • 策略评估
      • 回合更新
        • 起始探索
        • 柔性策略 ( ϵ − s o f t ) (\epsilon-soft) (ϵsoft)
    • 异策
      • 重要性采样
      • 策略评估
      • 回合更新求解最优策略

回合更新价值迭代

  • 有模型

动力函数 p ( s ’ , r ∣ s , a ) p(s’,r | s, a) p(s,rs,a)
方案:解Bellman期望方程/最优方程,方程求解 / 线性规划 / 动态规划
算法:因为有模型(动力函数),可以策略迭代(Bellman期望方程),也可以价值迭代(Bellman最优方程)

  • 无模型

幕序列 ( S 0 , A 0 , R 0 , S 1 , A 1 , R 1 , . . . , S e n d ) (S_0, A_0, R_0, S_1, A_1, R_1, ..., S_{end}) (S0,A0,R0,S1,A1,R1,...,Send)
方案:回合更新 / 时序差分 /
算法:因为没有模型(动力函数),没有Bellman期望方程,只能价值迭代(Bellman最优方程)

同策

策略评估

  • 首次访问 vs 每次访问
    因为没有模型(动力函数),Bellman最优方程中 p ( s ’ ∣ s , a ) p(s’|s,a) p(ss,a)需要通过计数器函数 c ( s , a ) c(s,a) c(s,a)采用增量法表示为 1 c ( s , a ) \frac 1 {c(s, a)} c(s,a)1。?
  • 状态价值 / 动作价值

回合更新

起始探索

柔性策略 ( ϵ − s o f t ) (\epsilon-soft) (ϵsoft)

异策

重要性采样

  • 加权重要性采样
  • 普通重要性采样

策略评估

回合更新求解最优策略

你可能感兴趣的:(强化学习,强化学习,机器学习,人工智能)