2019-10-19 Lecture 4: Model-Free Prediction

Model-Free Prediction

Interduction

image.png

区别

  1. 上节课讲已知MDP, 使用动态规划方法来获得最优value function 和 policy。
  2. Model Free 不知道环境如何运作,直接从经验中,从代理和环境的交互中更新value function和 policy。
  3. 本节课将给定policy, 不知道环境状态和value function,评估 policy可以获得多少reward。
  4. 下节进行control,获得最优的价值函数和MDP的最优策略。


    image.png

Monte-Carlo 蒙特卡罗方法

  1. 在不知道环境如何运作的条件下得到价值函数--蒙特卡洛方法。
  2. 学习已经完成的回合。
  3. 使用经验均值取代预期反馈value=mean。


    image.png

是否能得出这个平均值适应轨迹上的所有状态?

image.png
  1. 初访蒙特卡洛政策评估方法
    1.1 第一个episode可见,计算访问第一个状态计数,计算最后一个episode与第一个差值,求平均值,根据大数定理,N足够大,均值等于期望值。


    image.png
  2. 每次访问蒙特卡洛方法
    2.1 访问每个eipsode,多次增加计数器。


    image.png

栗子

  1. 21点游戏
    1.1 dealer 庄家 庄家有自己的加牌策略 但是我们不知道
    1.2 三种状态 手牌点数和 手中是否有A 庄家展示的牌的点数


    image.png

    1.3 z轴reward xy轴 专家展示的点数和你手头点数和,JQK在该游戏中当做10
    1.4 下图展示的是不成熟的policy,预期反馈是已知policy反馈的value function,可以利用这个value function做很多事。


    image.png

递增的蒙特卡洛方法

  1. 平均值可以被递增的计算出来 不一定要完成所有计算才能计算平均值。


    image.png
  2. 访问每个episode,递增更新平均值。我们要获取的还是完整的均值。
    2.1 增加一个固定步长,忘记早期估计。
    image.png

瞬时分叉学习

  1. 利用不完整的episodes, 叫做 bootstrapping,即更新最初的猜想,来估计之后的猜想。


    image.png
  2. 总回报等于即时回报加上之后value function的折扣值。
  3. 蒙特卡洛方法是用均值代替,而TD方法用TD target代替。
    4.蒙特卡洛方法中估计值的更新总是延迟的,而TD方法中的能有即时的更新。
    image.png
  4. 根据更新当前估计,从而更新之后估计,计算TD Target。


    image.png
  5. TD方法的即时更新 同 MC方法比较。


    image.png
  6. TD方法优点。


    image.png
  7. 下图1,2都给了我们无偏估计。


    image.png
  8. MC方法具有更小偏差,而TD方法更有效率


    image.png

    image.png

    image.png

Batch MC and TD

image.png

image.png
image.png
  1. MC方法总是收敛到能最大减少均方误差的解决方法。
  2. TD方法会利用最相似MDP解决问题,实际上利用了MDP的特性。


    image.png

    image.png

    image.png

    image.png

    image.png

    image.png

    image.png

    image.png

    image.png

    image.png

    image.png

    image.png

    image.png

    image.png

    image.png

    image.png

    image.png

    image.png

    image.png

    image.png

    image.png

    image.png

    image.png

    image.png

    image.png

    image.png

    image.png

    image.png

你可能感兴趣的:(2019-10-19 Lecture 4: Model-Free Prediction)