不同gym游戏 reward的设置探究

延迟奖励(安全走一步r=0,进终点 r=1):FrozenLake

游戏详情

不同gym游戏 reward的设置探究_第1张图片不同gym游戏 reward的设置探究_第2张图片

普通步骤:reward = 0

episode结束:
  如果进入黑洞,done = True, reward = 0 不能移动 需要自己reset
  如果进入终点,done = True, reward = 1 不能移动 需要自己reset

无论是走到终点win,然后done = true ,还是掉进黑洞  done = true,都要reset()

典型的一条exp经验:

  • s = 15 a = '→' r = 1 s' = 16

q(15,→) = 1 收敛于此,因为done了,没有以后了。

说明15是一个好状态:他上下左右4个action里面 有一个action→可以走的比较好

  • s = 11 a='↓' r = 0 s' = 15

target_q   代表我认为q(s,a)应该有的value,q(s,a)也代表了动作的价值 未来差不多能拿到多少reward:future  discounted return的期望。虽然r= 0,但是我认为此时动作的价值是: 0 + max q(s',a)  因此这个动作也有了价值,价值虽然不是立即获得的r,而是s下做了这个a,进入到了一个更好地状态S’。  

  • s = 5 a= '↓' r = 0  s'= 9

虽然r = 0 ,没什么奖励,但是在s下 做了a  进入到了S’ = 9  这个状态里面四个action还是有价值的。

想想这个收敛的表格,是什么样的

晕染

衡量一个state的价值好不好 就看 这一行每个q(s,a)高不高,代表有方法进入更好地state 拿到更好地 E(discounted return) 或者 直接win,拿到高reward, done。

临近win(done = true,reward = 高)  附近的state价值高,因为他们有方法(action)可以win, 拿到高reward。state价值高就是说明 当前state下,有action  他未来的discounted return 很高。

临近这样高价值的state的 state 如果有action进入这样的state,除非reward 负很大,平衡了未来收益和现有收益,那都是高价值的,因为他们有action可以进入高价值的state。 

带滑梯的到终点(CliffWalking,每走一步r=-1)

游戏详情

不同gym游戏 reward的设置探究_第3张图片

进入黑色滑梯,reward = -100,人物回到原点,done = False。

走一步,安全情况下,reward = -1

走到终点,reward = -1,done = True

想想这个table里面数值是什么样的

临近done 的state  q(s,'↓') = -1,   

那么临近的临近 q(s,'a') = -1 + 0.6 * q(s',a) = -1 + 0.6*-1 = -1.6 

起点的话,往右走 q(0,'→') = -100,往上走至少分数高点,比如 - 10,-20这样的,具体看自己设置的-1 + gama * q(s',a)

cartpole (坚持1s给1分)(FlappyBird

游戏规则

不同gym游戏 reward的设置探究_第4张图片

不同gym游戏 reward的设置探究_第5张图片

 想法

如果 state100 = [x1 x2 x3 x4] 在一个很危险的state,做任何action都是死亡 done = True。

如果在state99,左走能进入state 100(危险) ,右走进入state 98 (有很大生机)

那么虽然两个action 都能坚持当前的1s 给1分,但是往后的discounted return 就不一样了。

你可能感兴趣的:(#,强化学习,强化学习)