Reinforcement Learning - Morvan Python

地址在这:莫凡的强化学习教程,比较入门的RL教程,例子简单好懂,作为入门还蛮好的?但不建议直接看,一开始可以先看看Sutton书里的balancing methods或者Udacity的强化学习课了解一些基本概念,再来看莫凡的简单例子就会更加融会贯通。

Q-Learning

Reinforcement Learning - Morvan Python_第1张图片
重点就是递推的那行Bellman公式,Q是一个table,两轴分别是state与action,其值为当前的价值,那行公式的意思就是:
初始的 Q(S, A) 就是你在 S 执行 A 的假设价值,而从你在 S 执行了 A ,获得了报酬R并进入S’,且假设你后面都会执行暂时价值最大的行动 a 以产生后续的更多的延迟价值(其实就是每一步行动影响到后面的整体价值提升),那么 R+maxaQ(S’, a) 这段实际上就是预期的价值,用 预期值-假设值 ,其中再加上个衰减率 γ 决定延迟价值的影响,还有学习率 α 就是整条公式了。

Easy Example: 改编成Gym格式的找宝藏小游戏

Sarsa

Reinforcement Learning - Morvan Python_第2张图片

你可能感兴趣的:(MachineLearning)