强化学习——重拾强化学习的核心概念

虽然之前的文章零零散散地介绍了强化学习的核心概念,但是从来没有系统性地总结这些概念。Spinning Up 项目的官方文档总结得非常好,通俗易懂。通过学习这篇文章,对强化学习的核心概念又有了深入的理解,这篇文章就分享一下我的理解。

1. 核心概念词汇

强化学习的核心概念和词汇包括——中英文对照,准确的定义我就不赘述了,只是提炼这些概念和词汇中最重要的关键点。

  • 状态和观察(States and Observations)
    状态S可以完整地描述外部环境,观察O有可能会遗漏。如果O能够完整地观察S,就是环境就是完全可观察,否则就是部分可观察的

  • 行动空间(Action Spaces)
    行动空间是所有可以的行动S组成的空间,可以是离散的,也可以是连续的。

  • 策略(Policies)
    策略可以是确定性的,一般表示为μ,也可以是随机的,一般表示为π。之前的我写大部分文章都是用π表示随机性的策略。

  • 奖励(Rewards)
    强化学习中Agent(智能体)的目标是累积获得最多奖励,一般来说奖励是随着运动轨迹衰减的。从直观上来说,未来的奖励肯定没有现在的奖励好,从数学上来说无衰减约束的奖励可能带来无法收敛的问题。

下面几个核心词汇和概念,将分段详解。

  • 值函数(Value Function)
  • 最优Q函数和最优行动(The Optimal O-Function and the Optimal Action)
  • 贝尔曼等式(Bellman Equations)
  • 优势函数(Advantage Functions)

2. 深入理解值函数

值函数是对应状态上开始行动,按照某个策略运行下去,最终期望能够获得的奖励。

值函数有两个V函数(值函数)和Q函数(行动-值函数),两者的区别是Q函数需要指定执行一个行动a。

  • Vπ(s)是指从s状态开始一直按照策略π行动。
  • Qπ(s,a)是指在s状态执行行动a (a可以不按照策略π行动),之后再按照策略π行动。
  • V*(s), 『星号』表示最优策略,表示从s状态开始一直按照最优策略π行动。
  • Q*(s,a),『星号』 表示最优策略,在s状态执行行动a (a可以不按照最优策略行动),之后再按照最优策略行动。

很显然Vπ(s)相当于在s步执行策略π的Qπ(s,a)。用数学表达式即为

最优行动就是在Q*(s,a)中找到一个行动a,使Q函数能获得最大值。

3. 贝尔曼等式

我们在介绍MDP的文章中已经介绍过贝尔曼等式。从上面的定义可知,值函数是一个递归函数,贝尔曼等式可以看做是将当前值函数拆开,等于当前状态s的回报与下一个状态s' 值函数之。

最优值函数的贝尔曼等式是:


4. 优势函数

优势函数就是比较在状态s时,执行指定行动a,之后后再服从策略的Qπ(s,a),与一直执行策略Vπ(s)的优势
数学表达式即为:


优势函数可以是负数,说明在s状态下,指定行动a,并不比在策略π的指导下随机选择一个行动有优势。


首发steemit

欢迎扫描二维码关注我的微信公众号“tensorflow机器学习”,一起学习,共同进步

强化学习——重拾强化学习的核心概念_第1张图片
image

你可能感兴趣的:(强化学习——重拾强化学习的核心概念)