强化学习(学习归纳整理)

前注:本文是强化学习的梳理归纳,之前有一定的强化学习入门基础,非纯小白。

参考资料主要为:

  1. 西湖大学赵世钰老师编写的《Mathematical Foundation of Reinforcement Learning》即《强化学习的数学原理》这本书籍,比较偏向于数学底层原理部分。

  1. 莫烦python的部分强化学习代码。

  1. 网上其他一些查阅到的资料及文献。

  1. 本人自己的理解与总结归纳。

下面进入正题:


一、什么是强化学习?

强化学习是智能体(Agent)与环境互动的过程中,通过获得的奖赏作为指导,目标是使智能体获得最大奖赏,从而完成任务。(强化学习、有监督学习、无监督学习都是机器学习的一种)

强化学习所学习的东西:一个好的价值函数(一个好的价值函数决定一个好的策略)

二、为什么要研究和引入强化学习?

1.在监督学习和无监督学习中,都是通过大量数据去学习背后的规律。而在强化学习中,我们拥有的不是数据而是环境,可以从环境中产生数据,最终目标不是学习背后的规律,而是要智能体能够在环境中能够表现的优秀,获得尽可能多的奖励。

2.强化学习的思想与人类学习的过程有很大的相似性,被认为是迈向通用人工智能的重要途径。

3.可以用来解决网络与通信领域的问题。由于网络与通信领域存在多种组合优化问题,如资源分配、路由拓扑优化、计算迁移等,因此基于深度强化学习的组合优化在网络与通信领域存在较多且有待挖掘的应用。(由于本人专业是信息与通信工程,所以会倾向于关注一些强化学习在通信以及网络资源分配中的应用。)

三、强化学习的三层结构与主要元素梳理

强化学习(学习归纳整理)_第1张图片

图1 RL的三层结构与主要元素

个别元素解释:

(1)State:描述的是Agent相对于环境的的一个状态,如s1、s2、……snS={Si}表示所有状态的集合,即状态空间。

(2)Action:在每一个状态s上有一系列可以采取的行动a1、a2、……an,表示动作空间,它和状态是有依赖关系的。

由此定义了一个Agent与环境交互的行为State Transition(在动作a2的作用下),用条件概率,从数学的角度来描述:

P(s2|s1,a2)=1

P(si|s1,a2)=0

(3)Policy:在每个状态下,Agent有很多动作可选,称为策略,用条件概率来表示(指定了在一个状态下,采取不同动作的概率是多少)。特殊的,对于状态s1下的策略:

Π(a1|s1)=0.2

Π(a2|s1)=0.3

Π(a3|s1)=0.5

(4)Reward:奖励是在强化学习中具有独特性的概念,它是一个标量,用于对Agent的行为进行打分,可分为鼓励与惩罚。我们通过设置奖励来引导Agent达到一定的理想目标,去适应环境。例如,在状态s1时,选择动作a1,奖励为-1,用数学语言来描述:

P(r=-1|s1,a1)=1

P(r≠-1|s1,a1)=0

(注:每一步都有Reward,将完整运行一次之后的Reward的总和称为ReturnReturn可用来衡量整个策略的好坏,而不是某一步的好坏。状态、动作、奖励、状态、动作、奖励将一直进行下去,称为state-action-reward链,又叫做trajectory

四、一些常用概念及方法的引入

(1)Discounted Return(折扣回报):为了使Return收敛,且近期回报的权重高于远期回报,引入了Discounted Return

我们通常把t时刻的Return叫做(含义是把t时刻的所有奖励reward全部累加起来,一直加到任务结束时的最后一个奖励):

引入折扣率γ后,可得到Discounted Return(折扣回报),折扣率γ∈[0,1),γ越大,未来奖励的比重会越大,反之越小。将Discounted Return定义为新的

(2)State Value(状态价值):状态价值是的期望,由于策略选择具有随机性,状态也具有随机性,所以需要对求期望,将其定义为状态价值Vπ(s)

注:

(i)Vπ(s)又叫状态价值函数,是状态s的一个函数。从不同的状态s出发,得到的轨迹不同,则得到的也不同,求期望后也不同。

(ii)Vπ(s)也是策略π的函数,其又可写为V(S,π)。显然不同的策略会得到不同的轨迹,则得到的也不同,求期望后也不同。

(iii)State Value的区别:是对于单个的trajectory,而State Value是对多个trajectory得到的再求期望。

(iv)贝尔曼公式:

该公式表明等于该时刻得到的reward加上下一个时刻从那个状态出发得到的折扣回报。

进一步地,

该式子将状态价值函数由原来的一个期望分解为两个期望,下面分别求两个期望。

你可能感兴趣的:(学习,人工智能)