强化学习中马尔科夫决策过程和贝尔曼方程

强化学习的基本原理:


强化学习中马尔科夫决策过程和贝尔曼方程_第1张图片
从强化学习的基本原理可以看出它与其他机器学习算法如监督学习和非监督学习的一些基本差别。 在监督学习和非监督学习中,数据是静态的、不需要与环境进行交互, 比如图像识别,只要给出足够的差异样本,将数据输入深度神经网络中进行训练即可。然而, 强化学习的学习过程是动态的、不断交互的过程, 所需要的数据也是通过与环境不断交互产生的。所以,与监督学习和非监督学习相比,强化学习所涉及的对象更多,比如动作、环境、状态转移概率和回报函数等等。强化学习更像是人的学习过程:人类通过与周围环境交互,学会了走路,奔跑,劳动。 深度学习如图像识别和语音识别解决的是感知问题,强化学习解决的是决策问题。 人工智能的终极目的是通过感知进行智能决策。

通过不断的探索, 提出了一套可以解决大部分强化学习问题的框架,这个框架就是马尔科夫决策过程,简称MDP。 其中的概念有马尔可夫性,马尔科夫过程,马尔科夫决策过程。


策略函数:

表示每个状态到行为的映射。

状态值函数(简称值函数):

表示策略执行之后的状态的值,可以用来评价当前状态的好坏。

状态
状态1 0.3
状态2 0.7

状态-行为值函数(简称Q函数):
表示智能体遵循策略 π \pi π 某一状态 下所执行的 特定行为 的最佳程度.

状态 行为
状态1 行为1 0.03
状态1 行为2 0.02
状态2 行为1 0.5
状态2 行为2 0.9

在提到值函数V(S)或Q函数Q(S,a)时,实际上是指如上所述的值表和Q表。

值函数与状Q函数的区别:
值函数是确定状态的最佳程度,而Q函数是确定每一状态下行为的最佳程度。


贝尔曼方程

贝尔曼方程,也被称作动态规划方程, 他是把一个规划问题转化为抽象状态之间的转移问题,求解贝尔曼方程就相当于在寻找选择了什么样的策略到达了当前状态。
贝尔曼方程的重要性在于, 它能让我们将一个状态的值表达成其它状态的值。这意味着,如果我们知道 S t + 1 St+1 St+1的值,我们可以很容易计算出 S t S_t St的值。这为计算每个状态值的迭代方法打开了大门,因为如果我们知道下一个状态的值,我们就可以知道当前状态的值。最后,随着Bellman方程(贝尔曼方程)的出现,我们可以开始研究如何计算最优策略

那么,求解值函数和Q函数的最优贝尔曼方程,我们就可以找出最优的策略。

目前使用两种特殊的动态规划算法来寻找最优策略:

  • 值迭代
  • 策略迭代

马尔可夫过程与马尔科夫决策过程:


一直被这两个名词搞混淆,初步以为是字打错了…
.
进一步学习后发现,马尔科夫决策过程具有马尔可夫性,而马尔可夫过程说的是系统的下一个状态s_(t+1)仅与当前状态s_t有关,而与之前的状态无关,即 P ( s t + 1 ∣ s t ) = P ( s t + 1 ∣ s 1 , … s t ) P\left(s_{t+1} \mid s_{t}\right)=P\left(s_{t+1} \mid s_{1}, \ldots s_{t}\right) P(st+1st)=P(st+1s1,st)

马尔科夫决策过程在状态的基础上包含了动作,即 P s s ′ a = [ s t + 1 = s ′ ∣ s t = s , A t = a ] P_{s s^{\prime}}^{a}=\left[s_{t+1}=s^{\prime} \mid s_{t}=s, A_{t}=a\right] Pssa=[st+1=sst=s,At=a]


相关内容推荐:

[1]. 强化学习–值函数
[2]. 基于值函数逼近的强化学习方法
[3]. Policy gradient 算法思想
[4]. 马尔科夫决策过程

你可能感兴趣的:(强化学习,强化学习,马尔科夫决策,贝尔曼方程)