强化学习——基本概念

何为强化学习

机器学习的一大分支

  • 强化学习(Reinforcement Learning)是机器学习的一种,它通过与环境不断地交互,借助环境的反馈来调整自己的行为,使得累计回报最大。
  • 强化学习要解决的是决策问题——求取当前状态下最优行为或行为概率。
  • 强化学习包括智能体和环境两大对象,智能体是算法本身,环境是与智能体交互的外部。

智能体(Intelligent Agent),在人工智能领域,智能体指一个可以观察周围环境并作出反应的自主实体。——维基百科

graph TB A(机器学习) — B(监督学习) A — C(非监督学习) A — D(强化学习)

机器学习主要分为三大类:监督学习、非监督学习和强化学习。
与前两者不同,强化学习的训练样本没有任何标记,仅有一个延迟的回报信号。强化学习通过对训练数据进行学习,以获得从状态到行为的映射。这是一大区别。
在监督学习和非监督学习中,数据是静态,不需要与环境进行交互。此外,数据有着前提假设,如服从混合高斯分布、泊松分布等。然而,强化学习需要在与环境不断交互的过程中动态学习,所需的数据也是由与环境不断交互动态产生的,产生数据之间高度相关。强化学习涉及的对象更多、更复杂。此外另一个区别。

六个关键词

学习与规划(Learning & Planning)

学习与规划是两种方法,分别适用于不同的情境。
学习针对未知环境的情况。仅通过与环境进行交互,采用试错法逐渐改善其策略。
当智能体,已经知道或近似知道环境如何工作后,可以选择规划方法。智能体并不直接与环境发生实际交互,而是利用自己拟合的环境模型获得状态转换概率和汇报,在此基础上改善其策略。

探索与利用(Exploration & Exploitation)

探索与规划是两种行为,相互对立。
探索是指智能体在一种状态下,试图尝试一个新的行为,以图挖掘更多关于环境的信息;利用是指智能体根据已知信息,选取当下最优的行为来最大化回报。

预测与控制(Prediction & Control)

预测与控制是解决强化学习问题的两个步骤,也成为评估与改善。
解决一个强化学习问题,首先是解决关于预测问题:评估当前策略的质量。而后在此的基础上,解决控制问题:对当前策略不断优化,直到找到一个足够好的策略能够最大化未来的回报。

何为马尔可夫

强化学习的大部分算法都是以马尔可夫决策过程为基础发展。马尔可夫过程为强化学习问题提供了基本的理论框架,几乎所有强化学习问题都可以用马尔可夫决策过程(MDP)进行建模。以下将做简单介绍。

关于“马尔可夫”的概念

马尔可夫性

马尔可夫性(Markov Property),如果某一状态蕴含了所有相关历史信息。只要当前状态可知,所有的历史信息不再需要,即当前状态可以决定未来,则认为该状态具有马尔可夫性。
可用以下状态转移公式表示马尔可夫性:

\[P(S_{t+1}|S_t)=P(S_{t+1}|S_t,\cdots,S_2,S_1)\]

可见状态\(S_t\)包含的信息等价于所有历史状态\(S_1,S_2\cdots,S_t\)包含的信息,所以该状态具有马尔可夫性。
例如,围棋未来的走向只和当前棋面相关,之前的棋面不再有实际意义,因此棋面具有马尔可夫性,它已经涵盖了导致该种局面的所有重要信息。

马尔可夫过程

具有马尔可夫性的随机过程(又称“随机事件”)即马尔可夫过程(Markov Process),又称为马尔可夫链。它是一个无记忆的随机过程,可用一个元组\(\)表示,其中\(S\)表示有限数量的状态集,\(\mathbf{P}\)表示状态转移概率矩阵。
以一张求职者找工作的例子说明马尔可夫链。

graph LR A([本职工作]) B([机器学习]) C([强化学习]) D([故宫旅游]) E([深度强化]) F[人工智能工作] A -->|0.5| A A -->|0.5| B B -->|1/3| A B -->|1/3| C B -->|1/3| F C -->|1/3| A C -->|1/3| F C -->|1/3| E D -->|0.2| C D -->|0.2| B D -->|0.6| E E -->|0.5| F E -->|0.5| D

椭圆表示求职者所处状态,方格“人工智能工作”表示求职者最终找到了满意的工作,即“终止状态”也可以认为它的下一个状态是自身的概率为100%。箭头表示状态间的转移,肩头上的数字表示当前转移的概率。
图中状态转移矩阵为:

\[\mathbf{P}= \begin{bmatrix} 0.5&0.5&0&0&0&0\\ 1/3&0&1/3&0&0&0\\ 1/3&0&0&1/3&0&1/3\\ 0&0&0&0&0.5&0.5\\ 0&0.2&0.2&0.6&0&0\\ 0&0&0&0&0&1\\ \end{bmatrix} \]

矩阵中每个元素\(P_{ss’}\)表示从状态\(s\)转移至状态\(s’\)的概率,从上到下的行(以及从左到右的列)分别表示本职工作、机器学习、强化学习、深度强化、故宫旅游、人工智能工

你可能感兴趣的:(人工智能,ai,深度学习,机器学习,语言模型)