什么是强化学习?强化学习之父:它是人工智能的未来

https://www.toutiao.com/a6695987727583674893/

我相信,从某种意义上讲,强化学习是人工智能的未来。——强化学习之父,Richard Sutton

Google收购DeepMind后,DeepMind取得的成绩在人机大战的历史中留下了浓重的一笔。有人说机器让围棋失去了“性感”的一面,也有人说机器不懂对弈时双方厮杀的那份紧张感。但在人机对弈中,毫无疑问的是使用了深度强化学习(Deep Reinforcement Learning,DRL)技术的AlphaGo赢了!事实上,这只是强化学习(Reinforcement Learning,RL)开启未来智能篇章的序幕。正如DeepMind所说,下围棋只是开始,实现真正的智能才是我们最终的使命。

不管是DeepMind使得强化学习高调地进入了人们的视野,还是强化学习助力了DeepMind的发展,强化学习俨然成为了人工智能领域研究的热门方向。强化学习不仅吸引了自动化、计算机、生物等交叉领域的众多优秀的科学家,也吸引了对强化学习有着浓厚兴趣的普通民众,大家一起去探究其内在的奥秘!

从模拟玩游戏、人机对弈到机器人手臂控制、自动化系统,甚至深入到Web系统上的推荐引擎、自然语言对话系统等,强化学习的应用无处不在。在强化学习日新月异的技术发展潮流中,我们既需要夯实自身强化学习的理论基础,也需要努力地提升深度强化学习的实践能力。

1.1 初探强化学习

维基百科对强化学习的定义为:受到行为心理学的启发,强化学习主要关注智能体如何在环境中采取不同的行动,以最大限度地提高累积奖励。

强化学习主要由智能体(Agent)、环境(Environment)、状态(State)、动作(Action)、奖励(Reward)组成(见图1.1)。智能体执行了某个动作后,环境将会转换到一个新的状态。对于该新的状态,环境会给出奖励信号(正奖励或者负奖励)。随后,智能体根据新的状态和环境反馈的奖励,按照一定的策略执行新的动作。上述过程为智能体和环境通过状态、动作、奖励进行交互的方式。

 

什么是强化学习?强化学习之父:它是人工智能的未来_第1张图片

图1.1 强化学习基本架构:主要由智能体和环境组成,两者间通过奖励、状态、 动作3个信号进行交互

 

智能体通过强化学习,可以知道自己在什么状态下,应该采取什么样的动作使得自身获得最大奖励。由于智能体和环境的交互方式与人类和环境的交互方式类似,可以认为强化学习是一套通用的学习框架,可用来解决通用人工智能的问题。因此,强化学习也被称为通用人工智能的机器学习方法。

下面给出强化学习基本组成元素的定义。

  • 智能体:强化学习的本体,作为学习者或者决策者。
  • 环境:强化学习智能体以外的一切,主要由状态集组成。
  • 状态:表示环境的数据。状态集是环境中所有可能的状态。
  • 动作:智能体可以做出的动作。动作集是智能体可以做出的所有动作。
  • 奖励:智能体在执行一个动作后,获得的正/负奖励信号。奖励集是智能体可以获得的所有反馈信息,正/负奖励信号亦可称作正/负反馈信号。
  • 策略:强化学习是从环境状态到动作的映射学习,该映射关系称为策略。通俗地说,智能体选择动作的思考过程即为策略。
  • 目标:智能体自动寻找在连续时间序列里的最优策略,而最优策略通常指最大化长期累积奖励。

因此,强化学习实际上是智能体在与环境进行交互的过程中,学会最佳决策序列。

1.1.1 强化学习与机器学习

2016年,由DeepMind开发的AlphaGo程序在人机围棋对弈中打败了韩国的围棋大师李世石。就如同1997年IBM的“深蓝”计算机战胜了国际象棋大师卡斯帕罗夫一样,媒体开始铺天盖地般地宣传人工智能时代的来临。

在介绍AlphaGo程序时,很多媒体会把人工智能(Artificial Intelligence)、机器学习(Machine Learning)和深度强化学习混为一谈。从严格定义上来说,DeepMind在AlphaGo程序中对上述3种技术都有所使用,但使用得更多的是深度强化学习。图1.2展示了人工智能、机器学习、深度强化学习三者之间的关系。其中人工智能包含机器学习,而强化学习则是机器学习的重要分支之一,它们三者是包含与被包含的关系,而非并列的关系。

 

什么是强化学习?强化学习之父:它是人工智能的未来_第2张图片

 

 

图1.2 深度强化学习、机器学习、人工智能之间的关系。人工智能的概念从1950年左右开始被提出,而机器学习则是在1980年左右被提出,最近热门的深度强化学习则是在2010年左右被提出的

从20世纪50年代“人工智能”这一概念第一次提出至今,人工智能的问题大致分为6个具体的方向:问题求解、知识推理、规划问题、不确定推理、通信感知与行动、学习问题。而机器学习主要分为3个方向:分类、回归、关联性分析。最后到深度强化学习则是对机器学习中的强化学习进行深度拓展。

人工智能实际上包含了日常使用到的算法。例如在问题求解方面,用到A*搜索算法和a-b剪枝算法等经典算法;又如人工智能中的学习问题则包含了机器学习的大部分内容。现阶段已经有很多资料介绍机器学习的相关算法,较为著名的机器学习的十大算法为:决策树、支持向量机SVM、随机森林算法、逻辑回归、朴素贝叶斯、KNN算法、K-means算法、AdaBoost算法、Apriori算法、PageRank算法。

在机器学习里,其范式主要分为监督学习(Supervised Learning)、无监督学习(Unsupervised Learning)和强化学习,如图1.3所示。

正如维基百科所说,强化学习是机器学习的一个分支,但是却与机器学习中常见的监督学习和无监督学习不同。具体而言,强化学习是通过交互的一种目标导向学习方法,旨在找到连续时间序列中的最优策略;监督学习是通过带有标签的数据学习数据中固有的规则,通常指回归、分类问题等算法;无监督学习是通过无标签的数据找到其中的隐藏模式,通常指聚类、降维等算法。

 

什么是强化学习?强化学习之父:它是人工智能的未来_第3张图片

 

 

图1.3 机器学习领域中的3大分支,分别为监督学习、无监督学习、强化学习, 但三者之间并非完全独立,而是互相交叉

1.1.2 强化学习与监督学习的区别

强化学习和监督学习的共同点是两者都需要大量的数据进行学习训练。它们的区别是:

(1)两者的学习方式不尽相同;

(2)两者所需的数据类型有差异,监督学习需要多样化的标签数据,强化学习则需要带有回报的交互数据。

1.学习方式

一般而言,监督学习是通过对数据进行分析,找到数据的表达模型;随后,利用该模型,在新输入的数据上进行决策。图1.4为监督学习的一般方法,主要分为训练阶段和预测阶段。在训练阶段,首先根据原始数据进行特征提取,该过程称为“特征工程”。得到数据的特征后,可以使用决策树、随机森林等机器学习算法去分析数据之间的关系,最终得到关于输入数据的模型(Model)。在预测阶段,同样按照特征工程的方法抽取数据的特征,使用训练阶段得到的模型对特征向量进行预测,最终得到数据所属的分类标签(Labels)。值得注意的是,验证模型使用验证集数据对模型进行反向验证,确保模型的正确性和精度。

深度学习的一般方法(如图1.5所示)与传统机器学习中监督学习的一般方法相比,少了特征工程,从而大大降低了业务领域门槛与人力成本。

 

什么是强化学习?强化学习之父:它是人工智能的未来_第4张图片

 

 

图1.4 监督学习的一般方法

什么是强化学习?强化学习之父:它是人工智能的未来_第5张图片

 

 

图1.5 深度学习的一般方法

如上所述,监督学习分为预测和训练两个阶段,学习只能发生在训练阶段,该阶段会出现一个预测阶段中不会出现的监督信号(即具有学习的能力,数学上称为“差分信号”)。例如在语音识别任务中,需要收集大量的语音语料数据和该语料对应标注好的文本内容。有了原始的语音数据和对应的语音标注数据后,即可通过监督学习的方法学习收集数据中的模式,例如对语音进行分类、判别该语音音素所对应的单词等。

上述的标注语音文本内容相当于一个监督信号,等语音识别模型训练完成后,在预测阶段就不再需要该监督信号,生成的语言识别模型仅用来作为新数据的预测。如果想要重新修改监督信号,则需要对语言识别模型进行重新训练(由于监督学习的训练阶段非常耗时,现在有众多研究学者对迁移学习进行深入研究,以期望缩短监督学习的训练时间)。

强化学习与监督学习截然不同,其学习过程与生物的自然学习过程非常类似。具体而言,智能体在与环境的互动过程中,通过不断探索与试错的方式,利用基于正/负奖励的方式进行学习。图1.6所示为强化学习的一般方法,智能体从最上方的状态s开始,执行动作a后达到下一时间步的状态;在执行动作a的期间,智能体可以选择执行其他动作到达另外一个状态,例如s*。智能体通过该方式不断地探索与试错,进而选择出使得奖励最大化的动作。

 

什么是强化学习?强化学习之父:它是人工智能的未来_第6张图片

 

 

图1.6 强化学习的一般方法

2.先验知识与标注数据

强化学习不需要像监督学习那样依赖先验知识数据。例如目前已经非常流行的线上游戏,越来越多的用户开始使用移动终端进行游戏,使得数据的获取来源更为广泛。比如围棋游戏,围棋的棋谱可以很容易地得到,但是这些棋谱都是人类玩家的动作行为记录,如果只用监督学习进行建模,模型学习出的对弈技能很有可能只局限在所收集的有限棋谱内。当出现新的下棋方式时,模型可能因为找不到全局最优解而使得棋力大减。

强化学习通过自我博弈方式产生更多的标准数据。在强化学习中,如果有了基本棋谱,便可以利用系统自我学习和奖励的方式,让系统自动学习更多的棋谱或者使用两个智能体进行互相博弈,进而为系统自身补充更多的棋谱信息,并使得基于强化学习的系统不受标注数据和先验知识所限制。总而言之,强化学习可以利用较少的训练信息,让系统不断地自主学习,使得系统自我补充更多的信息,进而免受监督者的限制。另外,可以使用近年提出的迁移学习减少标注数据的数量,因为其在一定程度上突破监督学习中存在的限制,提前把大量标注数据信息提取了其高维特征,从而减少后续复用模型的输入数据。

什么是强化学习?强化学习之父:它是人工智能的未来_第7张图片

 

  • 涵盖数学基础、算法框架、网络模型;
  • 构建完整的强化学习知识体系,展现深度强化学习最新成果;
  • 可下载各章源代码(基于Python 3),书中附带彩图文件。

本书构建了一个完整的深度强化学习理论和实践体系:从马尔可夫决策过程开始,根据价值函数、策略函数求解贝尔曼方程,到利用深度学习模拟价值网络和策略网络。书中详细介绍了深度强化学习相关最新算法,如Rainbow、Ape-X算法等,并阐述了相关算法的具体实现方式和代表性应用(如AlphaGo)。此外,本书还深度剖析了强化学习各算法之间的联系,有助于读者举一反三。

-END-

你可能感兴趣的:(人工智能,强化学习,它是人工智能的未来,强化学习之父,Richard,Sutton)