
【摘要】介绍强化学习的起源、发展、主要流派、以及应用。强化学习理论和技术很早就被提出和研究了,属于人工智能三大流派中的行为主义。强化学习一度成为人工智能研究的主流,而最近十年多年随着以深度学习为基础的联结主义的兴起,强化学习与之结合后在感知和表达能力上得到了巨大提升,在解决某些领域的问题中达到或者超过了人类水平。在围棋领域,基于强化学习和蒙特卡洛树搜索的AlphaGo打败了世界顶级专业棋手;在视频游戏领域,基于深度强化学习的游戏智能体在29款Atari游戏中超过人类平均水平;在即时战略游戏领域,AlphaStar和OpenAI Five分别在星际争霸II和Dota 2这两款游戏中达到了顶尖人类玩家的水平;在德州扑克领域,一个叫做 Pluribus的人工智能选手在长达12天的鏖战中,打败了12名世界顶级职业玩家。


  • 1. 强化学习发展历史简述
    • 1.1 动物实验心理学中的效应定律
    • 1.2 早期计算机领域关于试错学习的探索
    • 1.3 试错学习与最优控制
    • 1.4 强化学习分类
      • 1.4.1 基于价值的强化学习算法
      • 1.4.2 基于策略的强化学习算法和“演员-评论家”算法
  • 2. 强化学习能做什么
    • 2.1 使用强化学习实现控制功能
    • 2.2 使用强化学习玩棋牌类游戏
    • 2.3 使用强化学习优化物流
    • 2.4 使用强化学习实现核聚变反应控制
    • 2.5 使用强化学习实现路由控制协议
    • 2.6 使用强化学习控制自动驾驶车辆
  • 参考文献

1. 强化学习发展历史简述

1.1 动物实验心理学中的效应定律

强化学习是一种基于反馈的学习,即存在一个智能体,能够感知环境,根据环境状态做出动作,并从环境接收反馈信息,以此调整自身的行动策略。这种基于反馈进行学习的朴素思想很早就被研究者观察到了。心理学家Edward Thorndike在1911年将其总结为“效应定律(Law of effect)”[50]:


与效果定律类似的,还有“练习定律(Law of exercise)”:



1.2 早期计算机领域关于试错学习的探索



1.3 试错学习与最优控制

这种“试错”学习方式,与“最优控制”的理念不谋而合。“最优控制”的目标是使得动态系统随时间变化的某种度量最大化或者最小化[53]。从控制的角度,试错学习的一系列动作实际上是时序决策的结果。贝尔曼于1957年提出了最优控制问题的离散随机版本,并用马尔可夫决策过程(Markov decision process, MDP )进行形式化描述[52]。此后,Ronald Howard在1960年开发出了MDP的策略迭代方法[54],为现代强化学习理论和算法打下了坚实的基础。

1.4 强化学习分类


图1 强化学习方法分类

处理马尔可夫决策过程有三类基本方法:动态规划(dynamic programming, DP)、蒙特卡洛方法(Monte Carlo, MC)和时序差分(temporal difference, TD)。动态规划方法具有严格而清晰的数学基础且已经被深入研究,但它需要完整而精确的环境模型。这里的环境模型,简称模型,一般指环境的状态转移函数:在当前状态下智能体执性某个动作后,环境如何转移到下一个状态。蒙特卡洛方法和时序差分(Temporal difference, TD)都不需要环境模型,属于无模型强化学习方法。蒙特卡洛方法在环境交互数据充分的条件下能够准确估计状态和动作的价值,从而收敛到有效的策略,但难以应用一步一步的增量式更新计算方式。时序差分方法用前后状态收益估计的差分来驱动价值函数的更新,能够增量式地更新,但在稳定性上有所欠缺。此外,在获得大量与环境交互的优质样本情况下,可以直接对策略进行监督学习,即模仿学习,如智能体行为克隆等。本文主要关注无模型强化学习方法。


1.4.1 基于价值的强化学习算法

基于价值的强化学习方法,其核心是准确估计状态-动作对的值函数,时序差分思想在这类方法起到了核心作用。时序差分背后的思想可以追溯到Minsky在1954年发表的博士论文[57],该论文认为预期收益是一种次级强化物,可以产生类似于初级强化物(例如食物或者疼痛)产生的刺激。Arthur Samuel在1959年开发了一个包含时序差分思想的算法用于跳棋程序[58]。20世纪80到90年代,Sutton和Barto等在时序差分思想的基础上建立了一个经典的条件反射心理学模型[55][56],并且开发了“演员-评论家”(actor-critic)架构用于解决小车平衡杆问题[59]。Sutton在1988年将时序差分从控制中分离出来,将其作为一般的预测方法进行研究[60]。Watkins于1989年在他的博士论文中提出了著名的 学习算法[61],将时序差分与最优控制结合在一起,大大推动了强化学习的研究进程。此后,Gerry Tesauro在1992年开发的基于时序差分的西洋双陆棋程序TD-Gammon[89]取得了巨大的成功,让强化学习领域得到了更多的关注。

以 学习为代表的基于价值的强化学习算法,使用一张 值表存储每个状态下做出各种动作所对应的未来收益的估计,获得新的交互数据后,使用时序差分方法对 值表进行更新。这种基于表格更新的算法称为表格型强化学习算法。表格型强化学习算法在理论证明和一些简单的离散状态和离散动作空间问题中是十分有用的,但缺点也很明显。当问题的状态和动作数量巨大或者是连续的,表格型算法无论在内存还是填充数据所需时间上都是难以满足需要的。为此,面对新的状态,从以往经历过的状态出发,去归纳和总结进而做出合理的决策是可行的方案。但是,新的状态与以往的状态有多相似?做出的决策应该参考多少?这些都是需要解决的问题。实际上,这是将一个有限子集的经验进行推广来近似一个大得多的子集的问题,又称为泛化问题。解决泛化问题通常使用函数逼近。

基于函数逼近的强化学习方法最早出现在Samuel的跳棋程序[58][62]中,Samuel按照Shannon的建议[63],通过特征的线性组合来近似下棋策略所依赖的价值函数。为了表达特征之间的相互关系,基于多项式基、傅立叶基[64]的函数逼近方法逐渐被开发。粗编码[65]和瓦片编码[66][67][68][69][70],都是基于特征的覆盖来算不同特征的值函数。径向基函数(radius basis function, RBF)[71][71][72]是粗编码和瓦片编码的自然扩展,即用一组高斯函数作为特征的线性逼近函数或者非线性逼近函数。RBF网络具有很强的表达能力,其缺点是计算复杂高且较为依赖参数设定。人工神经网络(artificial neural network, ANN)也很早就被广泛应用于强化学习中的非线性函数逼近[73][74][75][76]。而随着近年来深度神经网络的空前发展,各种高效ANN模型的出现是现代强化学习能够取得令人赞叹表现的重要原因之一。

人工神经网络具有悠久的研究历史且应用广泛,最近一二十年出现的深度神经网络(deep neural network, DNN)[18][19]更是表现出了惊人的表征能力。一个ANN是由相互连接的具有类似人和动物神经元功能的单元组成的网络。这些单元的输入输出特性一般具有一定的非线性区域,即对输入特征在线性组合的基础上增加激活函数,以增加对输入信号的非线性表征能力。一个ANN可以具有多个由神经单元组成的层,那些输入为其他层的输出,而其输出为其他层的输入的层,称为隐层。Cybenko在1989年证明[77],如果一个ANN拥有一个隐层,并且这个隐层包含足够多数量的激活单元,则这个ANN可以在网络输入空间的一个紧凑区域内以任意精度逼近任意连续函数。但是,在后来的理论和实际应用中都发现,对于很多人工智能任务中的复杂函数,使用多层次的网络是一种更容易实现的逼近方式[78]。因此,ANN朝着层数增加的方向发展,高层的抽象是许多底层抽象的层次化组合,即深度学习。基于梯度反向传播[79]以及其他一些防止过拟合[80]和梯度消失[81]的方法,可以对一些更深的网络进行训练。视觉领域的卷积神经网络(convolutional neural network, CNN)[18]、深度残差网络[20],自然语言处理领域的循环神经网络(recurrent neural network, RNN)[83][85]、Transformer结构[85]等,都是优秀的基于深度学习的人工智能感知模型。

ANN在强化学习中的应用主要体现在对价值函数和策略函数的逼近。Barto等人在1982年使用一个双层神经网络来学习一个非线性控制策略[86],并指出第一层用于自动学习合适的特征表征。Barto、Sutton和Watkins等人在1990年发表论指出,ANN在解决序列决策问题的函数逼近方法中可以发挥重要作用[87]。Williams在1992年开发的REINFORCE算法[88],使用ANN作为智能体的策略函数,并使用反向传播方法进行训练。Tersauro在1992年开发的TD-Gammon程序[89]可以自动玩西洋双陆棋,展示了使用ANN进行函数逼近在强化学习中的巨大潜力。Silver等人在2015年提出的DQN(deep Q-network)[31]方法,用深度神经网络对Q网络的值函数进行拟合,并使用经验重放池和目标网络稳定训练过程。DQN使用卷积神经网络处理视频游戏的原始数据,在Atari视频游戏中达到了人类玩家的水平。在DQN之后,强化学习和深度学习相结合成为强化学习研究新范式,涌现出了大量优秀的深度强化学习 (deep reinforcement learning, DRL)算法[90][91][92][93][94][95][96][97]。

1.4.2 基于策略的强化学习算法和“演员-评论家”算法


基于策略的强化学习方法直接学习参数化的策略函数,此时价值函数可以用于策略函数的学习,但不是必需的。最早的基于策略的强化学习算法应是Williams在1992年开发的REINFORCE算法[88]。REINFORCE是一种基于蒙特卡洛的策略梯度算法,该算法基于蒙特卡洛思想对策略函数参数相对于长期累积奖励和期望的梯度进行估计,并使用梯度提升算法更新策略函数的参数。REIFFORCE算法中策略函数参数的每一次更新都需要使用整个任务的总收益,只有在任务结束后才能进行更新,并且每一步的决策都使用相同的收益(整个分幕的收益)进行强化。后续提出的改进算法,只考虑当步以后的收益,可以加快算法收敛速度,减少与环境的交互次数。REINFORCE算法使用任务结束后的收益来更新策略参数,这种收益是一种无偏估计。但该算法的更新需要等任务(甚至是许多次任务)结束后才能更新策略函数。2000年前后,Marbach、Tsitsiklis和Sutton等人先后推导出了策略梯度理论[98][99],即策略对收益的梯度可以用动作的价值函数和策略的梯度进行表示,REINFORCE是其中的一种特殊情况。基于策略梯度理论,价值函数和策略函数得到统一,形成了“演员-评论家”结构的强化学习智能体架构。近些年出现的表现出色的深度强化学习智能体大多基于此结构。当强化学习算法中的策略函数被参数化,并且使用梯度进行更新,这类算法都称为策略梯度算法。2016年以后,许多优秀的策略梯度算法陆续被提出[100][101][102][97],其中近端策略优化算法(proximal policy optimization, PPO)[102]将策略梯度进行限制,较好的稳定了策略梯度算法的参数更新。基于PPO算法开发的电子游戏多智能体OpenAI Five[33]在多人即时战略游戏Dota2中达到了顶尖人类玩家的水平。

2. 强化学习能做什么


2.1 使用强化学习实现控制功能

图2 使用强化学习控制模拟飞船着陆


图3 使用强化学习控制星际争霸游戏智能体


2.2 使用强化学习玩棋牌类游戏


图4 围棋


图5 麻将

2.3 使用强化学习优化物流

图6 使用强化学习优化物流运输


2.4 使用强化学习实现核聚变反应控制


图7 使用强化学习实现核聚变反应控制


2.5 使用强化学习实现路由控制协议


图8 使用强化学习优化路由协议


2.6 使用强化学习控制自动驾驶车辆

图9 使用强化学习控制自动驾驶车辆


