一、前言
强化学习(reinforcement learning, RL)是监督学习、 无监督学习之外的另一机器学习范式, 通过设置反映目标任务的奖励函数, 驱动智能体在与环境的交互与试错中学习能使累计收益最大化的策略.强化学习一般采用马尔科夫决策过程(Markov decision process, MDP)进行问题形式化描述.强化学习智能体的目标是学习一个策略(policy) : 表示从状态到动作概率的映射.
深度强化学习(deep reinforcement learning, DRL) 是在强化学习提供的最优决策能力的基础上, 结合深度学习(deep learning, DL)强大的高维数据表征能力来拟合价值函数或策略, 进而基于交互样本训练得到最优价值函数或最优策略, 被认为是结合感知智能和认知智能的有效方法. 深度强化学习在游戏人工智能、机器人、自然语 言处理、金融等诸多领域取得了超越人类的性能表现 , 但在具备稀疏奖励、随机噪声等特性的环境中, 难以通过随机探索方法获得包含有效奖励信息的状态动作样本, 导致训练过程效率低下甚至无法学习到有效策略. 具体来说, 一方面现实应用中往往存在大量奖励信号十分稀疏甚至没有奖励的场景. 智能体在这类场景探索时需要执行一系列特定的动作, 以到达少数特定的状态来获得奖励信号, 这使得在初始时缺乏所处环境知识的智能体很难收集到有意义的奖励信号来进行学习. 例如, 多自由度机械臂在执行移动物体任务中, 需要通过系列复杂的位姿控 制将物体抓取并放置到指定位置, 才能获得奖励. 另一方面, 现实环境往往具有高度随机性, 存在意料之外的无关环境要素(如白噪声等), 大大降低了智能体的探索效率, 使其难以构建准确的环境模型来学习有效策略. 例如, 部署应用在商场的服务机器人在执行视觉导航任务时, 既要受到商场中大量的动态广告图片或视频的传感干扰, 还可能面临动作执行器与环境交互时的结果不确定性, 同时长距离的导航任务也使其难以获得有效正奖励信号. 因此深度强化学习领域亟需解决探索困难问题, 这对提高 DRL 的策略性能和训练效率都十分重要.
针对奖励稀疏、随机噪声等引起的探索困难问题, 研究者们提出了基于目标、不确定性度量、模仿学习 等探索方法, 但对任务指标的提升效果有限, 并增加了额外的数据获取的代价. 近年来, 源自心理学的内在动机(intrinsic motivation)概念因对人类发育过程的合理解释, 逐渐被广泛应用在 DRL 的奖励设计中以解决探索问题.
二、DRL经典探索方法
2.1 随机扰动方法
随机扰动方法可按照加入噪声的位置差异分为 2 类: 一是在动作选择的过程中增加随机性或噪声,如 在-贪婪算法中.二是在拟合策略的网络参数上加入噪声, 比如参数空间噪声模型和 NoisyNet 模型等.
2.2 频率派方法
频率派基于实际数据样本的估计来衡量状态的不确定性, 在数据量有限的情况下一般采用带有置 信 水 平 的 区 间 估 计 方 法 .
2.3 贝叶斯派方法
贝叶斯学派观点认为, 面对未知环境人们维护 着对于所有可能模型的概率分布以表达其不确定性, 随着观测证据的增多, 后验分布一般比先验分布更 能反映不同备选模型与真实模型的接近程度. 由于 在选择动作时不仅依据观测状态, 也必须考虑对信 念状态的更新, 贝叶斯强化学习方法被认为有助于提高探索效率, 防止陷入局部最优, 且同时考虑利用现有策略最大化累积收益.
缺点:
随机扰动方法缺少对具体状态和动作探索作用的评估, 难以依据对状态的某种度量引导探索过程, 因此无法形成有启发性的探索过程, 也被称为无指导探索 .
频率派或贝叶斯派的方法, 大多仅是在小规模场景中推导出了样本复杂度或期望后悔值的上界, 具有一定理论保证, 但很难直接应用到更加复杂的环境如具有动态性和不确定性的实际场景. 例如 MEIB-EBB(model-based interval estimation-exploration bonus)和 BEB(Bayesian exploration bonus)算法都需对状态动作对有准确的计数, 在小规模的状态和动作空间条件下是可行的, 但无法应用于动态、高维或连续场景中, 亟需启发性更强、计算效率更高的探索方法.
三、基于内在动机的深度强化学习探索方法
3.1 内在动机的背景
为解决大规模状态动作空间中由稀疏奖励、随机噪声干扰等产生的探索困难问题, 研究者们提出了 基于目标、不确定性度量和内在动机等深度强化学习探索方法 .
基于目标探索的方法通过对兴趣状态进行分析来生成探索性子目标, 同时对如何到达子目标的过程进行控制, 以提高智能体在复杂环境中的探索效率. 这类方法偏规划, 重点在于存储状态和轨迹信息, 并根据存储的信息规划生成子目标点, 然后学习如何到达子目标点.
基于不确定性度量的方法通常采用价值函数的贝叶斯后验来显示建模认知不确定性, 或者采用分布式价值函数来额外评估环境内在不确定性, 以鼓励智能体探索具有高度认知不确定性的状态动作对, 并尽量避免访问具有高度内在不确定性的区域. 该方法更多偏向于挖掘价值函数中的不确定性, 体现的是计算思维.
基于内在动机的方法从行为学和心理学中内在动机驱动高等生物自主探索未知环境的机理出发, 将“新颖性”等多种源自内在动机的启发式概念形式化为内在奖励信号, 以驱动智能体自主高效探索环境, 体现的是一种更抽象和拟人的思维. 具体来说, 内在动机源于高等生物在追求提高自主性和能力或掌控力的过程中获得的愉悦感, 是驱动无外界刺激条件下探索未知环境的动力. 内在动机在 DRL 中, 可以被映射为内在奖励信号, 与基于值函数或策略梯度的深度强化学习方法相结合, 形成具备强启发性的探索策略, 以提高智能体探索复杂未知环境的效率.总而言之,内在动机的本质可以理解为大脑对实现自主性和提高能力或掌控力的追求.
总体上说, 内在动机来自人们对各类能够提供 新颖性、惊奇、好奇心或挑战的活动的最自然兴趣.根据内在动机与 DRL 结合的不同形式. 主要包括:
1) 受新颖性动机驱动的基于计数的内在奖励形式化;
2) 受好奇心驱动的预测误差的奖励设计;
3) 受学习提升期望驱动的精度提升和信息增益近似方法;
4) 以状态多样性为启发式的最大熵方法;
5) 追求自主性和控制力的互信息量化方法.
内在动机与外在动机的区别:
内在动机有别于以外在奖励的形式为人们所熟知的外在动机(extrinsic motivation). 从进化意义上来 说, 2 种动机驱动的行为都能够提高生物体对环境的适应能力、增加存活和繁殖的概率, 但却具有各自不同的实现途径.
外在动机以身体恢复内稳态为目标, 通过生物体与外部环境的交互, 来学习特定的策略, 以增强个体对外界动态环境的适应力. 因此外在动机产生的学习信号强弱与内稳态需求紧密相关. 内在动机产生的信号则来源于大脑神经信号, 通常不与身体的内稳态、特定任务目标直接相关, 会促使生物体在探索环境的过程中获取更丰富的知识, 提升自身技能水平, 以产生和掌握有助于完成外界任务的复杂长序列行为. 因此内在动机信号的强弱与获得知识或提升技能的过程密切相关.
3.2 常用测试环境
1)Atari街机游戏集.该游戏集中共57个游戏, 其中有 7 个奖励非常稀疏、探索难度较高的游戏.
GitHub - mgbellemare/Arcade-Learning-Environment: The Arcade Learning Environment (ALE) -- a platform for AI research.
2)多自由度的连续控制任务环境 rllab.GitHub - rll/rllab: rllab is a framework for developing and evaluating reinforcement learning algorithms, fully compatible with OpenAI Gym.
3)游戏 Doom 的 3 维仿真环境 VizDoom.GitHub - mwydmuch/ViZDoom: Doom-based AI Research Platform for Reinforcement Learning from Raw Visual Information.
4) OpenAI Gym.Gym Documentation
3.3 基于计数的方法
基于计数的方法一方面借鉴了 UCB(上置信界(upper confidence bound, UCB))算法的思路, 继承了“面对不确定性的乐观”思想, 即向访问次数较少的状态或状态动作对赋予更高的奖励, 以鼓励智能体尽快探索状态空间的未知部分, 另一方面采用基于相似性的状态泛化的解决思路.该类 方法的实现途径包括伪计数方法和状态抽象方法, 其中伪计数方法可细分为基于密度模型的伪计数和间接伪计数方法.
缺陷:尽管基于计数的方法不仅有较强的理论保证,并且能有效扩展到高维环境中, 但其对探索效率的作用依赖于 1 个基本假设, 即状态访问次数的增加必然能提升模型估计的确定性. 这一假设在静态环境中能够一定 程度满足, 但在动态变化的场景或状态/动作空间层次性较强的场景中, 访问次数与模型估计精度之间很难具有明确关系.因此 难以有效应对动态性较强和随机噪声干扰较多的环境.
3.4 基于知识的方法
第 2 大类方法认为人们自主探索的一大动力来自于降低外部环境的不确定性.照此不断修正自我认知的 DRL 探 索方法, 称为基于知识的方法, 大致可以分为基于预测模型和基于信息论的方法.在高维的连续空间等条件下, 此类方法的难点在于计算复杂度和相关信息量估值精度间的平衡.
预测误差是指预测模型的输出与预测对象的真实取值之间的差别, 用来形式化“惊奇”和“好奇心”等概念, 也被称为对抗式好奇心.
信息论中以熵(entropy)为基础的一系列概念, 天然地为衡量现实世界中的不确定性而生, 因此信息 度量也成为形式化启发式概念, 生成内在奖励的重要工具.用于促进智能体高效探索未知区域.在上述互信息、相对熵等度量基础上, 受“学习提升”“多样性”“控制力”等启发式概念的影响, 研究者们从不同视角提出了多种内在奖励量化方法, 可大致分为基于信息增益, 基于最大熵和基于互信息的探索方法.
基于信息增益的方法与基于预测模型精度提升的方法有较强关联, 是用 KL 散度等指标对学习提升概念更理论化的描述, 可以看作预测模型方法的延展. 基于最大熵的方法通过最大化原始/抽象状态分布的熵来提高探索效率, 可有效结合其他状态表示方法来进一步提高算法性能. 基于互信息度量的方法通过量化 empowerment, 以多样性启发的方式来鼓励探索, 成为解决自动技能发现问题的重要工具.
3.5 基于能力的方法
基于能力的方法重点在于衡量达到目标的挑战性和能否达成的能力, 与其直接相关的心理学理论还包括效能、自我决定和心流等学说.该类方法研究重点包括如何恰当表达智能体动作或 option 与环境状态 之间的影响, 以及互信息的高效且无偏的估计算法.
四、关键问题与发展方向
虽然基于内在动机的 DRL 探索方法在机器人运动等诸多应用中取得了较好效果, 但将其应用于贴 近真实世界的复杂动态场景时, 仍面临难以构建有效的状态表示、环境认知效率低、复杂任务空间探索效果差等关键问题. 未来基于内在动机的方法可结合表示学习、知识积累、奖励设计、目标空间探索、 课程学习、多智能体强化学习等领域方向来开展研究.
4.1 关键问题
4.1.1 有效的状态表示
如何构建有效的状态表示一直是将基于内在动机的 DRL 探索方法应用于高维连续状态动作空间所面临的基础且重要的问题. 特别是随着场景不断向现实应用逼近, 环境中要素的种类和数量越来越多, 要素间的关联越来越复杂, 往往包含层次性、级联性等关系, 并且动态性也越来越显著. 在这些情况下, 现有方法难以提取与智能体决策直接或间接相关的状态特征, 因此很难单纯依靠内在奖励的驱动, 对上述类型的状态空间进行探索.
4.1.2 环境认知效率
对于外部环境形成较为充分的认知是基于知识的方法促使智能体探索的关键所在, 但是随着外部环境进一步复杂化, 如存在随机噪声干扰、不可控的动态环境要素等, 面临环境动力学模型学习效率低 等问题.
4.1.3复杂任务空间
复杂任务空间往往存在多个可控要素或干扰要素, 且其内部呈现结构化特征, 宛如“迷宫”, 仅依靠内在动机提供的探索方面的引导信息, 难以实现对该类任务空间的有效探索.
基于内在动机的 DRL 探索方法在解决复杂现实应用问题时, 所面临的难以构建有效的状态表示等 关键问题, 不是单纯依靠内在动机可以解决的, 往往需要与其他领域方向有机结合, 充分发挥基于内在动机的启发式探索策略的潜力, 以应对复杂动态场景中的探索困难挑战.
4.2 发展方向
4.2.1 表示学习
1)状态表示. 本文简述的方法所采用的状态表示方法大多以自动特征提取为主, 各个特征无明确语义, 不能显式描述环境中要素及其关系, 因此难以针对性提取与智能体决策直接或间接的环境要素来构建有效的状态表示.
2)动作表示. 动作表示是通过对原子动作的合理抽象, 帮助智能体更好地利用探索方法解决复杂问题的方法, 典型方法包括分层强化学习 (hierarchical reinforcement learning, HRL).
4.2.2 知识积累
尽管内在动机为提高 DRL 的采样效率提供了有力工具, 但由于内在奖励仅能为智能体提供探索方 面的指导性信息, 难以根据问题性质对智能体行为施加约束和引导, 可能使得部分探索动作并不诱导 知识的增加. 因此, 本文认为利用探索过程中的累积知识可以有效辅助智能体以简洁的行为模式进行探 索.
4.2.3 奖励设计
1)任务相关的内在奖励设计. 从内在动机的角度出发, 源于不同启发思想设计的各种通用的内在奖励函数, 在各类公共测试任务中验证了各自效果. 在它们的基础上, 研究者在实际应用中可以根据任务特点, 设计更能直接反映目前需求的内在动机.
2)内在奖励的自动化获取. 除人工设计奖励外, 部分研究者考虑将基于内在动机的内在奖励函数看做函数空间的抽象特征向量, 可采用搜索或学习的方法自动获取与任务匹配 的内在奖励函数.
4.2.4 目标空间探索
为提高智能体在高维、连续和高度非平稳的目标 /任务空间中的探索效率, 近年来有大量研究者将内 在动机应用于目标空间探索领域.
4.2.5 课程学习
研究者们认为自然智能显著超过目前的机器学习系统的一大能力, 是通过观察外部环境、自我设定 目标而持续不断学习并获得技能和知识的渐进提升. 这种复杂程度和难度递增的学习过程在机器学 习 领 域 被 称 为 课 程 学 习 (curriculum learning, CL).为降低课程学习对于领域知识的需求, 研究 者们提出了内在动机与课程学习结合的各种形式.
4.2.6 多智能体强化学习
多智能体深度强化学习将 DRL 的思想和算法用于多智能体系统的学习和控制中, 以开发具有群体 智能的多智能体系统来高效优化地完成任务. 在 研究者们重点关注的协同与通信问题中, 可结合内 在动机的探索方法产生多样化的协同行为, 或增加对于环境及其他智能体的认知, 来实现更有效的协同与通信.
参考:
[1]曾俊杰,秦龙,徐浩添,张琪,胡越,尹全军.基于内在动机的深度强化学习探索方法综述[J/OL].计算机研究与发展:1-24[2022-09-18].http://kns.cnki.net/kcms/detail/11.1777.TP.20220916.1221.002.html