Datawhale

83篇文献-万字总结强化学习之路

深度强化学习实验室报道

作者：侯宇清，陈玉荣

编辑：DeepRL

深度强化学习是深度学习与强化学习相结合的产物，它集成了深度学习在视觉等感知问题上强大的理解能力，以及强化学习的决策能力，实现了端到端学习。深度强化学习的出现使得强化学习技术真正走向实用，得以解决现实场景中的复杂问题。从2013年DQN（深度Q网络，deep Q network）出现到目前为止，深度强化学习领域出现了大量的算法，以及解决实际应用问题的论文，本文将阐述深度强化学习的发展现状，并对未来进行展望。

|| 一、深度强化学习的泡沫

2015 年，DeepMind 的 Volodymyr Mnih 等研究员在《自然》杂志上发表论文 Human-level control through deep reinforcement learning[1]，该论文提出了一个结合深度学习（DL）技术和强化学习（RL）思想的模型 Deep Q-Network(DQN)，在 Atari 游戏平台上展示出超越人类水平的表现。自此以后，结合 DL 与 RL 的深度强化学习（Deep Reinforcement Learning, DRL）迅速成为人工智能界的焦点。

过去三年间，DRL 算法在不同领域大显神通：在视频游戏 [1]、棋类游戏上打败人类顶尖高手 [2,3]；控制复杂的机械进行操作 [4]；调配网络资源 [5]；为数据中心大幅节能 [6]；甚至对机器学习算法自动调参 [7]。各大高校和企业纷纷参与其中，提出了眼花缭乱的 DRL 算法和应用。可以说，过去三年是 DRL 的爆红期。DeepMind 负责 AlphaGo 项目的研究员 David Silver 喊出“AI = RL + DL”，认为结合了 DL 的表示能力与 RL 的推理能力的 DRL 将会是人工智能的终极答案。

1.1 DRL 的可复现性危机

然而，研究人员在最近半年开始了对 DRL 的反思。由于发表的文献中往往不提供重要参数设置和工程解决方案的细节，很多算法都难以复现。2017 年 9 月，著名 RL 专家 Doina Precup 和 Joelle Pineau 所领导的的研究组发表了论文 Deep Reinforcement Learning that Matters[8]，直指当前 DRL 领域论文数量多却水分大、实验难以复现等问题。该文在学术界和工业界引发热烈反响。很多人对此表示认同，并对 DRL 的实际能力产生强烈怀疑。

其实，这并非 Precup& Pineau 研究组第一次对 DRL 发难。早在 2 个月前，该研究组就通过充足的实验对造成 DRL 算法难以复现的多个要素加以研究，并将研究成果撰写成文 Reproducibility of Benchmarked Deep Reinforcement Learning Tasks for Continuous Control[9]。同年 8 月，他们在 ICML 2017 上作了题为“Reproducibility of Policy Gradient Methods for Continuous Control”的报告 [10]，通过实例详细展示了在复现多个基于策略梯度的算法的过程中，由于种种不确定性因素导致的复现困难。12 月，在万众瞩目的 NIPS 2017 DRL 专题研讨会上，Joelle Pineau 受邀作了题为“Reproducibility of DRL and Beyond”的报告 [11]。报告中，Pineau 先介绍了当前科研领域的“可复现性危机” ：在《自然》杂志的一项调查中，90% 的被访者认为“可复现性”问题是科研领域存在的危机，其中，52% 的被访者认为这个问题很严重。在另一项调查中，不同领域的研究者几乎都有很高的比例无法复现他人甚至自己过去的实验。可见“可复现性危机”有多么严峻！Pineau 针对机器学习领域发起的一项调研显示，同样有 90% 的研究者认识到了这个危机。

机器学习领域存在严重的“可复现性危机”[11]

随后，针对 DRL 领域，Pineau 展示了该研究组对当前不同 DRL 算法的大量可复现性实验。实验结果表明，不同 DRL 算法在不同任务、不同超参数、不同随机种子下的效果大相径庭。在报告后半段，Pineau 呼吁学界关注“可复现性危机”这一问题，并根据她的调研结果，提出了 12 条检验算法“可复现性”的准则，宣布计划在 ICLR 2018 开始举办“可复现实验挑战赛”（“可复现危机”在其他机器学习领域也受到了关注，ICML 2017 已经举办了 Reproducibility in Machine Learning Workshop，并将在今年继续举办第二届），旨在鼓励研究者做出真正扎实的工作，抑制机器学习领域的泡沫。Pineau & Precup 研究组的这一系列研究获得了广泛关注。

Pineau 基于大量调查提出的检验算法“可复现性”准则 [11]

1.2 DRL 研究存在多少坑？

同样在 12 月，Reddit 论坛上也开展了关于机器学习不正之风的热烈讨论 [12]。有人点名指出，某些 DRL 代表性算法之所以在模拟器中取得了优秀却难以复现的表现，是因为作者们涉嫌在实验中修改模拟器的物理模型，却在论文中对此避而不谈。

对现有 DRL 算法的批判浪潮仍旧不断涌来。2018 年的情人节当天，曾经就读于伯克利人工智能研究实验室（Berkeley Artificial Intelligence Research Lab, BAIR）的 Alexirpan 通过一篇博文 Deep Reinforcement Learning Doesn't Work Yet[13] 给 DRL 圈送来了一份苦涩的礼物。他在文中通过多个例子，从实验角度总结了 DRL 算法存在的几大问题：

样本利用率非常低；
最终表现不够好，经常比不过基于模型的方法；
好的奖励函数难以设计；
难以平衡“探索”和“利用”, 以致算法陷入局部极小；
对环境的过拟合；
灾难性的不稳定性…

虽然作者在文章结尾试着提出 DRL 下一步应该解决的一系列问题，很多人还是把这篇文章看做 DRL 的“劝退文”。几天后，GIT 的博士生 Himanshu Sahni 发表博文 Reinforcement Learning never worked, and 'deep'>

另一位 DRL 研究者 Matthew Rahtz 则通过讲述自己试图复现一个 DRL 算法的坎坷历程来回应 Alexirpan，让大家深刻体会了复现 DRL 算法有多么难 [15]。半年前，Rahtz 出于研究兴趣，选择对 OpenAI 的论文 Deep Reinforcement Learning from Human Preferences 进行复现。在复现的过程中，几乎踩了 Alexirpan 总结的所有的坑。他认为复现 DRL 算法与其是一个工程问题，更不如说像一个数学问题。“它更像是你在解决一个谜题，没有规律可循，唯一的方法是不断尝试，直到灵感出现彻底搞明白。……很多看上去无关紧要的小细节成了唯一的线索……做好每次卡住好几周的准备。”Rahtz 在复现的过程中积累了很多宝贵的工程经验，但整个过程的难度还是让他花费了大量的金钱以及时间。他充分调动不同的计算资源，包括学校的机房资源、Google 云计算引擎和 FloydHub，总共花费高达 850 美元。可就算这样，原定于 3 个月完成的项目，最终用了 8 个月，其中大量时间用在调试上。

复现 DRL 算法的实际时间远多于预计时间 [15]

Rahtz 最终实现了复现论文的目标。他的博文除了给读者详细总结了一路走来的各种宝贵工程经验，更让大家从一个具体事例感受到了 DRL 研究实际上存在多大的泡沫、有多少的坑。有人评论到，“DRL 的成功可能不是因为其真的有效，而是因为人们花了大力气。”

很多著名学者也纷纷加入讨论。目前普遍的观点是，DRL 可能有 AI 领域最大的泡沫。机器学习专家 Jacob Andreas 发了一条意味深长的 tweet 说：

Jacob Andreas 对 DRL 的吐槽

DRL 的成功归因于它是机器学习界中唯一一种允许在测试集上训练的方法。

从 Pineau & Precup 打响第一枪到现在的 1 年多时间里，DRL 被锤得千疮百孔，从万众瞩目到被普遍看衰。就在笔者准备投稿这篇文章的时候，Pineau 又受邀在 ICLR 2018 上作了一个题为 Reproducibility, Reusability, and Robustness in DRL 的报告 [16]，并且正式开始举办“可复现实验挑战赛”。看来学界对 DRL 的吐槽将会持续，负面评论还将持续发酵。那么， DRL 的问题根结在哪里？前景真的如此黯淡吗？如果不与深度学习结合，RL 的出路又在哪里？

在大家纷纷吐槽 DRL 的时候，著名的优化专家 Ben Recht，从另一个角度给出一番分析。

|| 二、免模型强化学习的本质缺陷

RL 算法可以分为基于模型的方法（Model-based）与免模型的方法（Model-free）。前者主要发展自最优控制领域。通常先通过高斯过程（GP）或贝叶斯网络（BN）等工具针对具体问题建立模型，然后再通过机器学习的方法或最优控制的方法，如模型预测控制（MPC）、线性二次调节器（LQR）、线性二次高斯（LQG）、迭代学习控制（ICL）等进行求解。而后者更多地发展自机器学习领域，属于数据驱动的方法。算法通过大量采样，估计代理的状态、动作的值函数或回报函数，从而优化动作策略。

基于模型 vs. 免模型 [17]

从年初至今，Ben Recht 连发了 13 篇博文，从控制与优化的视角，重点探讨了 RL 中的免模型方法 [18]。Recht 指出免模型方法自身存在以下几大缺陷：

免模型方法无法从不带反馈信号的样本中学习，而反馈本身就是稀疏的，因此免模型方向样本利用率很低，而数据驱动的方法则需要大量采样。比如在 Atari 平台上的《Space Invader》和《Seaquest》游戏中，智能体所获得的分数会随训练数据增加而增加。利用免模型 DRL 方法可能需要 2 亿帧画面才能学到比较好的效果。AlphaGo 最早在 Nature 公布的版本也需要 3000 万个盘面进行训练。而但凡与机械控制相关的问题，训练数据远不如视频图像这样的数据容易获取，因此只能在模拟器中进行训练。而模拟器与现实世界间的 Reality Gap，直接限制了训练自其中算法的泛化性能。另外，数据的稀缺性也影响了其与 DL 技术的结合。

免模型方法不对具体问题进行建模，而是尝试用一个通用的算法解决所有问题。而基于模型的方法则通过针对特定问题建立模型，充分利用了问题固有的信息。免模型方法在追求通用性的同时放弃这些富有价值的信息。

基于模型的方法针对问题建立动力学模型，这个模型具有解释性。而免模型方法因为没有模型，解释性不强，调试困难。
相比基于模型的方法，尤其是基于简单线性模型的方法，免模型方法不够稳定，在训练中极易发散。

为了证实以上观点，Recht 将一个简单的基于 LQR 的随机搜索方法与最好的免模型方法在 MuJoCo 实验环境上进行了实验对比。在采样率相近的情况下，基于模型的随机搜索算法的计算效率至少比免模型方法高 15 倍 [19]。

基于模型的随机搜索方法 ARS 吊打一众免模型方法 [19]

通过 Recht 的分析，我们似乎找到了 DRL 问题的根结。近三年在机器学习领域大火的 DRL 算法，多将免模型方法与 DL 结合，而免模型算法的天然缺陷，恰好与 Alexirpan 总结的 DRL 几大问题相对应（见上文）。

看来，DRL 的病根多半在采用了免模型方法上。为什么多数 DRL 的工作都是基于免模型方法呢？笔者认为有几个原因。第一，免模型的方法相对简单直观，开源实现丰富，比较容易上手，从而吸引了更多的学者进行研究，有更大可能做出突破性的工作，如 DQN 和 AlphaGo 系列。第二，当前 RL 的发展还处于初级阶段，学界的研究重点还是集中在环境是确定的、静态的，状态主要是离散的、静态的、完全可观察的，反馈也是确定的问题（如 Atari 游戏）上。针对这种相对“简单”、基础、通用的问题，免模型方法本身很合适。最后，在“AI = RL + DL”这一观点的鼓动下，学界高估了 DRL 的能力。DQN 展示出的令人兴奋的能力使得很多人围绕着 DQN 进行拓展，创造出了一系列同样属于免模型的工作。

绝大多数 DRL 方法是对 DQN 的扩展，属于免模型方法 [20]

那么，DRL 是不是应该抛弃免模型方法，拥抱基于模型的方法呢？

|| 三、基于模型或免模型，问题没那么简单

3.1 基于模型的方法，未来潜力巨大

基于模型的方法一般先从数据中学习模型，然后基于学到的模型对策略进行优化。学习模型的过程和控制论中的系统参数辨识类似。因为模型的存在，基于模型的方法可以充分利用每一个样本来逼近模型，数据利用率极大提高。基于模型的方法则在一些控制问题中，相比于免模型方法，通常有 10^2 级的采样率提升。此外，学到的模型往往对环境的变化鲁棒, 当遇到新环境时，算法可以依靠已学到的模型做推理，具有很好的泛化性能。

基于模型的方法具有更高采样率 [22]

此外，基于模型的方法还与潜力巨大的预测学习（Predictive Learning）紧密相关。由于建立了模型，本身就可以通过模型预测未来，这与 Predictive Learning 的需求不谋而合。其实，Yann LeCun 在广受关注的 NIPS 2016 主题报告上介绍 Predictive Learning 时，也是以基于模型的方法作为例子的 [21]。笔者认为，基于模型的 RL 方法可能是实现 Predictive Learning 的重要技术之一。

这样看来，基于模型的方法似乎更有前途。但天下没有免费的午餐，模型的存在也带来了若干问题

3.2 免模型方法，依旧是第一选择

基于模型的 DRL 方法相对而言不那么简单直观，RL 与 DL 的结合方式相对更复杂，设计难度更高。目前基于模型的 DRL 方法通常用高斯过程、贝叶斯网络或概率神经网络（PNN）来构建模型，典型的如 David Silver 在 2016 年提出的 Predictron 模型 [23]。另外一些工作，如 Probabilistic Inference for Learning COntrol (PILCO)[24]，本身不基于神经网络，不过有与 BN 结合的扩展版本。而 Guided Policy Search (GPS) 虽然在最优控制器的优化中使用了神经网络，但模型并不依赖神经网络 [25]。此外还有一些模型将神经网络与模型耦合在一起 [26]。这些工作不像免模型 DRL 方法那样直观且自然，DL 所起的作用也各有不同。

除此之外，基于模型的方法也还存在若干自身缺陷：

针对无法建模的问题束手无策。有些领域，比如 NLP，存在大量难以归纳成模型的任务。在这种场景下，只能通过诸如 R-max 算法这样的方法先与环境交互，计算出一个模型为后续使用。但是这种方法的复杂度一般很高。近期有一些工作结合预测学习建立模型，部分地解决了建模难的问题，这一思路逐渐成为了研究热点。
建模会带来误差，而且误差往往随着算法与环境的迭代交互越来越大，使得算法难以保证收敛到最优解。
模型缺乏通用性，每次换一个问题，就要重新建模。

针对以上几点，免模型方法都有相对优势：对现实中非常多的无法建模的问题以及模仿学习问题，免模型算法仍是最好的选择。并且，免模型方法在理论上具备渐近收敛性，经过无数次与环境的交互可以保证得到最优解，这是基于模型的方法很难获得的结果。最后，免模型最大的优势就是具备非常好的通用性。事实上，在处理真正困难的问题时，免模型方法的效果通常更好。Recht 也在博文中指出，控制领域很有效的 MPC 算法其实与 Q-Learning 这样的免模型方法非常相关 [18]。

基于模型的方法与免模型的方法的区别其实也可以看做基于知识的方法与基于统计的方法的区别。总体来讲，两种方法各有千秋，很难说其中一种方法优于另一种。在 RL 领域中，免模型算法只占很少一部分，但基于历史原因，当前免模型的 DRL 方法发展迅速数量庞大，而基于模型的 DRL 方法则相对较少。笔者认为，我们可以考虑多做一些基于模型的 DRL 方面的工作，克服当前 DRL 存在的诸多问题。此外，还可以多研究结合基于模型方法与免模型方法的半模型方法，兼具两种方法的优势。这方面经典的工作有 RL 泰斗 Rich Sutton 提出的 Dyna 框架 [27] 和其弟子 David Silver 提出的 Dyna-2 框架 [28]。

通过以上讨论，我们似乎对 DRL 目前的困境找到了出路。但其实，造成当前 DRL 困境的原因远不止这些。

3.3 不仅仅是模型与否的问题

上文提到 Recht 使用基于随机搜索的方法吊打了免模型方法，似乎宣判了免模型方法的死刑。但其实这个对比并不公平。

2017 年 3 月，机器学习专家 Sham Kakade 的研究组发表文章 Towards Generalization and Simplicity in Continuous Control，试图探寻针对连续控制问题的简单通用的解法 [29] 。他们发现当前的模拟器存在非常大的问题，经过调试的线性策略就已经可以取得非常好的效果——这样的模拟器实在过于粗糙，难怪基于随机搜索的方法可以在同样的模拟器上战胜免模型方法！

可见目前 RL 领域的实验平台还非常不成熟，在这样的测试环境中的实验实验结果没有足够的说服力。很多研究结论都未必可信，因为好性能的取得或许仅仅是因为利用了模拟器的 bugs。此外，一些学者指出当前 RL 算法的性能评判准则也不科学。Ben Recht 和 Sham Kakade 都对 RL 的发展提出了多项具体建议，包括测试环境、基准算法、衡量标准等 [18,29]。可见 RL 领域还有太多需要改进和规范化。

那么，RL 接下来该如何突破呢？

|| 四、重新审视强化学习

对 DRL 和免模型 RL 的质疑与讨论，让我们可以重新审视 RL，这对 RL 今后的发展大有裨益。

4.1 重新审视 DRL 的研究与应用

DQN 和 AlphaGo 系列工作给人留下深刻印象，但是这两种任务本质上其实相对“简单”。因为这些任务的环境是确定的、静态的，状态主要是离散的、静态的、完全可观察的，反馈是确定的，代理也是单一的。目前 DRL 在解决部分可见状态任务（如 StarCraft），状态连续的任务（如机械控制任务），动态反馈任务和多代理任务中还没取得令人惊叹的突破。

DRL 取得成功的任务本质上相对简单 [30]

当前大量的 DRL 研究，尤其是应用于计算机视觉领域任务的研究中，很多都是将计算机视觉的某一个基于 DL 的任务强行构造成 RL 问题进行求解，其结果往往不如传统方法好。这样的研究方式造成 DRL 领域论文数量暴增、水分巨大。作为 DRL 的研究者，我们不应该找一个 DL 任务强行将其 RL 化，而是应该针对一些天然适合 RL 处理的任务，尝试通过引入 DL 来提升现有方法在目标识别环节或函数逼近环节上的能力。

在计算机视觉任务中，通过结合 DL 获得良好的特征表达或函数逼近是非常自然的思路。但在有些领域，DL 未必能发挥强大的特征提取作用，也未必被用于函数逼近。比如 DL 至今在机器人领域最多起到感知作用，而无法取代基于力学分析的方法。虽然有一些将 DRL 应用于物体抓取等现实世界的机械控制任务上并取得成功的案例，如 QT-Opt[70]，但往往需要大量的调试和训练时间。我们应该清晰地认识 DRL 算法的应用特点：因为其输出的随机性，当前的 DRL 算法更多地被用在模拟器而非真实环境中。而当前具有实用价值且只需运行于模拟器中的任务主要有三类，即视频游戏、棋类游戏和自动机器学习（AutoML，比如谷歌的 AutoML Vision）。

这并不是说 DRL 的应用被困在模拟器中——如果能针对某一具体问题，解决模拟器与真实世界间的差异，则可以发挥 DRL 的强大威力。最近 Google 的研究员就针对四足机器人运动问题，通过大力改进模拟器，使得在模拟器中训练的运动策略可以完美迁移到真实世界中，取得了令人惊艳的效果 [71]。不过，考虑到 RL 算法的不稳定性，在实际应用中不应盲目追求端到端的解决方案，而可以考虑将特征提取（DL）与决策（RL）分开，从而获得更好的解释性与稳定性。此外，模块化 RL（将 RL 算法封装成一个模块）以及将 RL 与其他模型融合，将在实际应用中有广阔前景。而如何通过 DL 学习一个合适于作为 RL 模块输入的表示，也值得研究。

4.2 重新审视 RL 的研究

机器学习是个跨学科的研究领域，而 RL 则是其中跨学科性质非常显著的一个分支。RL 理论的发展受到生理学、神经科学和最优控制等领域的启发，现在依旧在很多相关领域被研究。在控制理论、机器人学、运筹学、经济学等领域内部，依旧有很多的学者投身 RL 的研究，类似的概念或算法往往在不同的领域被重新发明，起了不同的名字。

RL 的发展受到多个学科的影响 [31]

Princeton 大学著名的运筹学专家 Warren Powell 曾经写了一篇题为 AI, OR and Control Theory: A Rosetta Stone for Stochastic Optimization 的文章，整理了 RL 中同一个概念、算法在 AI、OR（运筹学）和 Control Theory（控制理论）中各自对应的名称，打通了不同领域间的隔阂 [32] 。由于各种学科各自的特点，不同领域的 RL 研究又独具特色，这使得 RL 的研究可以充分借鉴不同领域的思想精华。

在这里，笔者根据自身对 RL 的理解，试着总结一些值得研究的方向：

基于模型的方法。如上文所述，基于模型的方法不仅能大幅降低采样需求，还可以通过学习任务的动力学模型，为预测学习打下基础。
提高免模型方法的数据利用率和扩展性。这是免模型学习的两处硬伤，也是 Rich Sutton 的终极研究目标。这个领域很艰难，但是任何有意义的突破也将带来极大价值。
更高效的探索策略（Exploration Strategies）。平衡“探索”与“利用”是 RL 的本质问题，这需要我们设计更加高效的探索策略。除了若干经典的算法如 Softmax、ϵ-Greedy[1]、UCB[72] 和 Thompson Sampling[73] 等，近期学界陆续提出了大批新算法，如 Intrinsic Motivation [74]、Curiosity-driven Exploration[75]、Count-based Exploration [76] 等。其实这些“新”算法的思想不少早在 80 年代就已出现 [77]，而与 DL 的有机结合使它们重新得到重视。此外，OpenAI 与 DeepMind 先后提出通过在策略参数 [78] 和神经网络权重 [79] 上引入噪声来提升探索策略, 开辟了一个新方向。
与模仿学习（Imitation Learning, IL）结合。机器学习与自动驾驶领域最早的成功案例 ALVINN[33] 就是基于 IL；当前 RL 领域最顶级的学者 Pieter Abbeel 在跟随 Andrew Ng 读博士时候, 设计的通过 IL 控制直升机的算法 [34] 成为 IL 领域的代表性工作。2016 年，英伟达提出的端到端自动驾驶系统也是通过 IL 进行学习 [68]。而 AlphaGo 的学习方式也是 IL。IL 介于 RL 与监督学习之间，兼具两者的优势，既能更快地得到反馈、更快地收敛，又有推理能力，很有研究价值。关于 IL 的介绍，可以参见 [35] 这篇综述。
奖赏塑形（Reward Shaping）。奖赏即反馈，其对 RL 算法性能的影响是巨大的。Alexirpan 的博文中已经展示了没有精心设计的反馈信号会让 RL 算法产生多么差的结果。设计好的反馈信号一直是 RL 领域的研究热点。近年来涌现出很多基于“好奇心”的 RL 算法和层级 RL 算法，这两类算法的思路都是在模型训练的过程中插入反馈信号，从而部分地克服了反馈过于稀疏的问题。另一种思路是学习反馈函数，这是逆强化学习（Inverse RL, IRL）的主要方式之一。近些年大火的 GAN 也是基于这个思路来解决生成建模问题, GAN 的提出者 Ian Goodfellow 也认为 GAN 就是 RL 的一种方式 [36]。而将 GAN 于传统 IRL 结合的 GAIL[37] 已经吸引了很多学者的注意。
RL 中的迁移学习与多任务学习。当前 RL 的采样效率极低，而且学到的知识不通用。迁移学习与多任务学习可以有效解决这些问题。通过将从原任务中学习的策略迁移至新任务中，避免了针对新任务从头开始学习，这样可以大大降低数据需求，同时也提升了算法的自适应能力。在真实环境中使用 RL 的一大困难在于 RL 的不稳定性，一个自然的思路是通过迁移学习将在模拟器中训练好的稳定策略迁移到真实环境中，策略在新环境中仅通过少量探索即可满足要求。然而，这一研究领域面临的一大问题就是现实鸿沟（Reality Gap），即模拟器的仿真环境与真实环境差异过大。好的模拟器不仅可以有效填补现实鸿沟，还同时满足 RL 算法大量采样的需求，因此可以极大促进 RL 的研究与开发，如上文提到的 Sim-to-Real[71]。同时，这也是 RL 与 VR 技术的一个结合点。近期学术界和工业界纷纷在这一领域发力。在自动驾驶领域，Gazebo、EuroTruck Simulator、TORCS、Unity、Apollo、Prescan、Panosim 和 Carsim 等模拟器各具特色，而英特尔研究院开发的 CARLA 模拟器 [38] 逐渐成为业界研究的标准。其他领域的模拟器开发也呈现百花齐放之势：在家庭环境模拟领域， MIT 和多伦多大学合力开发了功能丰富的 VirturalHome 模拟器；在无人机模拟训练领域，MIT 也开发了 Flight Goggles 模拟器。
提升 RL 的的泛化能力。机器学习最重要的目标就是泛化能力, 而现有的 RL 方法大多在这一指标上表现糟糕 [8]，无怪乎 Jacob Andreas 会批评 RL 的成功是来自“train>

层级 RL（Hierarchical RL, HRL）。周志华教授总结 DL 成功的三个条件为：有逐层处理、有特征的内部变化和有足够的模型复杂度 [39]。而 HRL 不仅满足这三个条件，而且具备更强的推理能力，是一个非常潜力的研究领域。目前 HRL 已经在一些需要复杂推理的任务（如 Atari 平台上的《Montezuma's Revenge》游戏）中展示了强大的学习能力 [40]。
与序列预测（Sequence Prediction）结合。Sequence Prediction 与 RL、IL 解决的问题相似又不相同。三者间有很多思想可以互相借鉴。当前已有一些基于 RL 和 IL 的方法在 Sequence Prediction 任务上取得了很好的结果 [41,42,43]。这一方向的突破对 Video Prediction 和 NLP 中的很多任务都会产生广泛影响。
（免模型）方法探索行为的安全性（Safe RL）。相比于基于模型的方法，免模型方法缺乏预测能力，这使得其探索行为带有更多不稳定性。一种研究思路是结合贝叶斯方法为 RL 代理行为的不确定性建模，从而避免过于危险的探索行为。此外，为了安全地将 RL 应用于现实环境中，可以在模拟器中借助混合现实技术划定危险区域，通过限制代理的活动空间约束代理的行为。
关系 RL。近期学习客体间关系从而进行推理与预测的“关系学习”受到了学界的广泛关注。关系学习往往在训练中构建的状态链，而中间状态与最终的反馈是脱节的。RL 可以将最终的反馈回传给中间状态，实现有效学习，因而成为实现关系学习的最佳方式。2017 年 DeepMind 提出的 VIN[44] 和 Pridictron[23] 均是这方面的代表作。2018 年 6 月，DeepMind 又接连发表了多篇关系学习方向的工作如关系归纳偏置 [45]、关系 RL[46]、关系 RNN[47]、图网络 [48] 和已经在《科学》杂志发表的生成查询网络（Generative Query Network，GQN）[49]。这一系列引人注目的工作将引领关系 RL 的热潮。
对抗样本 RL。RL 被广泛应用于机械控制等领域，这些领域相比于图像识别语音识别等等，对鲁棒性和安全性的要求更高。因此针对 RL 的对抗攻击是一个非常重要的问题。近期有研究表明，会被对抗样本操控，很多经典模型如 DQN 等算法都经不住对抗攻击的扰动 [50,51]。
处理其他模态的输入。在 NLP 领域，学界已经将 RL 应用于处理很多模态的数据上，如句子、篇章、知识库等等。但是在计算机视觉领域，RL 算法主要还是通过神经网络提取图像和视频的特征，对其他模态的数据很少涉及。我们可以探索将 RL 应用于其他模态的数据的方法，比如处理 RGB-D 数据和激光雷达数据等。一旦某一种数据的特征提取难度大大降低，将其与 RL 有机结合后都可能取得 AlphaGo 级别的突破。英特尔研究院已经基于 CARLA 模拟器在这方面开展了一系列的工作。

4.3 重新审视 RL 的应用

当前的一种观点是“RL 只能打游戏、下棋，其他的都做了”。而笔者认为，我们不应对 RL 过于悲观。其实能在视频游戏与棋类游戏中超越人类，已经证明了 RL 推理能力的强大。通过合理改进后，有希望得到广泛应用。往往，从研究到应用的转化并不直观。比如，IBM Watson® 系统以其对自然语言的理解能力和应答能力闻名世界，曾在 2011 年击败人类选手获得 Jeopardy! 冠军。而其背后的支撑技术之一竟然是当年 Gerald Tesauro 开发 TD-Gammon 程序 [52] 时使用的 RL 技术 [53]。当年那个“只能用于”下棋的技术，已经在最好的问答系统中发挥不可或缺的作用了。今天的 RL 发展水平远高于当年，我们怎么能没有信心呢？

强大的 IBM Watson®背后也有 RL 发挥核心作用

通过调查，我们可以发现 RL 算法已经在各个领域被广泛使用：

控制领域。这是 RL 思想的发源地之一，也是 RL 技术应用最成熟的领域。控制领域和机器学习领域各自发展了相似的思想、概念与技术，可以互相借鉴。比如当前被广泛应用的 MPC 算法就是一种特殊的 RL。在机器人领域，相比于 DL 只能用于感知，RL 相比传统的法有自己的优势：传统方法如 LQR 等一般基于图搜索或概率搜索学习到一个轨迹层次的策略，复杂度较高，不适合用于做重规划；而 RL 方法学习到的则是状态 - 动作空间中的策略，具有更好的适应性。
自动驾驶领域。驾驶就是一个序列决策过程，因此天然适合用 RL 来处理。从 80 年代的 ALVINN、TORCS 到如今的 CARLA，业界一直在尝试用 RL 解决单车辆的自动驾驶问题以及多车辆的交通调度问题。类似的思想也广泛地应用在各种飞行器、水下无人机领域。
NLP 领域。相比于计算机视觉领域的任务，NLP 领域的很多任务是多轮的，即需通过多次迭代交互来寻求最优解（如对话系统）；而且任务的反馈信号往往需要在一系列决策后才能获得（如机器写作）。这样的问题的特性自然适合用 RL 来解决，因而近年来 RL 被应用于 NLP 领域中的诸多任务中，如文本生成、文本摘要、序列标注、对话机器人（文字 / 语音）、机器翻译、关系抽取和知识图谱推理等等。成功的应用案例也有很多，如对话机器人领域中 Yoshua Bengio 研究组开发的 MILABOT 的模型 [54]、Facebook 聊天机器人 [55] 等；机器翻译领域 Microsoft Translator [56] 等。此外，在一系列跨越 NLP 与计算机视觉两种模态的任务如 VQA、Image/Video Caption、Image Grounding、Video Summarization 等中，RL 技术也都大显身手。
推荐系统与检索系统领域。RL 中的 Bandits 系列算法早已被广泛应用于商品推荐、新闻推荐和在线广告等领域。近年也有一系列的工作将 RL 应用于信息检索、排序的任务中 [57]。
金融领域。RL 强大的序列决策能力已经被金融系统所关注。无论是华尔街巨头摩根大通还是创业公司如 Kensho，都在其交易系统中引入了 RL 技术。
对数据的选择。在数据足够多的情况下，如何选择数据来实现“快、好、省”地学习，具有非常大的应用价值。近期在这方面也涌现出一系列的工作，如 UCSB 的 Jiawei Wu 提出的 Reinforced Co-Training [58] 等。
通讯、生产调度、规划和资源访问控制等运筹领域。这些领域的任务往往涉及“选择”动作的过程，而且带标签数据难以取得，因此广泛使用 RL 进行求解。

关于 RL 的更全面的应用综述请参见文献 [59，60]。

虽然有上文列举的诸多成功应用，但我们依旧要认识到，当前 RL 的发展还处于初级阶段，不能包打天下。目前还没有一个通用的 RL 解决方案像 DL 一样成熟到成为一种即插即用的算法。不同 RL 算法在各自领域各领风骚。在找到一个普适的方法之前，我们更应该针对特定问题设计专门的算法，比如在机器人领域，基于贝叶斯 RL 和演化算法的方法（如 CMAES[61]）比 DRL 更合适。当然，不同的领域间应当互相借鉴与促进。RL 算法的输出存在随机性，这是其“探索”哲学带来的本质问题，因此我们不能盲目 All in RL, 也不应该 RL in All, 而是要找准 RL 适合解决的问题。

针对不同问题应该使用的不同 RL 方法 [22]

4.4 重新审视 RL 的价值

在 NIPS 2016 上，Yan LeCun 认为最有价值的问题是“Predictive Learning”问题，这其实类似于非监督学习问题。他的发言代表了学界近来的主流看法。而 Ben Recht 则认为，RL 比监督学习（Supervised Learning, SL）和非监督学习（Unsupervised Learning, UL）更有价值。他把这三类学习方式分别与商业分析中的描述分析（UL）、预测分析（SL）和指导分析（RL）相对应 [18]。

描述分析是对已有的数据进行总结，从而获得更鲁棒和清晰的表示，这个问题最容易，但价值也最低。因为描述分析的价值更多地在于美学方面而非实际方面。比如，“用 GAN 将一个房间的图片渲染成何种风格”远没有“依据房间的图片预测该房间的价格”更重要。而后者则是预测分析问题——基于历史数据对当前数据进行预测。但是在描述分析和预测分析中，系统都是不受算法影响的，而指导分析则更进一步地对算法与系统间的交互进行建模，通过主动影响系统，最大化价值收益。

类比以上两个例子，指导分析则是解决“如何通过对房间进行一系列改造来最大化提升房间价格”之类的问题。这种问题最难，因为涉及到了算法与系统的复杂交互，但也最有价值，因为指导性分析（RL）的天然目标就是价值最大化，也是人类解决问题的方式。并且，无论是描述分析还是预测分析，所处理的问题的环境都是静态的、不变的，这个假设对大多数实际的问题都不成立。而指导分析则被用来处理环境动态变化的问题，甚至还要考虑到与其他对手的合作或竞争，与人类面临的大多数实际问题更相似。

指导分析问题最难，也最有价值 [18]

在最后一节，笔者将试图在更广的范围内讨论类似于 RL 的从反馈中学习的方法，从而试图给读者介绍一种看待 RL 的新视角。

|| 五、广义的 RL——从反馈学习

本节使用“广义的 RL”一词指代针对“从反馈学习”的横跨多个学科的研究。与上文中介绍的来自机器学习、控制论、经济学等领域的 RL 不同，本节涉及的学科更宽泛，一切涉及从反馈学习的系统，都暂且称为广义的 RL。

5.1 广义的 RL，是人工智能研究的最终目

1950 年，图灵在其划时代论文 Computing Machinery and Intelligence[62] 中提出了著名的“图灵测试”概念：如果一个人（代号 C）使用测试对象皆理解的语言去询问两个他不能看见的对象任意一串问题。对象为：一个是正常思维的人（代号 B）、一个是机器（代号 A）。如果经过若干询问以后，C 不能得出实质的区别来分辨 A 与 B 的不同，则此机器 A 通过图灵测试。

请注意，“图灵测试”的概念已经蕴含了“反馈”的概念——人类借由程序的反馈来进行判断，而人工智能程序则通过学习反馈来欺骗人类。同样在这篇论文中，图灵还说到“除了试图直接去建立一个可以模拟成人大脑的程序之外，为什么不试图建立一个可以模拟小孩大脑的程序呢？如果它接受适当的教育，就会获得成人的大脑。”——从反馈中逐渐提升能力，这不正是 RL 的学习方式么？可以看出，人工智能的概念从被提出时其最终目标就是构建一个足够好的从反馈学习的系统。

1959 年，人工智能先驱 Arthur Samuel 正式定义了“机器学习”这概念。也正是这位 Samuel，在 50 年代开发了基于 RL 的的象棋程序，成为人工智能领域最早的成功案例 [63]。为何人工智能先驱们的工作往往集中在 RL 相关的任务呢？经典巨著《人工智能：一种现代方法》里对 RL 的评论或许可以回答这一问题：可以认为 RL 囊括了人工智能的所有要素：一个智能体被置于一个环境中，并且必须学会在其间游刃有余（Reinforcement Learning might be considered to encompass all of AI: an agent is placed in an environment and must learn to behave successfully therein.） [64]。

不仅仅在人工智能领域，哲学领域也强调了行为与反馈对智能形成的意义。生成论（Enactivism）认为行为是认知的基础，行为与感知是互相促进的，智能体通过感知获得行为的反馈，而行为则带给智能体对环境的真实有意义的经验 [65]。

行为和反馈是智能形成的基石 [65]

看来，从反馈学习确实是实现智能的核心要素。

回到人工智能领域。DL 取得成功后，与 RL 结合成为 DRL。知识库相关的研究取得成功后，RL 算法中也逐渐加入了 Memory 机制。而变分推理也已经找到了与 RL 的结合点。近期学界开始了反思 DL 的热潮，重新燃起对因果推理与符号学习的兴趣，于是也出现了关系 RL 和符号 RL[66] 相关的工作。通过回顾学术的发展，我们也可以总结出人工智能发展的一个特点：每当一个相关方向取得突破，总是会回归到 RL 问题, 寻求与 RL 相结合。与其把 DRL 看作 DL 的拓展，不如看作 RL 的一次回归。因此我们不必特别担心 DRL 的泡沫，因为 RL 本就是人工智能的最终目标，有着旺盛的生命力，未来还会迎来一波又一波的发展。

5.2 广义的 RL，是未来一切机器学习系统的形式

Recht 在他的最后一篇博文中 [67] 中强调，只要一个机器学习系统会通过接收外部的反馈进行改进，这个系统就不仅仅是一个机器学习系统，而且是一个 RL 系统。当前在互联网领域广为使用的 A/B 测试就是 RL 的一种最简单的形式。而未来的机器学习系统，都要处理分布动态变化的数据并从反馈中学习。因此可以说，我们即将处于一个“一切机器学习都是 RL”的时代，学界和工业界都亟需加大对 RL 的研究力度。Recht 从社会与道德层面对这一问题进行了详细探讨 [67]，并将他从控制与优化角度对 RL 的一系列思考总结成一篇综述文章供读者思考 [69]。

5.3 广义的 RL，是很多领域研究的共同目标

4.2 节已经提到 RL 在机器学习相关的领域被分别发明与研究，其实这种从反馈中学习的思想，在很多其他领域也被不断地研究。仅举几例如下：

在心理学领域，经典条件反射与操作性条件反射的对比，就如同 SL 和 RL 的对比；而著名心理学家 Albert Bandura 提出的“观察学习”理论则与 IL 非常相似；精神分析大师 Melanie Klein 提出的“投射性认同”其实也可以看做一个 RL 的过程。在心理学诸多领域中，与 RL 关联最近的则是行为主义学派（Behaviorism）。其代表人物 John Broadus Watson 将行为主义心理学应用于广告业，极大推动了广告业的发展。这很难不让人联想到，RL 算法的一大成熟应用就是互联网广告。而行为主义受到认知科学影响而发展出的认知行为疗法则与 RL 中的策略迁移方法有异曲同工之妙。行为主义与 RL 的渊源颇深，甚至可以说是 RL 思想的另一个源头。本文限于篇幅无法详述，请感兴趣的读者参阅心理学方面的文献如 [53]。

在教育学领域，一直有关于“主动学习”与“被动学习”两种方式的对比与研究，代表性研究有 Cone of Experience，其结论与机器学习领域关于 RL 与 SL 的对比非常相似。而教育学家杜威提倡的“探究式学习”就是指主动探索寻求反馈的学习方法；

在组织行为学领域，学者们探究“主动性人格”与“被动性人格”的不同以及对组织的影响；
在企业管理学领域，企业的“探索式行为”和“利用式行为”一直是一个研究热点；
……

可以说，一切涉及通过选择然后得到反馈，然后从反馈中学习的领域，几乎都有 RL 的思想以各种形式存在，因此笔者称之为广义的 RL。这些学科为 RL 的发展提供了丰富的研究素材，积累了大量的思想与方法。同时，RL 的发展不会仅仅对人工智能领域产生影响，也会推动广义的 RL 所包含的诸多学科共同前进。

|| 结语

虽然 RL 领域目前还存在诸多待解决的问题，在 DRL 这一方向上也出现不少泡沫，但我们应该看到 RL 领域本身在研究和应用领域取得的长足进步。这一领域值得持续投入研究，但在应用时需保持理性。而对基于反馈的学习的研究，不仅有望实现人工智能的最终目标，也对机器学习领域和诸多其他领域的发展颇有意义。这确实是通向人工智能的最佳路径。这条路上布满荆棘，但曙光已现。

|| 作者简介

侯宇清，博士，现为英特尔中国研究院认知计算实验室和清华大学计算机科学与技术系智能技术与系统国家重点实验室联合培养博士后研究员，研究兴趣为强化学习的理论以及应用，研究方向为基于深度强化学习的视觉信息处理以及元学习。2016 年毕业于北京大学，研究方向为多模态学习。发表学术论文 7 篇，拥有 5 项美国 / 国际专利及申请。

陈玉荣，博士，现任英特尔首席研究员、英特尔中国研究院认知计算实验室主任。负责领导视觉认知和机器学习研究工作，推动基于英特尔平台的智能视觉数据处理技术创新。发表学术论文 50 余篇，拥有 50 余项美国 / 国际专利及申请。

|| 致谢

在本文的写作过程中，得到了英特尔研究院郭怡文研究员、刘忠轩研究员和史雪松研究员的积极反馈。剑桥大学的 Shane Gu 博士、清华大学交叉信息学院的张崇洁教授和北京大学信息科学学院智能科学系的林宙辰教授分别在基于模型的方法、RL 泛化性能和 RL 模型优化方法方面提供了很多非常有价值的指导意见。此外特别感谢强化学习研究者 Flood Sung，为笔者介绍了 RL 领域多个最前沿的研究应用，并提供了这一研究交流平台。

|| 参考文献

[1] Mnih, Volodymyr, et al. "Human-level control through deep reinforcement learning." Nature 518.7540 (2015): 529.

[2] Silver, David, et al. "Mastering the game of Go with deep neural networks and tree search." Nature 529.7587 (2016): 484-489.

[3] Silver, David, et al. "Mastering the game of go without human knowledge." Nature 550.7676 (2017): 354.

[4] Levine, Sergey, et al. "End-to-end training of deep visuomotor policies." arXiv preprint arXiv:1504.00702, 2015.

[5] Mao, Hongzi, et al. "Resource management with deep reinforcement learning." Proceedings of the 15th ACM Workshop on Hot Topics in Networks. ACM, 2016.

……

AI学习路线和优质资源，在后台回复"AI"获取

你可能感兴趣的:(83篇文献-万字总结强化学习之路)

基于python+flask框架的某图书馆书籍推荐系统的设计与实现（开题+程序+论文）计算机毕设 zhihao502 python flask 课程设计
本系统（程序+源码+数据库+调试部署+开发环境）带论文文档1万字以上，文末可获取，系统界面在最后面。系统程序文件列表开题报告内容研究背景在数字化时代，图书馆作为知识传播与积累的重要场所，面临着如何更有效地服务于广大读者的挑战。随着信息量的爆炸式增长，读者在浩瀚的书海中寻找符合个人兴趣和需求的书籍变得日益困难。传统的图书检索方式已难以满足读者快速、精准获取推荐书籍的需求。因此，开发一套智能化的图书馆
ZLibrary镜像网址，Z-Library入口网站及最新官网（2025更新）
Z-Library是一家电子图书馆，被誉为全球最大的科学图书和学术文献免费资源之一。它创办于2009年，截至2025年3月1日，已收录超过2300万本图书和8483万篇学术文章。从各种知名文学著作，理工学科，人文艺术、到学术论文等应有尽有！支持PDF、epub、mobi等多种格式图书资源下载绝对是你找书的不二选择。现在找到一个网友弄的zlibrary入口汇总网站，有官方入口，也有最新镜像入口，客户
量化开发（系列第3篇）： C++在高性能量化交易中的核心应用与技术栈深度解析 Natsume1710 c++开发语言性能优化 python
本文为《量化开发》系列第3篇参考GitHub项目：Awesome-QuantDev-Learn前言在量化交易领域，Python以其开发效率高、生态系统丰富等优势，成为策略研究、数据分析及中低频交易的首选语言。在本系列前两篇文章中，我们详细探讨了Python在量化入门与策略回测中的实践。然而，当进入对延迟要求极为严苛的高频交易（High-FrequencyTrading,HFT）领域时，Python
windows本地使用docker-compose构建nginx+php访问thinkphp5 星芯ya Docker学习 docker 容器运维
前言：继上一篇windows本地使用docker+nginx+mysql部署thinkphp5https://blog.csdn.net/hmx089674/article/details/136683679本期使用docker-compose搭建环境访问thinkphp5程序。第一步：准备工作检查本地是否安装docker-compose（cmd终端输入docker-compose-v检测，安装D
Java NIO 核心知识总结
NIO简介在传统的JavaI/O模型（BIO）中，I/O操作是以阻塞的方式进行的。也就是说，当一个线程执行一个I/O操作时，它会被阻塞直到操作完成。这种阻塞模型在处理多个并发连接时可能会导致性能瓶颈，因为需要为每个连接创建一个线程，而线程的创建和切换都是有开销的。为了解决这个问题，在Java1.4版本引入了一种新的I/O模型—NIO（NewIO，也称为Non-blockingIO）。NIO弥补了同
Python量化策略与回测框架实战：从“纸上谈兵”到“真金白银”的第一步（系列第2篇） Natsume1710 python 开发语言 github
作者：GitHub项目地址Awesome-QuantDev-Learn本文为量化开发学习路线系列第2篇，欢迎收藏与关注。引言：为什么选择Python作为量化入门的起点？在上一篇文章中，我们详细讲解了量化开发的基本框架与开发者思维的转变路径。那么，具体要如何开始第一步实践呢？答案是：从Python入门。Python以其快速原型开发能力、丰富的数据分析工具包，以及良好的社区生态，已经成为全球范围内量化
鬼泣：蓄力动作总结 qq_42863961 鬼泣虚幻
能帮到你的话，就给个赞吧文章目录蓄力攻击蓄力动作——按下触发攻击动作——长按后触发计时方式硬件缺点：必须要触发一次start优点：系统计时计时缺点：每帧计时，计算大优点：方便长按和松开多次触发解决方案trigger：按输入键判断是否松开completed：升龙斩蓄力动作——由按下时触发攻击动作——长按后触发下劈斩下劈斩的攻击动作有两种触发方式由蓄力动作的动画通知触发由硬件触发空中攻击仅需在做动作前
鬼泣：动作系统总结 qq_42863961 鬼泣虚幻
文章目录动作时的运动根运动根运动motionwarping自制插件速度型节点无根运动移动组件运动自制插件动作&动作系统动作系统：有多种动作时，自然需要将动作升级为动作系统来处理多种动作。动作系统的范围：如何将动作升级为动作系统定义树形结构动作：根节点，其他节点都是动作其他动作：可以看作是动作的子类，也可以看做是动作的具体值标签：区分各种动作：可区分各种动作的唯一ID动作系统输入&输出：输入：标签输
面向对象编程基础：封装、继承、多态与抽象的全面解析
文章目录面向对象的三大特征面向对象编程基础之类与对象定义一个类创建对象并调用方法面向对象编程基础之继承和多态继承多态多态是面向对象的三大特征之一定义两个类定义一个函数鸭子类型面向对象编程基础之封装和抽象封装抽象面向对象编程基础之组合和接口组合接口总结面向对象的三大特征面向对象编程有三大特征：封装、继承和多态。封装（Encapsulation）：封装确保对象中的数据安全，通过将数据和操作数据的方法封
程序代码篇---Python指明函数参数类型
文章目录前言简介一、函数参数的类型指定1.基本类型提示2.默认参数3.可变参数4.联合类型（Union）5.可选类型（Optional）6.复杂类型二、返回值的类型指定1.基本返回类型2.无返回值（None）3.返回多个值（Tuple）4.生成器（Generator）三、高级类型提示用法1.类型别名（TypeAliases）2.泛型（Generics）3.可调用对象（Callable）4.NewT
[驱动开发篇] PWM驱动开发 - 原理解析篇车载操作系统---攻城狮嵌入式开发驱动开发
[驱动开发篇]PWM驱动原理解析一.PWM（脉冲宽度调制）通用原理详解1.1、PWM基础原理1.1.1.PWM波形结构1.1.2.核心控制方程1.2、通用实现原理（硬件无关）1.2.1.PWM生成基本组件1.2.2.参数关系公式1.2.3.计数模式（所有芯片通用）1.3、PWM控制机制（通用模型）1.3.1.开环控制（基础模式）1.3.2.闭环控制（高级模式）1.4、通用应用原理1.4.1.功率控
[内核开发手册] 一文搞懂 MISRA C编码规范车载操作系统---攻城狮语言学习（C/C++Python Rust等）嵌入式开发 c语言开发语言
一文搞懂MISRAC编码规范一、MISRAC是什么？二、如何获取MISRAC官方文档？获取步骤三、为何需要MISRAC标准？行业刚性需求四、MISRAC核心规则详解（以2012版为例）规则结构：关键规则类别及典型示例：1.环境约束2.数据类型安全3.初始化与声明4.表达式安全5.流程控制安全6.指针与内存安全7.预处理器规范8.标准库限制五、总结一、MISRAC是什么？MISRAC是由汽车工业软件
axios 使用入门
axios使用入门阅读目录一、前言#二、干货合集#1、加载#2、get&post#3、拦截器#三、总结#一、前言在没有接触React、Angular、Vue这类MVVM的前端框架之前，无法抛弃Jquery的重要理由，除了优秀的前端DOM元素操作性以外，能够非常便捷的发起http请求也占有非常重要的地位。既然我们已经开始使用Vue进行前端开发，抛弃了对页面DOM元素的操作，难道，为了方便的发起htt
Elasticsearch：基本概念、索引结构与优缺点分析 Leaton Lee elasticsearch 大数据搜索引擎
一、Elasticsearch基本概念Elasticsearch是一个基于Lucene构建的开源、分布式、RESTful搜索引擎，专为云计算环境设计，能够实现近乎实时的数据搜索和分析功能。核心概念解析文档(Document)Elasticsearch中的基本数据单元，使用JSON格式表示每个文档有唯一ID和类型示例：一条产品信息、一篇博客文章或一个客户记录索引(Index)文档的集合，类似于关系数
Python办公—Excel嵌入图片提取&重命名(包含重复图片) 小庄-Python办公 Python办公自动化 python excel Excel图片获取 Excel批量获取嵌入图片 Excel嵌入图片
目录专栏导读背景解决方案1、背景介绍2、库的介绍①：openpyxl3、库的安装4、核心代码5、完整代码总结专栏导读欢迎来到Python办公自动化专栏—Python处理办公问题，解放您的双手️‍博客主页：请点击——>一晌小贪欢的博客主页求关注该系列文章专栏：请点击——>Python办公自动化专栏求订阅此外还有爬虫专栏：请点击——>Python爬虫基础专栏求订阅此外还有python基础专栏：请点击—
【Java基础篇】Unicode、进制转换 public static void m Java基础进制互相转换 unicode
一、unicode先说一下unicode是什么？最开始美国人搞出了ASCII这个东西，什么意思呢？首先一个字节，我们都知道是8个bit位，总共能表示256种状态，然后我们就把这256种状态每种状态都对应一个字符。这种对应关系就是ASCII。ASCII中一共定义了128个字符，例如：00110000，也就是48，对应字符'0'。对于英语来说，128个字符来编码是完全足够的。但是汉字有那么多，256个
[特殊字符] Python 实战 | 批量统计中文文档词频并导出 Excel happydog007 python自动化办公 python 开发语言
本文展示如何用Python脚本：批量读取文件夹中的多篇中文文档；用jieba分词并统计词频（过滤停用词与单字符）；将各文档词频输出为对应Excel文件；是文本分析、内容审查、报告编写中的实用技巧。Step1：批量加载文件夹中文本文件路径importospath='主要业务'files=[os.path.join(path,f)forfinos.listdir(path)]使用标准库os.listd
【ESP32最全学习笔记（基础篇）——7.ESP32 ADC – 使用 Arduino IDE 读取模拟值】「已注销」 ESP32学习笔记学习 ESP32 单片机嵌入式硬件 Arduino
关于本教程：ESP32基础篇1.ESP32简介2.ESP32Arduino集成开发环境3.VS代码和PlatformIO4.ESP32引脚5.ESP32输入输出6.ESP32脉宽调制7.ESP32模拟输入☑8.ESP32中断定时器9.ESP32深度睡眠
暑假算法日记第三天
目标：刷完灵神专题训练算法题单阶段目标：【算法题单】滑动窗口与双指针LeetCode题目:3439.重新安排会议得到最多空余时间I2134.最少交换次数来组合所有的1II1297.子串的最大出现次数2653.滑动子数组的美丽值1888.使二进制字符串字符交替的最少反转次数567.字符串的排列438.找到字符串中所有字母异位词30.串联所有单词的子串2156.查找给定哈希值的子串其他:今日总结往期打
android四大组件之一——Service 闲暇部落四大组件 Service IPC AIDL Messenger Binder
目录一、Service概述二、Service分类1.前台服务2.后台服务3.绑定服务三、Service的两种启动方式1.start启动模式2.bind绑定模式四、权限五、Service生命周期六、组件与绑定Service的通信方式1.扩展Binder类2.Messenger信使3.AIDL七、总结场景使用区别八、源码下载一、Service概述Service是应用组件，代表一个应用的长时间后台运行的
手把手教你入门vue+springboot开发（九）--springboot后端实现与postman调试段鸿潭 java vue.js spring boot postman
文章目录前言一、后端代码实现1.实现pojo/User.java2.实现mapper/UserMapper.java3.实现service/UserService.java4.实现service/UserServiceImpl.java5.实现controller/UserController.java二、postman调试总结前言上篇我们已经定义好了数据库表users和用户管理功能的HTTP接口
安卓之service常用用法详解
安卓一直是半吊子水平，在写一个小东西时，发现自己对service的理解还不够，特总结如下：service的创建publicclassMinaServiceextendsService{privateConnectionThreadthread;@OverridepublicvoidonCreate(){super.onCreate();thread=newConnectionThread("min
华为OD机试 2025B卷 - 货币单位转换(C++&Python&JAVA&JS&C语言) YOLO大师华为od c++python 华为OD机试华为OD机试2025B卷华为OD2025B卷华为OD机考2025B卷
2025B卷目录点击查看：华为OD机试2025B卷真题题库目录｜机考题库+算法考点详解2025B卷100分题型题目描述记账本上记录了若干条多国货币金额，需要转换成人民币分（fen），汇总后输出。每行记录一条金额，金额带有货币单位，格式为数字+单位，可能是单独元，或者单独分，或者元与分的组合。要求将这些货币全部换算成人民币分（fen）后进行汇总，汇总结果仅保留整数，小数部分舍弃。元和分的换算关系都是
河南萌新联赛2024第（四）场的个人题解（适合小白）耳朵听不见deaf ACM 算法
河南萌新联赛2024第（四）场的题目链接文章目录ABCEGIJKLAA题目链接思路： sum=计算原来每个连通块的士兵数量总和的平方。枚举每个点，若破坏当前点，当前点所在的连通块的计算值，记录ma=没破坏前的计算值-破坏后的计算值，记录最大值涉及的知识：tarjan算法不明白的话，可以看我的第二篇博客LCA算法有用的知识：__int128 占用128字节的整数存储类型，范围为-2127~2
诊断工程师进阶篇 --- 车载诊断怎么与时俱进？汽车电子实验室漫谈UDS诊断协议系列车载电子电气架构诊断工程师进阶篇车载诊断怎么与时俱进？汽车中央控制单元HPC软件架构人工智能
我是穿拖鞋的汉子，魔都中坚持长期主义的汽车电子工程师。老规矩，分享一段喜欢的文字，避免自己成为高知识低文化的工程师：做到欲望极简，了解自己的真实欲望，不受外在潮流的影响，不盲从，不跟风。把自己的精力全部用在自己。一是去掉多余，凡事找规律，基础是诚信；二是系统思考、大胆设计、小心求证；三是“一张纸制度”，也就是无论多么复杂的工作内容，要在一张纸上描述清楚；四是要坚决反对虎头蛇尾，反对繁文缛节，反对老
振动分析常用的频谱类型 m0_55576290 工作一二三信号与系统振动分析
文章目录振动分析常用的频谱类型1.幅值谱（AmplitudeSpectrum）-最常用2.功率谱密度（PSD）-用于随机信号3.自功率谱（AutoPowerSpectrum）振动分析中的选择原则.振动分析中的频谱选择建议故障诊断→幅值谱模态分析→自功率谱随机振动→功率谱密度宽动态范围→对数坐标实际应用中的处理方法总结振动分析常用的频谱类型1.幅值谱（AmplitudeSpectrum）-最常用%幅
Redis性能优化：全网最全的一篇上海第一深情Alan #精通Redis redis 性能优化
硬件CPU选择高性能的多核CPU：Redis是单线程处理请求的，性能取决于单个核心的处理能力。选择高主频（3GHz以上）的CPU能有效提高Redis的单实例性能。然而，多个Redis实例可以并行运行在不同的CPU核心上，因此多核CPU仍然有助于提高整体的吞吐量。避免超线程（Hyper-Threading）：在高负载下，超线程技术可能会导致CPU争用和缓存冲突，从而影响性能。在BIOS中禁用超线程，
《中国电信运营商骨干网：历史、现状与未来演进》系列第一篇：中国骨干网全景图：一级运营商与专用网络的演进老马爱知通信网络 #电信运营商网络骨干网电信运营商网络架构数字基础设施互联网科普
一、引言：骨干网——国家“信息大动脉”在当今数字经济蓬勃发展的时代，信息网络已成为国家基础设施的核心组成部分。而在这张错综复杂的信息大网中，骨干网(BackboneNetwork)扮演着“
关于小公司的空降兵和空降兵的出路 gongbenwen
关于小公司的空降兵，这是一件比较有意思的事情，曾在两家不同的小的创业公司，经历了其他空降兵的入职，也体验过作为空降兵的入职。通过观察分析，发现八成以上的小公司的空降兵，都不容易持久在一家公司待下去。总结了空降兵，容易在一家新的小公司出走的原因。首先，从公司层面，小公司本身摊子就小，一般空降兵都会要求比较高的薪酬，能不招空降兵就不招，但是原始初创人员，有时很容易因为在发展过程中遇到的磕磕绊绊，认为合
Set接口常用方法总结（Java：集合与泛型(二)）挺菜的 java 集合与泛型 Set java
一、Set接口概述：Set接口继承Collection接口。Set接口的常用实现类有：HashSet,LinkedHashSet和TreeSet.Set和List一样是接口,不能直接实例化,只能通过其实现类来实例化.二、Set接口常用方法总结:注:该博客代码中引包代码均省略,eclipse用户可通过CTRL+shift+o来进行快捷引包add(Objectobj)：向Set集合中添加元素，添加成功
怎么样才能成为专业的程序员？ cocos2d-x小菜编程 PHP
如何要想成为一名专业的程序员？仅仅会写代码是不够的。从团队合作去解决问题到版本控制，你还得具备其他关键技能的工具包。当我们询问相关的专业开发人员，那些必备的关键技能都是什么的时候，下面是我们了解到的情况。关于如何学习代码，各种声音很多，然后很多人就被误导为成为专业开发人员懂得一门编程语言就够了？！呵呵，就像其他工作一样，光会一个技能那是远远不够的。如果你想要成为
java web开发高并发处理 BreakingBad java Web 并发开发处理高
java处理高并发高负载类网站中数据库的设计方法（java教程,java处理大量数据，java高负载数据）一：高并发高负载类网站关注点之数据库没错,首先是数据库,这是大多数应用所面临的首个SPOF。尤其是Web2.0的应用，数据库的响应是首先要解决的。一般来说MySQL是最常用的，可能最初是一个mysql主机，当数据增加到100万以上，那么，MySQL的效能急剧下降。常用的优化措施是M-S（
mysql批量更新 ekian mysql
mysql更新优化：一版的更新的话都是采用update set的方式，但是如果需要批量更新的话，只能for循环的执行更新。或者采用executeBatch的方式，执行更新。无论哪种方式，性能都不见得多好。三千多条的更新，需要3分多钟。查询了批量更新的优化，有说replace into的方式，即： replace into tableName(id,status) values
微软BI（3） 18289753290 微软BI SSIS
1) Q：该列违反了完整性约束错误；已获得 OLE DB 记录。源:“Microsoft SQL Server Native Client 11.0” Hresult: 0x80004005 说明:“不能将值 NULL 插入列 'FZCHID'，表 'JRB_EnterpriseCredit.dbo.QYFZCH'；列不允许有 Null 值。INSERT 失败。”。 A：一般这类问题的存在是
Java中的List g21121 java
List是一个有序的 collection（也称为序列）。此接口的用户可以对列表中每个元素的插入位置进行精确地控制。用户可以根据元素的整数索引（在列表中的位置）访问元素，并搜索列表中的元素。与 set 不同，列表通常允许重复
读书笔记永夜-极光读书笔记
1. K是一家加工厂,需要采购原材料,有A,B,C,D 4家供应商,其中A给出的价格最低,性价比最高,那么假如你是这家企业的采购经理,你会如何决策? 传统决策: A:100%订单 B,C,D:0% &nbs
centos 安装 Codeblocks 随便小屋 codeblocks
1.安装gcc,需要c和c++两部分,默认安装下,CentOS不安装编译器的,在终端输入以下命令即可yum install gccyum install gcc-c++ 2.安装gtk2-devel,因为默认已经安装了正式产品需要的支持库,但是没有安装开发所需要的文档.yum install gtk2* 3. 安装wxGTK yum search w
23种设计模式的形象比喻 aijuans 设计模式
1、ABSTRACT FACTORY—追MM少不了请吃饭了，麦当劳的鸡翅和肯德基的鸡翅都是MM爱吃的东西，虽然口味有所不同，但不管你带MM去麦当劳或肯德基，只管向服务员说“来四个鸡翅”就行了。麦当劳和肯德基就是生产鸡翅的Factory 　　工厂模式：客户类和工厂类分开。消费者任何时候需要某种产品，只需向工厂请求即可。消费者无须修改就可以接纳新产品。缺点是当产品修改时，工厂类也要做相应的修改。如：
开发管理 CheckLists aoyouzi 开发管理 CheckLists
开发管理 CheckLists(23) -使项目组度过完整的生命周期开发管理 CheckLists(22) -组织项目资源开发管理 CheckLists(21) -控制项目的范围开发管理 CheckLists(20) -项目利益相关者责任开发管理 CheckLists(19) -选择合适的团队成员开发管理 CheckLists(18) -敏捷开发 Scrum Master 工作开发管理 C
js实现切换百合不是茶 JavaScript 栏目切换
js主要功能之一就是实现页面的特效,窗体的切换可以减少页面的大小,被门户网站大量应用思路: 1,先将要显示的设置为display:bisible 否则设为none 2,设置栏目的id ,js获取栏目的id,如果id为Null就设置为显示 3,判断js获取的id名字;再设置是否显示代码实现: html代码: <di
周鸿祎在360新员工入职培训上的讲话 bijian1013 感悟项目管理人生职场
这篇文章也是最近偶尔看到的，考虑到原博客发布者可能将其删除等原因，也更方便个人查找，特将原文拷贝再发布的。“学东西是为自己的，不要整天以混的姿态来跟公司博弈，就算是混，我觉得你要是能在混的时间里，收获一些别的有利于人生发展的东西，也是不错的，看你怎么把握了”，看了之后，对这句话记忆犹新。 &
前端Web开发的页面效果 Bill_chen html Web Microsoft
1.IE6下png图片的透明显示： <img src="图片地址" border="0" style="Filter.Alpha(Opacity)=数值(100),style=数值(3)"/> 或在<head></head>间加一段JS代码让透明png图片正常显示。 2.<li>标
【JVM五】老年代垃圾回收：并发标记清理GC(CMS GC) bit1129 垃圾回收
CMS概述并发标记清理垃圾回收(Concurrent Mark and Sweep GC）算法的主要目标是在GC过程中，减少暂停用户线程的次数以及在不得不暂停用户线程的请夸功能，尽可能短的暂停用户线程的时间。这对于交互式应用，比如web应用来说，是非常重要的。 CMS垃圾回收针对新生代和老年代采用不同的策略。相比同吞吐量垃圾回收，它要复杂的多。吞吐量垃圾回收在执
Struts2技术总结白糖_ struts2
必备jar文件早在struts2.0.*的时候，struts2的必备jar包需要如下几个： commons-logging-*.jar Apache旗下commons项目的log日志包 freemarker-*.jar
Jquery easyui layout应用注意事项 bozch jquery 浏览器 easyui layout
在jquery easyui中提供了easyui-layout布局，他的布局比较局限，类似java中GUI的border布局。下面对其使用注意事项作简要介绍：如果在现有的工程中前台界面均应用了jquery easyui，那么在布局的时候最好应用jquery eaysui的layout布局，否则在表单页面（编辑、查看、添加等等）在不同的浏览器会出
java-拷贝特殊链表：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？ bylijinnan java
public class CopySpecialLinkedList { /** * 题目：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？拷贝pNext指针非常容易，所以题目的难点是如何拷贝pRand指针。假设原来链表为A1 -> A2 ->... -> An，新拷贝
color Chen.H JavaScript html css
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <HTML> <HEAD>&nbs
[信息与战争]移动通讯与网络 comsci 网络
两个坚持:手机的电池必须可以取下来光纤不能够入户,只能够到楼宇建议大家找这本书看看:<&
oracle flashback query(闪回查询) daizj oracle flashback query flashback table
在Oracle 10g中，Flash back家族分为以下成员： Flashback Database Flashback Drop Flashback Table Flashback Query(分Flashback Query,Flashback Version Query，Flashback Transaction Query) 下面介绍一下Flashback Drop 和Flas
zeus持久层DAO单元测试 deng520159 单元测试
zeus代码测试正紧张进行中,但由于工作比较忙,但速度比较慢.现在已经完成读写分离单元测试了,现在把几种情况单元测试的例子发出来,希望有人能进出意见,让它走下去. 本文是zeus的dao单元测试: 1.单元测试直接上代码 package com.dengliang.zeus.webdemo.test; import org.junit.Test; import o
C语言学习三printf函数和scanf函数学习 dcj3sjt126com c printf scanf language
printf函数 /* 2013年3月10日20:42:32 地点：北京潘家园功能：目的：测试%x %X %#x %#X的用法 */ # include <stdio.h> int main(void) { printf("哈哈！\n"); // \n表示换行 int i = 10; printf
那你为什么小时候不好好读书? dcj3sjt126com life
dady, 我今天捡到了十块钱, 不过我还给那个人了 good girl! 那个人有没有和你讲thank you啊没有啦....他拉我的耳朵我才把钱还给他的, 他哪里会和我讲thank you 爸爸, 如果地上有一张5块一张10块你拿哪一张呢.... 当然是拿十块的咯... 爸爸你很笨的, 你不会两张都拿爸爸为什么上个月那个人来跟你讨钱, 你告诉他没
iptables开放端口 Fanyucai linux iptables 端口
1，找到配置文件 vi /etc/sysconfig/iptables 2，添加端口开放，增加一行，开放18081端口 -A INPUT -m state --state NEW -m tcp -p tcp --dport 18081 -j ACCEPT 3，保存 ESC :wq! 4，重启服务 service iptables
Ehcache（05）——缓存的查询 234390216 排序 ehcache 统计 query
缓存的查询目录 1. 使Cache可查询 1.1 基于Xml配置 1.2 基于代码的配置 2 指定可搜索的属性 2.1 可查询属性类型 2.2 &
通过hashset找到数组中重复的元素 jackyrong hashset
如何在hashset中快速找到重复的元素呢?方法很多，下面是其中一个办法： int[] array = {1,1,2,3,4,5,6,7,8,8}; Set<Integer> set = new HashSet<Integer>(); for(int i = 0
使用ajax和window.history.pushState无刷新改变页面内容和地址栏URL lanrikey history
后退时关闭当前页面 <script type="text/javascript"> jQuery(document).ready(function ($) { if (window.history && window.history.pushState) {
应用程序的通信成本 netkiller.github.com 虚拟机应用服务器陈景峰 netkiller neo
应用程序的通信成本什么是通信一个程序中两个以上功能相互传递信号或数据叫做通信。什么是成本这是是指时间成本与空间成本。时间就是传递数据所花费的时间。空间是指传递过程耗费容量大小。都有哪些通信方式全局变量线程间通信共享内存共享文件管道 Socket 硬件（串口，USB）等等全局变量全局变量是成本最低通信方法，通过设置
一维数组与二维数组的声明与定义恋洁e生二维数组一维数组定义声明初始化
/** * */ package test20111005; /** * @author FlyingFire * @date:2011-11-18 上午04:33:36 * @author ：代码整理 * @introduce :一维数组与二维数组的初始化 *summary： */ public c
Spring Mybatis独立事务配置 toknowme mybatis
在项目中有很多地方会使用到独立事务，下面以获取主键为例（1）修改配置文件spring-mybatis.xml  <tx:annotation-driven transaction-manager="transactionManager" /> &n
更新Anadroid SDK Tooks之后，Eclipse提示No update were found xp9802 eclipse
使用Android SDK Manager 更新了Anadroid SDK Tooks 之后，打开eclipse提示 This Android SDK requires Android Developer Toolkit version 23.0.0 or above, 点击Check for Updates 检测一会后提示 No update were found