深度强化学习实验室

【ICML2021】 9篇RL论文作者汪昭然：构建“元宇宙”和理论基础，让深度强化学习从虚拟走进现实...

深度强化学习实验室

官网：http://www.neurondance.com/

论坛：http://deeprl.neurondance.com/

来源：转载自AI科技评论

作者 | 陈彩娴

深度强化学习的故事，可以追溯到2015年：

当时，位于英国伦敦的一家小公司 DeepMind 在《Nature》上发表了一篇文章“Human-level control through deep reinforcement learning”，提出了一种新算法叫 Deep Q-Network（简称“DQN”），应用在 Atari 2600 游戏时，在49个游戏水平中超过了人类。

DQN 的强大之处是什么呢？它没有受到任何人为干预，不清楚游戏规则，完全靠自己摸索学习，找出在这个游戏中取胜的最优策略。

但那时人们还不知道这究竟意味着什么，直到第二年，这家公司将DQN应用在 Alpha Go 上，让 Alpha Go 与世界围棋冠军李世石对战，以 4:1 的成绩打败李世石，人们才惊呼：这、这、人工智能这“小子”不简单呀！…

接着，深度强化学习又被应用于德州扑克、星际争霸、王者荣耀等游戏中，不断挑战人类玩家，甚至以高超的水平多次蒙混过关，当起“职业冒充”排位赛选手，且没有被人类发现…

然而，当深度强化学习在虚拟世界混得风生水起时，它在现实世界的存在感却几乎为零。虽然强化学习很早就被谷歌、阿里等公司应用于广告推荐、以达到利润最优目标，但它的决策潜能还远远没有被挖掘出来。比如，在医疗、金融、交通、电网等关乎国计民生的领域，深度强化学习对人类的帮助是极少的。

在汪昭然看来，这与深度强化学习当前的两大缺陷有关：一是样本效率与计算效率低；二是缺乏可信度，算法的安全性与鲁棒性低。要将深度强化学习从虚拟世界转到现实世界，一要建立理论框架，二要提高样本效率与计算效率。

汪昭然目前在美国西北大学任教，是工业工程及管理科学系（在运筹科学领域排名美国和世界前三）和计算机科学系的终身轨助理教授，同时隶属于该校的深度学习中心和优化及统计学习中心。

他的长期研究目标是开发出新一代数据驱动的决策智能，推进深度强化学习在现实世界中的落地。

1

元宇宙

“你知道Metaverse吗？”

在谈到模拟器/仿真器（simulator）前，汪昭然兴致冲冲地介绍最近炒得很火的一个概念，叫“Metaverse”（也就是“元宇宙”）。“Metaverse”是从《第二人生》（Second Life）游戏里面延伸出来的一个概念，指的是：现实世界中的所有事物都能在虚拟世界中找到一个对应物。最为我们熟悉的，大约是电影《头号玩家》里的场景：

图注：《头号玩家》电影海报

事实上，在工业界也有一个相似的概念，叫“数字孪生”（Digital Twins），指人们用软件来模仿和增强人类世界的行为。就像 Roblox这个游戏，玩家可以在虚拟世界中打造任何事物，比如造一座小城市，但他们所打造的灵感往往是来源于对现实生活的观察。

那么，“元宇宙”、“数字孪生”这些概念与深度强化学习有什么关系呢？

事实上，“模仿”在深度强化学习的研究中非常重要：在研究者将深度强化学习技术落地在现实世界中时，为了避免灾难性的操作后果，他们往往要先做一个模拟器来模拟现实的物理世界，让算法在与人类直接交互前，先与虚拟的智能体进行交互试验，在不断的试错实验中找到行为主体的最优策略。

正如《头号玩家》的名牌口号一样：“Accept your reality, or fight for a better one.”（要么接受当前的现实，要么打造一个更好的现实。）深度强化学习的哲学本质也是如此：没有最好，只有更好。

开发可微分模拟器也是汪昭然目前的研究工作之一，但并不是他的最终目标。

汪昭然的本科就读于清华大学电子工程系，是南方某省市的理科市状元，但他不愿意谈论与状元有关的事情：“这个不用写，如果考得不好，那可能就进不了清华电子系了呀。”

接着，他又强调了一遍：“我的长期研究目标，就是开发出新一代数据驱动的决策智能，包括理论、算法与系统三个层面。”

事实上，汪昭然第一次接触深度强化学习，是2017年在腾讯人工智能实验室（当时由张潼领导）工作的那一年。那时候，他还没有从普林斯顿大学运筹与金融工程系获得博士学位，但已获得美国西北大学的教职offer。时间充裕，他就去了腾讯访学。

当时Alpha Go的传说还未远去，汪昭然自然有所耳闻。在腾讯实验室，他参与了王者荣耀等即时战略游戏项目的开发，使用的主要工具正是多智能体的深度强化学习。他发现深度强化学习与他读博时的研究方向有许多能够结合的地方，因此想用读博时的一些研究工具来解决深度强化学习里的问题。

虽然他所就读的博士项目叫“运筹与金融工程系”（Operations Research & Financial Engineering，简称“ORFE”），但该系所研究的方向不仅包括金融数学、随机分析等金融专业，还有机器学习、运筹学、优化、概率论与统计学等等。汪昭然所在的组是统计与机器学习大组，隶属于 StatLab，王梦迪也在领导该实验室。

图注：普林斯顿大学Sherrerd Hall（ORFE所在大楼）

虽然他的梦想起源于游戏世界，但汪昭然的“野心”并不是在游戏中打造出实力与人类玩家媲美的机器人玩家，而是琢磨着如何将在游戏中已有出色表现的深度强化学习技术迁移到现实世界中，尤其是关键的社会领域，比如医疗、交通、金融、电网等。

在深度强化学习领域，“Sim2Real”（全称为“Simulation to reality”，从虚拟到现实）是一个新兴的研究话题。这个概念首先由谷歌在CVPR 2018上提出，其中一个重要的实现途径就是通过模拟来学习复杂行为。

为什么游戏中的模拟可以应用于现实模拟？汪昭然的回答是：

机器人用到的经典力学模拟器与Roblox的模拟碰撞是完全类似的，只是两者的实现不同，侧重点也不同，但原理是相通的。再比如，策略类的游戏就相当于运筹领域中的最优策略研究，供应链优化或者动态定价与在星际争霸里造基地，在数学上是完全相通的。

这也意味着，在虚拟游戏中用于寻找最优策略的深度强化学习技术，同样有望于应用在现实生活的工程类项目中，比如车辆调度。最为我们熟悉的交通案例，就是滴滴出行的平台派单优化，其幕后推手正是强化学习领域的专家叶杰平。

深度强化学习结合了深度学习的表征学习能力与强化学习的决策能力，被外界寄予“通往通用人工智能”的期望。去年10月，Alpha Go的创始人David Silver等人发表了一篇文章，“Reward is Enough”，认为基于奖励机制的强化学习已经足以通往通用人工智能。

但是，对于实现通用人工智能，汪昭然认为要分三个阶段去实现：

1）首先，能不能打造一个类似《头号玩家》的元宇宙，在虚拟世界中取得比人类更好的成绩？

2）其次，如果在虚拟世界中已有超越人类的表现，那么如何将同样的行为切换到现实世界中？也就是所谓的“Sim2Real”问题；

3）最后，从虚拟到现实的过程中会出现许多新的问题，尤其是算法的鲁棒性、可靠性与安全性，机器如何做出公平、公正、公开的决策？

第二步“Sim2Real”（从虚拟到现实）是深度强化学习在游戏以外的领域顺利落地的主要瓶颈，而瓶颈存在的主要原因有两点：一是计算效率与样本效率低；二是仅基于奖励所取得的强化学习策略缺少对安全性与鲁棒性的考虑。

为了解决第二步，汪昭然与合作者除了开发类似“Metaverse”的可微分模拟器，还希望从理论的角度出发，在计算资源与数据缺乏的情况下，减少虚拟与现实之间的鸿沟。他们的工作获得了2020年亚马逊机器学习研究奖。

2

理论基础

2018年，汪昭然从普林斯顿大学博士毕业，加入西北大学担任教职。虽然他研究深度强化学习的时间不过三年左右，但已是该领域的知名青年学者之一，近两年在NeurIPS、ICML等机器学习顶会上的表现更是十分突出。

图注：美国西北大学校园

为了解决深度强化学习现有的两大问题（效率与可信度），他的研究思路是：先打好理论基础，然后用理论指导算法与大规模系统的设计，再将算法与系统应用于现实世界。在汪昭然看来，要实现“Sim2Real”的目标，夯实理论基础必不可缺。

我们如何理解深度强化学习的两大问题？

首先是低效率：汪昭然介绍，深度强化学习要在现实世界中取得成功，需要数百万、甚至数十亿的数据点。这些数据点通过在给定先验下与特定的模拟器（比如《星际争霸》中的游戏引擎）交互而获得，过程需要数天或数周时间，即使在大规模并行计算机架构上也是如此。由此可见，深度强化学习的样本效率与计算效率是非常低的。

其次，仅仅基于奖励（如Atari的总分）来衡量深度强化学习的成功，这种理论在现实世界中是非常危险的。比如，在医疗领域，要获得更高的奖励，意味着疾病的程度恢复更好，风险是服用过量的药剂；在交通领域，更高的奖励等同于更快到达目的地，风险可能是要超速行驶，这就没有考虑到人类的生命安全。

当深度强化学习技术被应用于社会系统的设计与优化时，缺乏效率和可信度将为落地带来更大的阻碍。一个混合自治的社会系统通常涉及到大量智能体，包括人类（只能通过激励来驱动）和机器（可以直接控制）。例如，优步、Lyft 和滴滴等拼车平台不仅涉及到人类司机，还包括了自动驾驶汽车；电力网络不仅包括人类消费者，还包括自动发电机。

（此处插叙一个“冷知识”：国家电网是隐形的人工智能巨无霸）

用深度强化学习控制大量机器时，比如协调电网中的发电机，样本效率与计算效率的阻碍会变得更加明显，因为当大量智能体同时存在时，联合状态行为空间的容量会呈现指数级增长，也就是所谓的“多智能体诅咒”（“curse of many agents”）。如果不考虑安全性和鲁棒性，那么深度强化学习在现实生活中的落地也许会带来灾难性的影响。

“不用那么多的计算量与样本量，能不能使算法达到出色的性能？”这是汪昭然的研究核心。他解释：

深度强化学习与深度学习不一样的地方在于：深度学习在许多模型上的性能已经很好，大家更多时候是想解释为什么性能这么好；而深度强化学习的一些算法在实际使用中的性能并不好，鲁棒性比较差，只要换一个系统、换一个环境，表现可能就会下降。

所以，他们的思路是用理论来指导算法的设计，在算法应用到新的环境前就能知道算法的性能是好是坏。汪昭然认为，完善的理论框架对算法性能的衡量是必要的：

我们不能说一个算法在某个数据集上的表现好，就说这个算法好。在一些特定的应用下，比如医疗与金融，这是很危险的，可能会有生命危险或金钱损失的风险，所以我们必须要有一个理论框架，根据框架下的细节来分析这个算法。在设计算法时，不仅要可解释，我们还要知道这个算法在什么情况下表现好、最好能到多好。

在这个思路下，他们确实设计出了性能比较好的算法，比如在深度强化学习中加入乐观探索（optimistic exploration）和悲观正则（pessimistic regularization），能在一系列基准测试上打败现有最好算法。

总的来说，汪昭然的科研专注于两方面：

建立深度增强学习的理论框架，让深度增强学习在计算复杂度上和样本复杂度层面更有效率。在理论的指导下，提出一系列安全性、可靠性、数据消耗量都有保障的算法，以帮助深度增强学习落地医疗与金融领域。
拓展深度增强学习的算法框架，设计和优化社会规模的多智能体系统（比如供应链与拼车系统）。在理论的指导下，提出一系列基于动态博弈论的多智能体深度增强学习算法，以帮助深度增强学习落地这些大规模社会系统。

除了实现深度强化学习在现实世界中的落地，汪昭然还希望将深度强化学习与非凸优化、非参数统计、因果推理、随机博弈与社会科学等多个领域结合起来，开拓一个新的子领域，叫做“社会深度强化学习”（societal deep reinforcement learning）。

汪昭然谈道：“我们的终极目标，就是希望在多智能体强化学习的框架下解决社会决策的问题，让社会更美好。”

3

成就

那么，截至目前，汪昭然在深度强化学习的理论研究上取得了哪些成果？

他的理论研究分为三个方面：

第一，神经网络中的“超参数化”（Overparameterization）：如何通过超参数化提高计算效率，在有限的计算时间内获得较好的策略？

第二，在线“乐观主义”（Optimism）：如何通过乐观主义来提高在线样本效率？当智能体与环境进行在线交互时，它需要不断探索可能的失败，收集数据，在不断学习的过程中获得越来越好的结果，让“遗憾”（即“regret”）越来越小。比如，智能体学炒股，在亏了很多钱后，它终于学会如何赚钱，并赚得越来越多。

第三，离线“悲观主义”/“谨慎主义”（Pessimism）。所谓离线，就是在智能体不与环境进行交互的情况下利用已有的数据得到一个好的策略。在某些情况下，未掌握策略能力前与环境交互是危险的，比如“在线”学车，在马路上边开车边学习，可能会连环相撞。

图注：汪昭然的研究规划

在这三个方向中，汪昭然最满意的贡献是提出悲观主义理论框架。与在线学习的乐观主义框架不同，乐观主义崇尚探索、能容忍犯错，而悲观主义的哲学是“小心为妙”，没试过的情况不要乱试，避免踩雷。

汪昭然谈论：

其实离线情况在现实中更常见。比如医疗，如果病人一般服用的是有效药剂A，医生就不会贸然尝试给病人服用药剂B，不可能冒险拿病人的生命去试验；比如交通，如果你下班时常走一条不怎么堵车的路线回家，你就不会突发奇想去试新的路线，因为可能有堵车的风险

传统的乐观理论忽略了这一点，因为游戏属于在线学习情况，有很多模拟器，可以不断去试，但在现实生活中，有很多情况是试不起的，会付出很大的代价。

在 ICML 2021 上，汪昭然团队便针对“离线学习时应该使用什么样的算法框架”，发表了一篇工作，叫“Is Pessimism Provably Efficient for Offline RL?”。针对离线学习缺少数据的情况，这篇文章提出了“值迭代算法的悲观变量”（PEVI），包含一个不确定性量词作为惩罚函数。

他们假定覆盖到的数据集有限，为一般的马尔可夫决策过程 (MDP) 建立了 PEVI 次优性的数据依赖上限。结果证明，当 PEVI 用于线性MDP时，在维度与范围的乘法因子影响下，它能匹配到信息理论的下限。换句话说，悲观主义不仅被证明有效，而且能够将最优解进行极小极大。

而且，在给定数据集时，学习到的策略会成为所有策略中的No.1。他们的理论分析证明了悲观主义在消除虚假相关性上的关键作用。

不同的理论框架会产生不同的算法设计。汪昭然的步骤是：从理论到算法，设计出安全、鲁棒的算法，再往上的第三层则是设法在多智能体交互的场景下制定出一个既能提高效率、又不失公平与安全的社会决策。

在一个多智能体系统中，每个参与者都有自己的意图，都想优化自己的利益。比如，在外卖系统中，有骑手、商家和买家，你如何动态设计一个高效又合理的机制，既能提高骑手的送餐速度，又不危害骑手的生命安全，同时令商家与买家满意？

汪昭然观察到，目前深度强化学习的算法设计一块已有许多出色的研究成果，但第三层的社会决策制定则是刚刚起步，它的发展需要来自系统与模拟器的支持。近几年来，他们在理论与算法层面已进行了较深入的探索，之后的两年会集中在多智能体系统决策一块。

正如前面所述，模拟器的设计也是一个难题。“如何设计一个模拟器，让它能够服务于深度强化学习或优化类的算法，让模拟器与算法结合地更紧密？”汪昭然谈道，仿真器（即模拟器）本就承担着连接现实与算法的责任，算法是在模拟器里学到的，如果模拟器能更多地反映现实，那么学到的算法也会更适合现实世界。

在某种程度上，深度强化学习可以被归类为“合作人工智能”问题，即人与机器如何合作；也可以从博弈论的角度看，将深度强化学习看作不同智能体之间的博弈。在他们去年的一个工作“End-to-End Learning and Intervention in Games”中，他们用了一个双层优化的算法。双层优化的性质与经济学领域的斯塔克伯格博弈（Stackelberg Game）方法相似：假设有一个绝对的市场/政府领导者，下属有许多独立的运转体，处于领导地位的智能体要做出更好的决策。

汪昭然介绍，事实上，这类问题对于强化学习是新的，但之前在经济与运筹领域已经进行了许多研究。在计算机科学技术发展起来后，我们有了许多计算与数据，便思考能否通过电脑计算来取代手算，在复杂的情况下也能得到一个好的策略。比如，拼车平台上，如果乘客的上车地点比较偏远，能否调高价格，激励司机接单；或送餐平台上，如果是送餐高峰期，能否调高配送配，激励骑手送餐。

他认为，人机博弈，不仅是人类适应机器，机器也要适应人类：

比如，如果机器对骑手的要求太高，骑手在某段路线骑得飞快，或者逆行，就会造成许多不安全的问题。在人机博弈中，算法对现实因素的考虑太少，其中也是因为缺少数据和仿真器去尽可能反映出问题。

4

总结

事实上，我们应该如何评论一个决策的好坏？

汪昭然认为，悲观主义的理论框架是通用的，因为每个行业都会面临数据匮乏、或不允许收集数据的问题，这时候，我们可以从已有的落地方案中抽取本质，形成统一的解决方案。

一个形象（可能有点“悲观”）的例子是：你永远只吃一样不会让你拉肚子的食物，一年365天，年年如此，天天如此…虽然你会腻，但你能生存下去。

而虽然有了理论与算法的支撑，但社会决策的评价标准仍是空白的。“控制论最成功的例子就是把人类送上月球，但深度强化学习在交通领域的决策，如车辆调度、骑手调度等，还没有一个完善的标准。”汪昭然解释。

在深度强化学习中，因果推断也是非常重要的部分。“很多时候，数据是会骗人的，”汪昭然举例：在出门前，你看了天气预报，上班途中遇到堵车，你会以为是天气不好造成的，其实是因为有辆汽车恰好出现了故障，堵在路中间。在做决策时，我们很难捕捉到所有数据，从而混淆了相关性与因果性，最后得出有失偏颇的结论。

除了深度学习与强化学习的知识，汪昭然认为，要让深度强化学习具备强大的决策能力，还需要结合统计学、计量经济学、博弈论（如多智能体博弈时的奖励机制设计、双智能体的“囚徒困境”原理）以及能够挖掘有用信息的信息论。

最后，有兴趣进行学术访问、申请读博、研究合作的朋友，可以通过邮箱与汪老师联系：[email protected]。

作者注：人物/采访、交流、爆料、抬杠，欢迎添加微信（302703941）。

相关链接：https://www.sciencedirect.com/science/article/pii/S0004370221000862

https://mp.weixin.qq.com/s/Afq-jTPfh3Mz3EGOHHBTsw

完

总结1：周志华 || AI领域如何做研究-写高水平论文

总结2：全网首发最全深度强化学习资料(永更)

总结3: 《强化学习导论》代码/习题答案大全

总结4：30+个必知的《人工智能》会议清单

总结5：2019年-57篇深度强化学习文章汇总

总结6: 万字总结 || 强化学习之路

总结7：万字总结 || 多智能体强化学习(MARL)大总结

总结8：深度强化学习理论、模型及编码调参技巧

完

第112篇：基于Novelty-Pursuit的高效探索方法

第111篇：Reward is enough奖励机制。

第110篇：163篇ICML2021强化学习领域论文汇总

第109篇：【Easy-RL】200页强化学习总结笔记

第108篇：清华大学李升波老师《强化学习与控制》

第107篇：阿里巴巴2022届强化学习实习生招聘

第106篇：奖励机制不合理：内卷，如何解决？

第105篇：FinRL: 一个量化金融自动交易RL库

第104篇：RPG: 通过奖励发现多智能体多样性策略

第103篇：解决MAPPO（Multi-Agent PPO）技巧

第102篇：82篇AAAI2021强化学习论文接收列表

第101篇：OpenAI科学家提出全新强化学习算法

第100篇：Alchemy: 元强化学习(meta-RL)基准环境

第99篇：NeoRL:接近真实世界的离线强化学习基准

第98篇：全面总结(值函数与优势函数)的估计方法

第97篇：MuZero算法过程详细解读

第96篇: 值分布强化学习（Distributional RL）总结

第95篇：如何提高"强化学习算法模型"的泛化能力?

第94篇：多智能体强化学习《星际争霸II》研究

第93篇：MuZero在Atari基准上取得了新SOTA效果

第92篇：谷歌AI掌门人Jeff Dean获冯诺依曼奖

第91篇：详解用TD3算法通关BipedalWalker环境

第90篇：Top-K Off-Policy RL论文复现

第89篇：腾讯开源分布式多智能TLeague框架

第88篇：分层强化学习(HRL)全面总结

第87篇：165篇CoRL2020 accept论文汇总

第86篇：287篇ICLR2021深度强化学习论文汇总

第85篇：279页总结"基于模型的强化学习方法"

第84篇：阿里强化学习领域研究助理/实习生招聘

第83篇：180篇NIPS2020顶会强化学习论文

第82篇：强化学习需要批归一化(Batch Norm)吗？

第81篇：《综述》多智能体强化学习算法理论研究

第80篇：强化学习《奖励函数设计》详细解读

第79篇: 诺亚方舟开源高性能强化学习库“刑天”

第78篇：强化学习如何tradeoff"探索"和"利用"？

第77篇：深度强化学习工程师/研究员面试指南

第76篇：DAI2020 自动驾驶挑战赛(强化学习)

第75篇：Distributional Soft Actor-Critic算法

第74篇：【中文公益公开课】RLChina2020

第73篇：Tensorflow2.0实现29种深度强化学习算法

第72篇：【万字长文】解决强化学习"稀疏奖励"

第71篇：【公开课】高级强化学习专题

第70篇：DeepMind发布"离线强化学习基准“

第69篇：深度强化学习【Seaborn】绘图方法

第68篇：【DeepMind】多智能体学习231页PPT

第67篇：126篇ICML2020会议"强化学习"论文汇总

第66篇：分布式强化学习框架Acme，并行性加强

第65篇：DQN系列(3): 优先级经验回放(PER)

第64篇：UC Berkeley开源RAD来改进强化学习算法

第63篇：华为诺亚方舟招聘 || 强化学习研究实习生

第62篇：ICLR2020- 106篇深度强化学习顶会论文

第61篇：David Sliver 亲自讲解AlphaGo、Zero

第60篇：滴滴主办强化学习挑战赛:KDD Cup-2020

第59篇：Agent57在所有经典Atari 游戏中吊打人类

第58篇：清华开源「天授」强化学习平台

第57篇：Google发布"强化学习"框架"SEED RL"

第56篇：RL教父Sutton实现强人工智能算法的难易

第55篇：内推 || 阿里2020年强化学习实习生招聘

第54篇：顶会 || 65篇"IJCAI"深度强化学习论文

第53篇：TRPO/PPO提出者John Schulman谈科研

第52篇：《强化学习》可复现性和稳健性，如何解决？

第51篇：强化学习和最优控制的《十个关键点》

第50篇：微软全球深度强化学习开源项目开放申请

第49篇：DeepMind发布强化学习库 RLax

第48篇：AlphaStar过程详解笔记

第47篇：Exploration-Exploitation难题解决方法

第46篇：DQN系列(2): Double DQN 算法

第45篇：DQN系列(1): Double Q-learning

第44篇：科研界最全工具汇总

第43篇：起死回生|| 如何rebuttal顶会学术论文?

第42篇：深度强化学习入门到精通资料综述

第41篇：顶会征稿 || ICAPS2020: DeepRL

第40篇：实习生招聘 || 华为诺亚方舟实验室

第39篇：滴滴实习生|| 深度强化学习方向

第38篇：AAAI-2020 || 52篇深度强化学习论文

第37篇：Call For Papers# IJCNN2020-DeepRL

第36篇：复现"深度强化学习"论文的经验之谈

第35篇：α-Rank算法之DeepMind及Huawei改进

第34篇：从Paper到Coding, DRL挑战34类游戏

第33篇：DeepMind-102页深度强化学习PPT

第32篇：腾讯AI Lab强化学习招聘(正式/实习)

第31篇：强化学习，路在何方？

第30篇：强化学习的三种范例

第29篇：框架ES-MAML：进化策略的元学习方法

第28篇：138页“策略优化”PPT--Pieter Abbeel

第27篇：迁移学习在强化学习中的应用及最新进展

第26篇：深入理解Hindsight Experience Replay

第25篇：10项【深度强化学习】赛事汇总

第24篇：DRL实验中到底需要多少个随机种子？

第23篇：142页"ICML会议"强化学习笔记

第22篇：通过深度强化学习实现通用量子控制

第21篇：《深度强化学习》面试题汇总

第20篇：《深度强化学习》招聘汇总(13家企业）

第19篇：解决反馈稀疏问题之HER原理与代码实现

第18篇："DeepRacer" —顶级深度强化学习挑战赛

第17篇：AI Paper | 几个实用工具推荐

第16篇：AI领域：如何做优秀研究并写高水平论文？

第15篇：DeepMind开源三大新框架！

第14篇：61篇NIPS2019DeepRL论文及部分解读

第13篇：OpenSpiel(28种DRL环境+24种DRL算法)

第12篇：模块化和快速原型设计Huskarl DRL框架

第11篇：DRL在Unity自行车环境中配置与实践

第10篇：解读72篇DeepMind深度强化学习论文

第9篇：《AutoML》：一份自动化调参的指导

第8篇：ReinforceJS库（动态展示DP、TD、DQN）

第7篇：10年NIPS顶会DRL论文(100多篇)汇总

第6篇：ICML2019-深度强化学习文章汇总

第5篇：深度强化学习在阿里巴巴的技术演进

第4篇：深度强化学习十大原则

第3篇：“超参数”自动化设置方法---DeepHyper

第2篇：深度强化学习的加速方法

第1篇：深入浅出解读"多巴胺（Dopamine）论文"、环境配置和实例分析

你可能感兴趣的:(算法,游戏,大数据,编程语言,人工智能)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
从鸡肉高汤到记忆的魔法再到有效提示的艺术步子哥人工智能
还记得小时候那些天马行空的白日梦吗？也许只要按下键盘上的某个神奇组合，电脑就会发出滴滴的声响，一个隐藏的世界突然在你眼前展开，让你获得超凡的能力，摆脱平凡的生活。这听起来像是玩过太多电子游戏的幻想，但实际上，间隔重复系统给人的感觉惊人地相似。在最佳状态下，这些系统就像魔法一样神奇。本文将以一个看似平凡的鸡肉高汤食谱为例，深入浅出地探讨如何编写有效的间隔重复提示，让你像掌握烹饪技巧一样轻松地掌握记忆
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
2019-08-08 65454
东莞家庭聚会出行旅游去哪里玩住？想起来有很久没有和家里人聚会啦，这次组织家人来到威廉古堡别墅轰趴，一大家子27个人，在别墅订了一天办，玩的非常的开心，小孩子玩游戏机，也很放心不会丢，我们就在唱歌、打麻将、打桌球一系列的活动，还准备小次等小孩生日在别墅举办，还可以给孩子做一个生日的策划
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
C语言判断回文数 Y雨何时停T c语言学习
一，回文数概念“回文”是指正读反读都能读通的句子，它是古今中外都有的一种修辞方式和文字游戏，如“我为人人，人人为我”等。在数学中也有这样一类数字有这样的特征，成为回文数。设n是一任意自然数。若将n的各位数字反向排列所得自然数n1与n相等，则称n为一回文数。例如，若n=1234321，则称n为一回文数；但若n=1234567，则n不是回文数。二，判断回文数实现思路一：数组与字符串将数字每一位按顺序放
JVM、JRE和 JDK：理解Java开发的三大核心组件 Y雨何时停T Java java
Java是一门跨平台的编程语言，它的成功离不开背后强大的运行环境与开发工具的支持。在Java的生态中，JVM（Java虚拟机）、JRE（Java运行时环境）和JDK（Java开发工具包）是三个至关重要的核心组件。本文将探讨JVM、JDK和JRE的区别，帮助你更好地理解Java的运行机制。1.JVM：Java虚拟机（JavaVirtualMachine）什么是JVM？JVM，即Java虚拟机，是Ja
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
用Python实现简单的猜数字游戏程序媛了了 python 游戏 java
猜数字游戏代码：importrandomdefpythonit():a=random.randint(1,100)n=int(input("输入你猜想的数字："))whilen!=a:ifn>a:print("很遗憾，猜大了")n=int(input("请再次输入你猜想的数字："))elifna::如果玩家猜的数字n大于随机数字a，则输出"很遗憾，猜大了"，并提示玩家再次输入。elifn
数据结构 | 栈和队列 TT-Kun 数据结构与算法数据结构栈队列 C语言
文章目录栈和队列1.栈：后进先出（LIFO）的数据结构1.1概念与结构1.2栈的实现2.队列：先进先出（FIFO）的数据结构2.1概念与结构2.2队列的实现3.栈和队列算法题3.1有效的括号3.2用队列实现栈3.3用栈实现队列3.4设计循环队列结论栈和队列在计算机科学中，栈和队列是两种基本且重要的数据结构，它们在处理数据存储和访问顺序方面有着独特的规则和应用。本文将详细介绍栈和队列的概念、结构、实
2024.9.14 Python，差分法解决区间加法，消除游戏，压缩字符串 RaidenQ python 游戏开发语言算法力扣
1.区间加法假设你有一个长度为n的数组，初始情况下所有的数字均为0，你将会被给出k个更新的操作。其中，每个操作会被表示为一个三元组：[startIndex,endIndex,inc]，你需要将子数组A[startIndex…endIndex]（包括startIndex和endIndex）增加inc。请你返回k次操作后的数组。示例:输入:length=5,updates=[[1,3,2],[2,4,
[Python] 数据结构详解及代码 AIAdvocate 算法 python 数据结构链表
今日内容大纲介绍数据结构介绍列表链表1.数据结构和算法简介程序大白话翻译,程序=数据结构+算法数据结构指的是存储,组织数据的方式.算法指的是为了解决实际业务问题而思考思路和方法,就叫:算法.2.算法的5大特性介绍算法具有独立性算法是解决问题的思路和方式,最重要的是思维,而不是语言,其(算法)可以通过多种语言进行演绎.5大特性有输入,需要传入1或者多个参数有输出,需要返回1个或者多个结果有穷性,执行
ViewController添加button按钮解析。（翻译）张亚雄 c
<div class="it610-blog-content-contain" style="font-size: 14px"></div>// ViewController.m // Reservation software // // Created by 张亚雄 on 15/6/2.
mongoDB 简单的增删改查开窍的石头 mongodb
在上一篇文章中我们已经讲了mongodb怎么安装和数据库/表的创建。在这里我们讲mongoDB的数据库操作在mongo中对于不存在的表当你用db.表名他会自动统计下边用到的user是表明，db代表的是数据库添加(insert):
log4j配置 0624chenhong log4j
1) 新建java项目 2) 导入jar包，项目右击，properties—java build path—libraries—Add External jar，加入log4j.jar包。 3) 新建一个类com.hand.Log4jTest package com.hand; import org.apache.log4j.Logger; public class
多点触摸(图片缩放为例) 不懂事的小屁孩多点触摸
多点触摸的事件跟单点是大同小异的，上个图片缩放的代码，供大家参考一下 import android.app.Activity; import android.os.Bundle; import android.view.MotionEvent; import android.view.View; import android.view.View.OnTouchListener
有关浏览器窗口宽度高度几个值的解析换个号韩国红果果 JavaScript html
1 元素的 offsetWidth 包括border padding content 整体的宽度。 clientWidth 只包括内容区 padding 不包括border。 clientLeft = offsetWidth -clientWidth 即这个元素border的值 offsetLeft 若无已定位的包裹元素
数据库产品巡礼：IBM DB2概览蓝儿唯美 db2
IBM DB2是一个支持了NoSQL功能的关系数据库管理系统，其包含了对XML，图像存储和Java脚本对象表示（JSON）的支持。DB2可被各种类型的企业使用，它提供了一个数据平台，同时支持事务和分析操作，通过提供持续的数据流来保持事务工作流和分析操作的高效性。 DB2支持的操作系统 DB2可应用于以下三个主要的平台: 工作站，DB2可在Linus、Unix、Windo
java笔记5 a-john java
控制执行流程： 1，true和false 利用条件表达式的真或假来决定执行路径。例：（a==b）。它利用条件操作符“==”来判断a值是否等于b值，返回true或false。java不允许我们将一个数字作为布尔值使用，虽然这在C和C++里是允许的。如果想在布尔测试中使用一个非布尔值，那么首先必须用一个条件表达式将其转化成布尔值，例如if(a!=0)。 2，if-els
Web开发常用手册汇总 aijuans PHP
一门技术，如果没有好的参考手册指导,很难普及大众。这其实就是为什么很多技术，非常好，却得不到普遍运用的原因。正如我们学习一门技术，过程大概是这个样子： ①我们日常工作中，遇到了问题，困难。寻找解决方案，即寻找新的技术； ②为什么要学习这门技术？这门技术是不是很好的解决了我们遇到的难题，困惑。这个问题，非常重要，我们不是为了学习技术而学习技术，而是为了更好的处理我们遇到的问题，才需要学习新的
今天帮助人解决的一个sql问题 asialee sql
今天有个人问了一个问题，如下： type AD value A
意图对象传递数据百合不是茶 android 意图Intent Bundle对象数据的传递
学习意图将数据传递给目标活动; 初学者需要好好研究的 1,将下面的代码添加到main.xml中 <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http:/
oracle查询锁表解锁语句 bijian1013 oracle object session kill
一.查询锁定的表如下语句，都可以查询锁定的表语句一： select a.sid, a.serial#, p.spid, c.object_name, b.session_id, b.oracle_username, b.os_user_name from v$process p, v$s
mac osx 10.10 下安装 mysql 5.6 二进制文件［tar.gz］征客丶 mysql osx
场景：在 mac osx 10.10 下安装 mysql 5.6 的二进制文件。环境：mac osx 10.10、mysql 5.6 的二进制文件步骤：[所有目录请从根“/”目录开始取，以免层级弄错导致找不到目录] 1、下载 mysql 5.6 的二进制文件，下载目录下面称之为 mysql5.6SourceDir；下载地址：http://dev.mysql.com/downl
分布式系统与框架 bit1129 分布式
RPC框架 Dubbo 什么是Dubbo Dubbo是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。其核心部分包含: 远程通讯: 提供对多种基于长连接的NIO框架抽象封装，包括多种线程模型，序列化，以及“请求-响应”模式的信息交换方式。集群容错: 提供基于接
那些令人蛋痛的专业术语白糖_ spring Web SSO IOC
spring 【控制反转(IOC)/依赖注入(DI)】：由容器控制程序之间的关系，而非传统实现中，由程序代码直接操控。这也就是所谓“控制反转”的概念所在：控制权由应用代码中转到了外部容器，控制权的转移，是所谓反转。简单的说：对象的创建又容器(比如spring容器)来执行，程序里不直接new对象。 Web 【单点登录(SSO)】：SSO的定义是在多个应用系统中，用户
《给大忙人看的java8》摘抄 braveCS java8
函数式接口：只包含一个抽象方法的接口 lambda表达式：是一段可以传递的代码你最好将一个lambda表达式想象成一个函数，而不是一个对象，并记住它可以被转换为一个函数式接口。事实上，函数式接口的转换是你在Java中使用lambda表达式能做的唯一一件事。方法引用：又是要传递给其他代码的操作已经有实现的方法了，这时可以使
编程之美-计算字符串的相似度 bylijinnan java 算法编程之美
public class StringDistance { /** * 编程之美计算字符串的相似度 * 我们定义一套操作方法来把两个不相同的字符串变得相同，具体的操作方法为： * 1.修改一个字符（如把“a”替换为“b”）; * 2.增加一个字符（如把“abdd”变为“aebdd”）; * 3.删除一个字符（如把“travelling”变为“trav
上传、下载压缩图片 chengxuyuancsdn 下载
/** * * @param uploadImage --本地路径(tomacat路径) * @param serverDir --服务器路径 * @param imageType --文件或图片类型 * 此方法可以上传文件或图片.txt,.jpg,.gif等 */ public void upload(String uploadImage,Str
bellman-ford(贝尔曼-福特)算法 comsci 算法 F#
Bellman-Ford算法(根据发明者 Richard Bellman 和 Lester Ford 命名)是求解单源最短路径问题的一种算法。单源点的最短路径问题是指：给定一个加权有向图G和源点s，对于图G中的任意一点v，求从s到v的最短路径。有时候这种算法也被称为 Moore-Bellman-Ford 算法，因为 Edward F. Moore zu 也为这个算法的发展做出了贡献。与迪科
oracle ASM中ASM_POWER_LIMIT参数 daizj ASM oracle ASM_POWER_LIMIT 磁盘平衡
ASM_POWER_LIMIT 该初始化参数用于指定ASM例程平衡磁盘所用的最大权值，其数值范围为0~11，默认值为1。该初始化参数是动态参数，可以使用ALTER SESSION或ALTER SYSTEM命令进行修改。示例如下： SQL>ALTER SESSION SET Asm_power_limit=2;
高级排序:快速排序 dieslrae 快速排序
public void quickSort(int[] array){ this.quickSort(array, 0, array.length - 1); } public void quickSort(int[] array,int left,int right){ if(right - left <= 0
C语言学习六指针_何谓变量的地址一个指针变量到底占几个字节 dcj3sjt126com C语言
# include <stdio.h> int main(void) { /* 1、一个变量的地址只用第一个字节表示 2、虽然他只使用了第一个字节表示，但是他本身指针变量类型就可以确定出他指向的指针变量占几个字节了 3、他都只存了第一个字节地址，为什么只需要存一个字节的地址，却占了4个字节，虽然只有一个字节，但是这些字节比较多，所以编号就比较大，
phpize使用方法 dcj3sjt126com PHP
phpize是用来扩展php扩展模块的，通过phpize可以建立php的外挂模块,下面介绍一个它的使用方法,需要的朋友可以参考下安装（fastcgi模式）的时候，常常有这样一句命令：代码如下: /usr/local/webserver/php/bin/phpize 一、phpize是干嘛的？ phpize是什么？ phpize是用来扩展php扩展模块的，通过phpi
Java虚拟机学习 - 对象引用强度 shuizhaosi888 JAVA虚拟机
本文原文链接：http://blog.csdn.net/java2000_wl/article/details/8090276 转载请注明出处！无论是通过计数算法判断对象的引用数量，还是通过根搜索算法判断对象引用链是否可达，判定对象是否存活都与“引用”相关。引用主要分为：强引用(Strong Reference)、软引用(Soft Reference)、弱引用(Wea
.NET Framework 3.5 Service Pack 1（完整软件包）下载地址 happyqing .net 下载 framework
Microsoft .NET Framework 3.5 Service Pack 1（完整软件包） http://www.microsoft.com/zh-cn/download/details.aspx?id=25150 Microsoft .NET Framework 3.5 Service Pack 1 是一个累积更新，包含很多基于 .NET Framewo
JAVA定时器的使用 jingjing0907 java timer 线程定时器
1、在应用开发中，经常需要一些周期性的操作，比如每5分钟执行某一操作等。对于这样的操作最方便、高效的实现方式就是使用java.util.Timer工具类。 privatejava.util.Timer timer; timer = newTimer(true); timer.schedule( newjava.util.TimerTask() { public void run()
Webbench 流浪鱼 webbench
首页下载地址 http://home.tiscali.cz/~cz210552/webbench.html Webbench是知名的网站压力测试工具，它是由Lionbridge公司（http://www.lionbridge.com）开发。 Webbench能测试处在相同硬件上，不同服务的性能以及不同硬件上同一个服务的运行状况。webbench的标准测试可以向我们展示服务器的两项内容：每秒钟相
第11章动画效果（中） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
windows下制作bat启动脚本. sanyecao2314 java cmd 脚本 bat
java -classpath C:\dwjj\commons-dbcp.jar;C:\dwjj\commons-pool.jar;C:\dwjj\log4j-1.2.16.jar;C:\dwjj\poi-3.9-20121203.jar;C:\dwjj\sqljdbc4.jar;C:\dwjj\voucherimp.jar com.citsamex.core.startup.MainStart
Java进行RSA加解密的例子 tomcat_oracle java
加密是保证数据安全的手段之一。加密是将纯文本数据转换为难以理解的密文；解密是将密文转换回纯文本。　　数据的加解密属于密码学的范畴。通常，加密和解密都需要使用一些秘密信息，这些秘密信息叫做密钥，将纯文本转为密文或者转回的时候都要用到这些密钥。　　对称加密指的是发送者和接收者共用同一个密钥的加解密方法。　　非对称加密(又称公钥加密)指的是需要一个私有密钥一个公开密钥，两个不同的密钥的
Android_ViewStub 阿尔萨斯 ViewStub
public final class ViewStub extends View java.lang.Object android.view.View android.view.ViewStub 类摘要： ViewStub 是一个隐藏的，不占用内存空间的视图对象，它可以在运行时延迟加载布局资源文件。当 ViewSt