QCNH雨文

AAMAS 2021 强化学习论文70篇（自整理）

AAMAS 2021接收论文列表：

HTTPS://WWW.IFAAMAS.ORG/PROCEEDINGS/AAMAS2021/FORMS/CONTENTS.HTM

AAMAS 2021 MARL论文（36篇）

一、非应用类（33篇）

1.Learning Correlated Communication Topology in Multi-Agent Reinforcement learning MARL中相关通信拓扑的学习
Yali Du, Bo Liu, Vincent Moens, Ziqi Liu, Zhicheng Ren, Jun Wang, Xu Chen, Haifeng Zhang
(PDF | Details)
多智能体通信Multi-agent Communication
有的智能体通信研究仅限于预定义的固定连接。虽然注意机制存在，并且有助于安排智能体之间的通信，但它在很大程度上忽略了通信的动态性质，从而忽略了智能体之间连接的相关性。在这项工作中，我们采用规范化流程来编码智能体之间的交互关系，动态通信拓扑直接通过最大化智能体回报来学习。在我们的端到端公式中，通信结构是通过将其视为隐藏的动态变量来学习的。环境：MPE合作导航；自适应交通控制任务。

2.An Abstraction-based Method to Check Multi-Agent Deep Reinforcement-Learning Behaviors 一种基于抽象的MADRL行为检测方法
Pierre El Mqirmi, Francesco Belardinelli, Borja G. León
(PDF | Details)
安全强化学习Safe RL
MARL通常难以确保学习智能体的安全行为，因此通常不适用于安全关键应用。为了解决这个问题，我们提出了一种将形式验证与RL算法相结合的方法，以确保在训练和测试中满足形式指定的安全约束。

3.Safe Multi-Agent Reinforcement Learning via Shielding 基于屏蔽的安全多智能体强化学习
Ingy ElSayed-Aly, Suda Bharadwaj, Christopher Amato, Rüdiger Ehlers, Ufuk Topcu, Lu Feng
(PDF | Details)
安全强化学习Safe RL
MARL已越来越多地应用于各种安全关键应用中，这些应用要求在学习过程中确保安全（如从不访问不安全的状态）。不幸的是，目前的MARL方法没有安全保证。因此，我们提出了两种安全MARL的屏蔽方法。

4.Partially Observable Mean Field Reinforcement Learning 部分可观测平均场强化学习
Sriram Ganapathi Subramanian, Matthew E. Taylor, Mark Crowley, Pascal Poupart
(PDF | Details)
平均场强化学习Mean-field RL/大量智能体
传统的MARL算法不能扩展到具有很多智能体的环境中，但利用平均场理论可以将MARL算法扩展到有更多智能体的场景。这方面之前的工作假设，智能体可以访问有关系统平均场行为的精确累积度量，然后可以使用这些度量采取行动。在本文中，我们放松了这个假设，并保持一个分布来模拟系统平均场的不确定性。

5.Multi-Agent Reinforcement Learning with Temporal Logic Specifications 基于时序逻辑规范的多智能体强化学习
Lewis Hammond, Alessandro Abate, Julian Gutierrez, Michael Wooldridge
(PDF | Details)
时序逻辑规范Temporal Logic Specifications
我们研究了在未知环境中，一组可能表现出概率行为的智能体学习满足时序逻辑规范的问题。从学习的角度来看，这些规范提供了一种丰富的形式化语言，用于捕获任务或目标，而从逻辑和自动验证的角度来看，学习能力的引入允许在大型、随机、未知环境中进行实际应用。然而，这方面的现有工作有限。我们开发了第一种面向时序逻辑规范的多智能体强化学习技术，提出了ALMANAC（Automaton/Logic Multi-Agent Natural Actor Critic）算法。

6.Cooperative-Competitive Reinforcement Learning with History-Dependent Rewards基于历史奖励的合作-竞争强化学习
Keyang He, Bikramjit Banerjee, Prashant Doshi
(PDF | Details)
混合合作竞争环境
我们首先证明了智能体的决策问题可以被建模为一个交互式部分可观测马尔可夫决策过程（I-POMDP），该过程捕捉了历史相关奖励的动态。我们提出了一种交互式优势演员-评论家方法（Interactive Advantage Actor-Critic，IA2C+），将独立的A2C网络与一个信念过滤器相结合，该过滤器保持了对其他智能体模型的信念分布。

7.Deep Implicit Coordination Graphs for Multi-agent Reinforcement Learning 多智能体强化学习的深层隐式协调图
Sheng Li, Jayesh K. Gupta, Peter Morales, Ross Allen, Mykel J. Kochenderfer
(PDF | Details)
协调Coordination/协调图Coordination Graphs
在需要协调的MARL中，完全集中控制通常是不可行的。基于协调图的形式化允许基于交互结构对联合动作进行推理。然而，它们的设计通常需要领域专家。本文介绍了适用于此类场景的深层隐式协调图（Deep Implicit Coordination Graphs ，DICG）体系结构，允许通过标准的AC方法学习完全集中和分散之间的权衡，以显著改善具有大量智能体的域的协调。实验环境：PP，SMAC，交通枢纽环境。

8.Contrasting Centralized and Decentralized Critics in Multi-Agent Reinforcement Learning 多智能体强化学习中集中与分散Critic的对比
Xueguang Lyu, Yuchen Xiao, Brett Daley, Christopher Amato
(PDF | Details)
Critic
我们正式分析了集中和分散的critics方法，从而对critic选择的含义有了更深入的理解。我们表明，目前的文献中存在关于集中式critics的误解，并表明集中式critic设计并非绝对有益，而是集中式和分散式critic都有不同的优点和缺点，算法设计者应该加以考虑。

9.Modeling the Interaction between Agents in Cooperative Multi-Agent Reinforcement Learning 多智能体协作强化学习中的智能体交互建模
Xiaoteng Ma, Yiqin Yang, Chenghao Li, Yiwen Lu, Qianchuan Zhao, Jun Yang
(PDF | Details)
协作Cooperation/交互建模
提出了一种新的合作MARL算法，称为交互式行动者-批评家（Interactive Actor-Critic，IAC），该算法从策略和价值函数的角度对智能体之间的交互进行建模。实现时，我们将价值分解方法扩展到连续控制任务，并在基准任务（包括经典控制和MPE）上评估IAC。

10.Cooperation between Independent Reinforcement Learners under Wealth Inequality and Collective Risks 财富不平等和集体风险下独立强化学习者的合作
Ramona Merhej, Fernando P. Santos, Francisco S. Melo, Francisco C. Santos
(PDF | Details)
公共物品困境public goods dilemma/财富不平等Wealth Inequality
我们研究了财富不平等如何影响独立强化学习者群体的行为动态特性，这些学习者面临着收益不确定的临界公共品困境。该游戏允许个人向一个公共池捐款或不捐款，以减少他们未来损失的机会。阈值引入的非线性、风险引入的随机性以及参与者的财富异质性导致了一个具有多重均衡的博弈环境。我们发现，在这种情况下，学习者的动态特性在决定达到的平衡点方面起着重要作用。我们的研究结果表明，在基于个人的学习下，财富不平等会对新兴的集体行为产生相当大的影响，从而降低群体成功的总体机会。

11.Reward Machines for Cooperative Multi-Agent Reinforcement Learning 多智能体协作强化学习的奖励机
Cyrus Neary, Zhe Xu, Bo Wu, Ufuk Topcu
(PDF | Details)
协作Cooperation/奖励机Reward Machines
我们提出使用奖励机器（RM）——作为奖励函数的结构化表示的Mealy机器——对团队的任务进行编码。

12.Cooperative and Competitive Biases for Multi-Agent Reinforcement Learning 多智能体强化学习中的合作和竞争偏差
Heechang Ryu, Hayong Shin, Jinkyoo Park
(PDF | Details)
我们提出了一种算法，利用基于朋友或敌人概念的其他智能体的有偏动作信息来增强MARL训练。

13.Towards Decentralized Social Reinforcement Learning via Ego-Network Extrapolation 基于自我网络外推的分散式社会强化学习
Mahak Goindani, Jennifer Neville
(PDF | Details)
在这项工作中，我们在定向社会网络中考虑具有大量智能体的MARL的问题。用户活动之间的网络依赖性会影响个人行为的回报，需要将其纳入策略学习中，然而，定向交互要求每个用户都能部分观察到网络。在本地估计策略时，由于状态信息不足，用户很难有效地了解网络依赖关系。为了解决这个问题，我们在一个分散的策略学习和执行框架中使用了参数共享和自我网络外推。

14.Attention Actor-Critic Algorithm for Multi-Agent Constrained Co-operative Reinforcement Learning 多智能体约束协作强化学习的注意AC算法
P. Parnika, Raghuram Bharadwaj Diddigi, Sai Koti Reddy Danda, Shalabh Bhatnagar
(PDF | Details)
带约束的Constrained
我们考虑在一个合作环境中计算RL的最优行动的问题，其中目标是优化一个共同的目标。然而，在许多实际应用中，代理还需要满足对其动作指定的某些约束。在这种设置下，智能体的目标不仅是学习优化公共目标的操作，而且还要满足指定的约束。近年来，带有注意机制的Actor-Critic算法已成功地应用于多智能体环境中。在本研究中，我们将此算法扩展到有约束的MARL环境。

15.Approximate Difference Rewards for Scalable Multigent Reinforcement Learning 可扩展多智能体强化学习的近似差分奖励
Arambam James Singh, Akshat Kumar, Hoong Chuin Lau
(PDF | Details)
我们解决了大规模多智能体系统中的多智能体信用分配问题。差异奖励（Difference Rewards，DRs）是解决这一问题的有效工具，但其精确计算即使对少量智能体来说也是一个挑战。我们提出了一种可扩展的方法，利用实际应用中存在的对称性，在具有大量智能体的多智能体系统中，基于聚合信息计算差异报酬。对两个多智能体领域——空中交通控制和合作导航的实证评估表明，与以前的方法相比，我们解决方案的质量更好。

16.A Distributional Perspective on Value Function Factorization Methods for Multi-Agent Reinforcement Learning 多智能体强化学习中价值函数分解方法的分布式视角
Wei-Fang Sun, Cheng-Kuang Lee, Chun-Yi Lee
(PDF | Details)
值函数分解Value Function Factorization/分布式强化学习Distributional RL
分布式强化学习为单智能体领域提供了有益的影响，但其与用于MARL的值函数分解方法并不直接兼容。这项工作提供了价值函数分解的分布式视角，为弥合分布式RL和价值函数分解方法之间的差距提供了解决方案。

17.Reward-Sharing Relational Networks in Multi-Agent Reinforcement Learning as a Framework for Emergent Behavior 作为涌现行为框架的多智能体强化学习中的奖励共享关系网络
Hossein Haeri (University of Massachusetts, Lowell)
(PDF | Details)
（博士生论坛）奖励共享reward-sharing
本研究旨在将用户定义的关系网络集成到MARL设置中，并评估智能体关系对涌现行为生成的影响。具体来说，我们提出了一个框架，使用奖励共享关系网络（Reward-Sharing Relational Networks，RSRN）的概念来确定智能体之间的关系，其中边权决定一个智能体对另一个智能体的成功（或“关心”）投入了多少。初步结果表明，奖励共享关系网络可以有效地影响学习者对强加关系网络的行为。

18.Cooperative Prioritized Sweeping 合作优先扫除
Eugenio Bargiacchi, Timothy Verstraeten, Diederik M. Roijers
(PDF | Details)
基于模型Model-based/合作Cooperation
我们提出了一种新的基于模型的算法Cooperative Prioritized Sweeping，用于大型多智能体MDP中的样本高效学习。我们的方法以动态决策网络的形式利用有关问题结构的领域知识。使用这些信息，我们的方法学习环境模型，以确定哪些状态-动作对最有可能需要更新，从而显着提高学习速度。然后可以执行批量更新，其有效地在整个值函数中反向传播知识。我们的方法在著名的SysAdmin基准测试，随机环境以及消防员基准的完全可观察变体方面均优于最先进的稀疏协作Q学习和QMIX算法。

19.Improved Cooperation by Exploiting a Common Signal 通过利用共同信号改善合作
Panayiotis Danassis, Zeki Doruk Erden, Boi Faltings
(PDF | Details)
公共池资源Common-pool resources/合作Cooperation
人工智能能从人类习惯中受益吗？尽管非合作博弈论的预测很悲观，但人类社会成功地自我组织并解决了公共资源共享的悲剧。最重要的是，现实世界中的问题本质上是大规模的，且不易观察的。在这种环境中促进人类协调的一个关键概念是使用约定。受人类行为的启发，我们研究了学习动态特性和时间约定的出现，重点关注公共池资源。在设计一个现实的评估环境时，我们特别强调a)环境动力学是以现实世界的渔业为模型的; 2)我们假设分散学习，在这种学习中，智能体只能观察自己的历史; c)我们运行大规模模拟（最多64个智能体）。
不耦合的策略和低可观测性使得合作难以实现；随着智能体数量的增加，采取正确梯度方向的概率呈指数下降。通过引入任意公共信号（例如，日期、时间或任何周期性的数字集）作为耦合学习过程的手段，我们证明了时间约定可以出现，智能体可以达成可持续的收获策略。

20.Accumulating Risk Capital Through Investing in Cooperation 通过投资合作积累风险资本
Charlotte Roman, Michael Dennis, Andrew Critch, Stuart Russell
(PDF | Details)
在MARL中促进合作的代价是更容易受到恶意行为者的剥削。我们表明，这是一个不可避免的权衡，并提出一个平衡这些关切的目标，促进安全和长期合作。此外，安全与合作之间的权衡并不严重，通过少量风险的合作，可以获得成倍增长的回报。我们研究了一种精确的解决方法，并提出了一种针对这一目标的训练策略的方法，即通过投资合作积累风险资本（Accumulating Risk Capital Through Investing in Cooperation ARCTIC），并在重复囚徒困境和猎鹿中对其进行评估。

21.Cooperative Policy Learning with Pre-trained Heterogeneous Observation Representations 具有预训练的异质观察表征的合作策略学习
Wenlei Shi, Xinran Wei, Jia Zhang, Xiaoyuan Ni, Arthur Jiang, Jiang Bian, Tie-Yan Liu
(PDF | Details)
合作Cooperation
在协作MARL方面，许多现有的研究利用GNN在基于互联智能体的交互图上传播关键的协作信息。但由于通用的消息传递机制在异构顶点之间无效，而且简单的消息聚合函数无法准确地建模来自多个邻居的组合交互，因此，vanilla GNN方法在处理复杂的现实场景时会产生很大的缺陷。虽然采用具有更多信息传递和聚合机制的复杂GNN模型可以明显有利于异构顶点表示和合作策略学习，但其增加了MARL的训练难度。为了应对这些挑战，我们提出了一个新的合作学习框架，其中包含预先训练好的异质观察表征。特别是，我们使用基于encoder-decoder的图形注意来学习复杂的交互和异构表示，这些更容易被MARL利用。此外，我们还设计了一种基于局部AC的预训练算法，以缓解合作策略学习的困难。

22.Balancing Rational and Other-Regarding Preferences in Cooperative-Competitive Environments 在合作竞争环境中平衡理性和其他偏好
Dmitry Ivanov, Vladimir Egorov, Aleksei Shpilman
(PDF | Details)
混合合作竞争Cooperative-Competitive
混合合作竞争环境中，自私和社会利益冲突，纯粹理性的智能体往往难以维持合作。诱导合作行为的一种普遍方法是根据其他智能体的幸福感分配额外的奖励。然而，这种方法存在多智能体信用分配问题。在协作环境中，使用QMIX和COMA等可以有效地缓解这个问题。但当在混合环境中，使用这些算法可能会导致不公平的奖励分配。我们提出BAROCCO，它是这些算法的扩展，能够平衡个人和社会激励。BAROCCO背后的机制是训练两个不同但相互交织的组成部分，共同影响智能体的决策。

23.Learning Robust Helpful Behaviors in Two-Player Cooperative Atari Environments 在两人合作的Atari环境中学习强大的帮助行为
Paul Tylkin, Goran Radanovic, David C. Parkes
(PDF | Details)
双人合作
我们研究学习帮助行为的问题，特别是在两人合作的雅达利游戏中学习与各种不同技能的伙伴合作。

24.Multi-Agent Coordination in Adversarial Environments through Signal Mediated Strategies 通过信号介导策略在对抗环境中进行多智能体协调
Federico Cacciamani, Andrea Celli, Marco Ciccone, Nicola Gatti
(PDF | Details)
我们关注的是在零和、不完全信息博弈中，一组智能体面对一个对手的场景。团队成员可以在比赛开始前协调他们的策略，但在比赛阶段无法沟通。
我们的第一个贡献是一个博弈论集中训练方案，以有效地执行轨迹采样，从而促进团队协调。然后，我们引入了一个基于信号的框架来表示团队协调的策略。通过结合这两个元素，以前最先进的MARL算法没有收敛到协调均衡的情况下，我们的方法可以收敛到协调均衡。

25.Difference Rewards Policy Gradients 区分奖励策略梯度
Jacopo Castellini, Sam Devlin, Frans A. Oliehoek, Rahul Savani
(PDF | Details)
信用分配Credit assignment/分散的策略decentralized policies
提出了一种称为Dr.Reinforced的新算法，该算法通过将差异奖励与策略梯度相结合来明确解决多智能体信用分配的问题（评估智能体对整体性能的贡献），以便在奖励函数已知的情况下学习分散的策略。通过直接区分奖励函数，Enhanced博士避免了与学习Q函数相关的困难，正如最先进的区分奖励函数的方法COMA那样。

26.Diverse Auto-Curriculum is Critical for Successful Real-World Multiagent Learning Systems 多样化的自动课程对于成功的现实世界多智能体学习系统至关重要
Yaodong Yang, Jun Luo, Ying Wen, Oliver Slumbers, Daniel Graves, Haitham Bou Ammar, Jun Wang, Matthew E. Taylor
(PDF | Details)
自动课程auto-curriculum
MARL在解决各种类型的电子游戏方面取得成功的基石是自动课程框架，该框架通过不断为智能体创造新的挑战性任务让其适应来塑造学习过程。为了将MARL方法扩展到视频游戏之外的现实世界领域，我们在本文中设想，维护一个具有多样性的自动课程对于成功的MARL应用至关重要。具体而言，我们认为，行为多样性是现实世界多智能体学习系统中一个关键但尚未充分探索的组成部分，在理解如何设计一个具有多样性的自动课程方面仍有大量工作要做。我们还列出了自动课程技术的四个公开挑战。

27.Towards Sample Efficient Learners in Population based Referential Games through Action Advising 在基于群体的参考游戏中通过动作建议使学习者样本有效
Shresth Verma
(PDF | Details)
（Extended Abstract）
通过涌现通信任务研究了智能体通过交互学习通信的能力。该领域的前期工作研究了新兴语言的语言特性，如组合性、泛化性，以及塑造它们的环境压力。然而，这些实验大多需要在智能体之间共享相当多的训练时间才能成功地进行通信。我们的工作强调了基于群体的参考博弈中智能体样本效率低下的问题，并提出了一个动作建议框架来应对这一问题。

28.Multi-Agent Graph-Attention Communication and Teaming 多智能体图-注意力通信和团队合作
Yaru Niu, Rohan Paleja, Matthew Gombolay
(PDF | Details)
在MARL中，综合有效的策略需要对何时通信、与谁通信以及如何处理消息进行推理。我们提出了一种新的MARL算法，即多智能体图-注意通信（MAGIC），它带有一个图-注意通信协议。我们在各种合作任务中评估我们的方法，包括Google Football Research。

29.A General Trust Framework for Multi-Agent Systems 多智能体系统的通用信任框架
Mingxi Cheng, Chenzhong Yin, Junyao Zhang, Shahin Nazarian, Jyotirmoy Deshmukh, Paul Bogdan
(PDF | Details)
未来的交通系统最好建模为MAS，目前已经开发了一些提高此类系统安全性和效率的协调协议。这些系统的总体目标是在参与智能体与集中式（或分布式）协调器协同工作的假设下提供行为保证。虽然有人从安全角度分析此类系统，但我们认为，在MAS中量化单个智能体的可信度方面的工作有限。我们提出了一个框架，该框架使用认知逻辑来量化智能体的可信度，并将量化可信度值的使用嵌入到控制和协调策略中。我们修改的控制策略可以帮助MAS在存在不可信智能体（以及在某些假设下，包括恶意代理）的情况下提高其安全性。

30.Intrinsic Motivated Multi-Agent Communication 多智能体通信的内在激励
Chuxiong Sun, Bo Wu, Rui Wang, Xiaohui Hu, Xiaoya Yang, Cong Cong
(PDF | Details)
我们提出了一种新的通信机制，称为内在激励多智能体通信（Intrinsic Motivated Multi-Agent Communication，IMMAC）。我们的主要见解可以概括为“传达让你惊讶的事情”。

31.Distributed Q-Learning with State Tracking for Multi-agent Networked Control 用于多智能体网络控制的具有状态追踪的分布式Q学习
Hang Wang, Sen Lin, Hamid Jafarkhani, Junshan Zhang
(PDF | Details)
本文研究了多智能体网络中线性二次型调节器（LQR）的分布式Q学习问题。现有的结果通常假设智能体可以观察全局系统状态，这在大规模系统中可能由于隐私问题或通信限制而不可行。在这项工作中，我们考虑了一个具有未知系统模型和没有集中式协调器的设置。我们设计了一种基于状态跟踪（ST）的Q-学习算法来设计智能体的最优控制器。

32.Efficient Nonmyopic Online Allocation of Scarce Reusable Resources 高效非近视在线分配稀缺的可重用资源
Zehao Dong, Sanmay Das, Patrick Fowler, Chien-Ju Ho
(PDF | Details)
我们研究的环境是，必须以在线方式将一组相同的、可重用的资源分配给到达的智能体。每个到达的智能体都有耐心，愿意等待一段时间来匹配。当匹配时，每个智能体都会占用一个资源一段时间，然后释放它，从中获得一些效用。系统设计者的目标是在已知到达智能体分布的一些先验知识的情况下，最大化总体效用。我们为此问题开发了新的、高效的算法。

33.Fast Adaptation to External Agents via Meta Imitation Counterfactual Regret Advantage 通过元模仿反事实后悔优势快速适应外部智能体
Mingyue Zhang, Zhi Jin, Yang Xu, Zehan Shen, Kun Liu, Keyu Pan
(PDF | Details)
本文主要研究多智能体信用分配问题。我们提出了一种新的MARL算法，称为Meta Imitation Counterfactual Regret Advantage(MICRA)，并为MICRA的训练、适应和执行提供了一个三阶段框架。其主要特点是：1）提出了一种反事实后悔优势来优化目标智能体的策略；2）设计了一个元模仿者来推断外部智能体的策略。结果表明，MICRA的性能优于最先进的算法。

二、应用类/交叉领域（3篇）

1.Scalable Multiagent Driving Policies for Reducing Traffic Congestion 减少交通拥堵的可扩展多智能体驱动策略
Jiaxun Cui, William Macke, Harel Yedidsion, Aastha Goyal, Daniel Urieli
(PDF | Details)
自动车辆（automated vehicles，AVs）如何有助于减少拥堵？本文中，我们扩展了现有的方法，并在更复杂的场景中为AVs开发了新的多智能体驱动策略。我们首先展示了过去研究中使用的拥堵指标在开放道路网络场景中是可操作的。然后，我们建议使用一个不同的指标，该指标对操纵具有鲁棒性，并反映开放网络流量效率。接下来，我们提出了一种模块化的迁移学习方法，并使用它将多智能体驾驶策略扩展到一个真实的模拟场景，该场景比过去的场景大一个数量级。

2.Modelling Cooperation in Network Games with Spatio-Temporal Complexity 基于时空复杂性的网络游戏合作建模
Michiel A. Bakker, Richard Everett, Laura Weidinger, Iason Gabriel, William S. Isaac, Edward Hughes
(PDF | Details)
多智能体系统中，如果有适当的机制来描述个体之间的互动，即使面对短期的自私激励，群体也可能获得对社会有益的结果。在许多情况下，集体行动问题具有潜在的图形结构，其拓扑结构决定了局部决策和突发全局效应之间的关系。在并行工作中，MADRL在模拟复杂网格世界领域中自组织合作的出现方面显示出巨大的潜力。在这里，我们将这种范式应用于图形结构的集体行动问题。

3.Trajectory Diversity for Zero-Shot Coordination Zero-Shot Coordination的轨迹多样性
Andrei Lupu, Hengyuan Hu, Jakob Foerster
(PDF | Details)
我们研究零射击协调（Zero-Shot Coordination，ZSC）的问题，其中智能体必须独立地为协作博弈制定策略，并与训练期间未见的新合作伙伴兼容。我们的第一个贡献是考虑生成这些智能体的多样性的必要性。因为自博弈的智能体在训练期间控制自己的轨迹分布，所以他们的策略只在这个精确的分布上表现良好。结果，他们在ZSC中得分较低，因为与其他智能体一起行动可能会使他们碰到训练期间未遇到的情况。为了解决这个问题，我们对一群智能体进行了共同的最佳回应（Best Response，BR），我们规定这些智能体尽可能多样化。为此，我们介绍了轨迹多样性（Trajectory Diversity，TrajeDi）——一个可区分的目标，用于生成不同的RL策略。我们将TrajeDi作为策略间Jensen-Shannon散度（JSD）的推广，并在简单的矩阵博弈中通过实验激励它，其中它可以找到唯一的ZSC最优解。

AAMAS 2021 RL论文（34篇）

一、非应用类（22篇）

1.Minimum-Delay Adaptation in Non-Stationary Reinforcement Learning via Online High-Confidence Change-Point Detection 基于在线高置信度变化点检测的非平稳强化学习最小延迟自适应
Lucas N. Alegre, Ana L. C. Bazzan, Bruno C. da Silva
(PDF | Details)
介绍了一种在非平稳环境中有效学习策略的算法。

2.Cooperation and Reputation Dynamics with Reinforcement Learning 强化学习下的合作与声誉动态
Nicolas Anastassacos, Julian García, Stephen Hailes, Mirco Musolesi
(PDF | Details)
协调Coordination/声誉Reputation
目前智能体如何独立学习建立有效的声誉机制尚不清楚。我们使用一个简单的强化学习模型来说明声誉机制会产生两个协调问题：智能体需要学习如何协调现有声誉的含义，并集体同意一个社会规范，以便根据其行为将声誉分配给其他人。此外我们还出了两种机制来缓解收敛不到期望的平衡的问题。

3.Action Selection for Composable Modular Deep Reinforcement Learning 组合式模块化深度强化学习的动作选择
Vaibhav Gupta, Daksh Anand, Praveen Paruchuri, Akshat Kumar
(PDF | Details)
模块强化学习Modular RL/组合决策composable decision making
在模块强化学习（MRL）中，一个复杂的决策问题被分解成多个简单的子问题，每个子问题由一个单独的模块解决。通常，这些子问题有相互冲突的目标和不可比拟的奖励尺度。一个可组合的决策体系结构要求，即使是单独编写的模块，其奖励尺度可能不一致，也可以连贯地组合在一起。仲裁员应考虑不同的模块的动作偏好，以学习有效的全局动作选择。我们提出了一个新框架GRACIAS，根据不同模块在给定状态下的相关性为其分配细粒度的重要性，并支持基于现代Deep RL方法的组合决策。

4.Action Advising with Advice Imitation in Deep Reinforcement Learning 深度强化学习中的动作建议与建议模仿
Ercüment İlhan, Jeremy Gow, Diego Perez-Liebana
(PDF | Details)
动作建议Action Advising /模仿Imitation/师生机制
我们提出了一种方法，使学生智能体能够模仿之前获得的建议，直接在其探索策略中重用它们，而无需对学习机制本身进行任何干预。特别是，我们使用行为克隆模块来模仿教师策略，并使用dropout regularisation来获得认知不确定性的概念，以跟踪实际收集的状态建议对。实验环境是Atari游戏。

5.Grid-to-Graph: Flexible Spatial Relational Inductive Biases for Reinforcement Learning 网格到图形：强化学习的灵活空间关系归纳偏差
Zhengyao Jiang, Pasquale Minervini, Minqi Jiang, Tim Rocktäschel
(PDF | Details)
我们缺乏能够系统概括的智能体。虽然适合任务的关系归纳偏差可以提高RL智能体的泛化能力，但这些偏差通常直接硬编码在智能体的神经结构中。在这项工作中，我们将以关系图的形式编码的关系归纳偏差合并到智能体中。基于这一认识，我们提出了Grid-to-Graph （GTG），这是一种从网格结构到关系图的映射，当通过关系图卷积网络（R-GCN）进行处理时，它携带有用的空间关系归纳偏差。

6.Parallel Curriculum Experience Replay in Distributed Reinforcement Learning 分布式强化学习中的并行课程经验回放
Yuyu Li, Jianmin Ji
(PDF | Details)
分布式强化学习Distributed RL/课程Curriculum/经验回放Experience Replay
我们引入了一个具有并行课程经验回放的分布式培训框架，该框架可以并行地收集不同的经验，然后自动识别这些子任务的难度。实验环境：模拟RoboCup足球。

7.Deceptive Reinforcement Learning for Privacy-Preserving Planning 隐私保护规划中的欺骗性强化学习
Zhengshang Liu, Yue Yang, Tim Miller, Peta Masters
(PDF | Details)
隐私保护强化学习privacy-preserving reinforcement learning
本文研究了保护奖励函数隐私的欺骗性强化学习问题。在某些情况下，我们可能希望保持奖励函数的私密性，即让观察者难以确定使用的奖励函数。我们定义了隐私保护强化学习的问题，并提出了两个解决该问题的模型。

8.SEERL: Sample Efficient Ensemble Reinforcement Learning 样本高效集成强化学习
Rohan Saphal, Balaraman Ravindran, Dheevatsa Mudigere, Sasikant Avancha, Bharat Kaul
(PDF | Details)
集成学习Ensemble Learning/迁移学习Transfer Learing？
我们提出了一种新的无模型强化算法的训练和模型选择框架，该框架使用从单个训练运行中获得的策略集合。这些策略本质上是多样的，通过定期定向扰动模型参数来学习。我们表明，学习和选择一组充分多样的策略是实现良好集成的必要条件，而极端多样性可能会对整体性能造成不利影响。通过我们新颖的策略选择框架，选择一套充分多样的策略。我们评估了挑战离散和连续控制任务的方法，并讨论了各种集成策略。我们的框架基本上是样本效率高、计算成本低，并且在Atari 2600和Mujoco中的表现优于最先进的SOTA分数。

9.AlwaysSafe: Reinforcement Learning without Safety Constraint Violations during Training 训练期间不违反安全约束的强化学习
Thiago D. Simão, Nils Jansen, Matthijs T. J. Spaan
(PDF | Details)
安全强化学习Safe RL
Safe RL中，可以使用约束马尔可夫决策过程（CMDP）将安全与奖励分离，其中一个独立的信号对安全方面进行建模。在这种设置下，RL智能体可以自主地在性能和安全性之间进行权衡。不幸的是，大多数专为CMDP设计的RL智能体只在学习阶段后保证安全，这可能会阻止它们直接部署。在这项工作中，我们研究了给出安全方面简明抽象模型的环境，并提出了一种RL算法，使用这个抽象模型安全地学习CMDP的策略，即不违反约束。在训练过程中，该算法可以在不违反安全约束的情况下，从保守策略无缝切换到贪婪策略。

10.No More Hand-Tuning Rewards: Masked Constrained Policy Optimization for Safe Reinforcement Learning 不再有手动调整奖励：安全强化学习的蒙蔽约束策略优化
Stef Van Havermaet, Yara Khaluf, Pieter Simoens
(PDF | Details)
安全强化学习Safe RL
我们将安全定义为在采取危险行动可能导致任务提前终止的环境中生存的概率。本文提出了一种安全的RL算法，称为蒙蔽约束策略优化（Masked Constrained Policy Optimization，MCPO），该算法的学习过程受安全约束，排除了风险回报信号。

11.Stratified Experience Replay: Correcting Multiplicity Bias in Off-Policy Reinforcement Learning 分层经验重放：纠正异策略强化学习中的多重性偏差
Brett Daley, Cameron Hickert, Christopher Amato
(PDF | Details)
经验回放Experience Replay
DRL方法依赖于经验回放来近似小批量监督学习设置；然而基于重放的DRL在存在无关数据的情况下似乎很困难。最近的研究表明，当重放内存过大时，DQN的性能会下降。这表明过时的经验在某种程度上影响了DRL的性能，而DQN等异策略方法则不应如此。因此，我们重新检查了在重放内存上均匀采样的动机，发现在使用函数近似时可能存在缺陷。我们表明，尽管有传统的观点，从均匀分布中取样并不会产生不相关的训练样本，因此在训练过程中会产生梯度偏差。我们的理论规定了一种特殊的非均匀分布来抵消这种影响，我们提出了一种分层抽样方案来有效地实现它。

12.Distributional Monte Carlo Tree Search for Risk-Aware and Multi-Objective Reinforcement Learning 风险感知和多目标强化学习的分布式蒙特卡罗树搜索
Conor F. Hayes, Mathieu Reymond, Diederik M. Roijers, Enda Howley, Patrick Mannion
(PDF | Details)
风险感知Risk-aware/多目标Multi-task
在许多风险感知和多目标强化学习环境中，用户的效用来自于策略的单一执行。在这些情况下，根据未来的平均回报做出决策是不合适的。例如，在医疗环境中，患者可能只有一次机会治疗自己的疾病。在做出决策时，仅仅是期望回报无法解释决策可能产生的负面或正面结果的潜在范围。我们认为应该以不同的方式使用期望未来收益的分布来表示智能体在决策时需要的关键信息。
在本文中，我们提出了分布式蒙特卡罗树搜索，这是一种学习后验分布的算法，该算法可以从单个策略执行中获得不同的可能收益，从而为风险感知环境生成良好的策略。此外，在多目标强化学习中，我们的算法在收益的预期效用方面优于最新的算法。

13.SIBRE: Self Improvement Based REwards for Adaptive Feedback in Reinforcement Learning SIBRE：强化学习中基于自我改进的自适应反馈奖励
Somjit Nath, Richa Verma, Abhik Ray, Harshad Khadilkar
(PDF | Details)
奖励塑造Reward shaping
我们提出了一种通用的奖励塑造方法来提高RL中的收敛速度：基于自我改善的奖励（Self Improvement Based Rewards，SIBRE）。该方法旨在与任何现有的RL算法结合使用，包括奖励对智能体自身过去性能的改进。我们证明了SIBRE在与原RL算法相同的条件下是期望收敛的。当原始奖励被弱歧视或稀疏时，重新设计的奖励有助于区分策略。在多个著名的基准测试环境中使用不同的RL算法进行的实验表明，SIBRE更快、更稳定地收敛到最优策略。

14.Tunable Behaviours in Sequential Social Dilemmas using Multi-Objective Reinforcement Learning 基于多目标强化学习的连续性社会困境中的可调节行为
David O’Callaghan, Patrick Mannion
(PDF | Details)
多目标Multi-objective/连续社会困境Sequential Social Dilemmas
我们利用多目标强化学习来创建可调整的智能体，即可以根据设计师的偏好采用一系列不同行为的智能体，而无需再训练。我们将这种技术应用于连续的社会困境。我们表明，可调智能体框架允许在连续的社会困境中轻松地适应合作和竞争行为，而无需再训练，允许调整单个经过训练的代理模型，以适应各种行为和对手策略。

15.Online Learning of Shaping Reward with Subgoal Knowledge 利用子目标知识在线学习塑造奖励
Takato Okudo, Seiji Yamada
(PDF | Details)
SARSA-RS是一种奖励塑造方法，通过学习来更新塑造。然而，这种方法的瓶颈是状态的聚合，因为设计者需要设计从所有状态到抽象状态的映射。我们提出了一种使用子目标序列的动态轨迹聚合，这使得应用于高维观测环境成为可能。

16.Off-Policy Exploitability-Evaluation in Two-Player Zero-Sum Markov Games 双人零和马尔可夫博弈的异策略可利用性利用-评估
Kenshi Abe, Yusuke Kaneko
(PDF | Details)
异策略评估Off-Policy Evaluation
异策略评估（Off-Plocily Evaluation，OPE）是使用从不同策略中获得的历史数据来评估新策略的问题。最近的OPE大多数研究都集中在单人案例上。本研究中我们提出了由双人零和马尔可夫博弈中的双稳健和双强化学习估计（doubly robust and double reinforcement learning estimators）构造的OPE估计。

17.Learning Complex Policy Distribution with CEM Guided Adversarial Hypernetwork 用CEM（交叉熵方法）引导的对抗性超网络学习复杂策略分布
Shi Yuan Tang, Athirai A. Irissappane, Frans A. Oliehoek, Jie Zhang
(PDF | Details)
交叉熵方法（CEM）是一种无梯度的直接策略搜索方法，具有更高的稳定性，对超参数调整不敏感。CEM与基于种群的进化方法有相似之处，但它不是使用种群，而是使用候选解的分布（在我们的例子中是策略）。通常，使用自然指数族分布（如多元高斯分布）来参数化策略分布。当搜索局限于一个不太具代表性的子空间时，使用多元高斯分布会限制CEM策略的质量。我们通过使用一个经过对抗训练的超网络来解决这个缺点，从而能够更丰富、更复杂地表示策略分布。

18.Guiding Evolutionary Strategies with Off-Policy Actor-Critic 用异策略演员-评论家指导进化策略
Yunhao Tang
(PDF | Details)
进化策略（Evolutionary Strategies，ES）和异策略学习算法是RL的两个主要工作：ES采用一种简单的黑盒优化方法，但效率可能稍低一些；异策略学习通过设计更有效，但更新可能不稳定。基于他们的权衡，我们提出了CEM-ACER，是一种具有经验回放（ACER），组合了交叉熵法、标准ES算法和演员-评论家算法的方法。

19.State-Aware Variational Thompson Sampling for Deep Q-Networks 用于深度 Q 网络的状态感知变分汤普森采样
Siddharth Aravindan, Wee Sun Lee
(PDF | Details)
汤普森采样法是一种在强化学习中平衡探索和利用的著名方法。它要求维持价值-动作函数的后验分布，这对于具有高维状态-动作空间的任务来说通常是棘手的。我们推导了DQNs的变分汤普森采样近似，它使用了一个深度网络，其参数受到一个学习的变分噪声分布的扰动。我们将NoisyNets方法解释为我们推导的变分汤普森抽样方法的近似。此外，我们还提出了状态感知噪声探索（State Aware Noisy Exploration ，SANE），它通过允许非均匀扰动来改善噪声网络，其中参数扰动的数量取决于智能体的状态。我们假设这种状态感知的噪声探测在某些高风险状态下的探测可能导致智能体严重失败的问题中特别有用。

20.Evaluating the Robustness of Collaborative Agents 评估协作智能体的鲁棒性
Paul Knott, Micah Carroll, Sam Devlin, Kamil Ciosek, Katja Hofmann, Anca Dragan, Rohin Shah
(PDF | Details)
如果我们不能依靠平均的训练或验证奖励作为衡量标准，那么如何才能有效地评估鲁棒性？我们从软件工程中的单元测试实践中得到启发。具体来说，我们建议，在设计与人类合作的AI智能体时，设计师应该在可能的合作伙伴行为和遇到的可能状态中搜索潜在的边缘情况，并编写测试，检查智能体在这些边缘情况下的行为是否合理。

21.Gambler Bandits and the Regret of Being Ruined 赌徒强盗和被毁的遗憾
Filipo Studzinski Perotto, Sattar Vakili, Pratik Gajane, Yaser Faghan, Mathieu Bourgais
(PDF | Details)
在本文中，我们考虑一类特殊的问题，称为多臂赌徒盗贼（Multi Armed Gambler Bandits，MAGB），它构成了伯努利MAB问题的修改版本，其中必须考虑两个新的因素：预算和破产的危险。智能体有一个初始预算，该预算随着收到的奖励而变化，可以是成功后的+1或失败后的-1。本文的贡献是在当前预算和观测的情况下，对破产概率进行了初步分析，并提出了一种替代的后悔公式，将经典的后悔概念与破产概率造成的预期损失相结合。最后，使用所提出的度量对标准的最新方法进行了实验比较。

22.Improving Sample-based Reinforcement Learning through Complex Non-parametric Distributions 通过复杂非参数分布改进基于样本的强化学习
Shi Yuan Tang
(PDF | Details)
（博士生论坛）基于采样的强化学习Sample-based RL
RL中基于采样的方法通常涉及学习或维持分布。虽然文献中提出了许多优雅的算法，但大多数方法都涉及基础分布的先验假设（例如自然指数族），或者出于简单性或可处理性的原因，涉及模态的数量。目前仍然缺乏一种有效应用复杂或非参数分布的方法，例如，使用神经网络近似的分布。本论文的重点是提出和评估方法，以便更好地逼近复杂分布，以及估计非参数分布测量值的方法。其动机是通过减轻复杂非参数分布的限制和困难，使许多深度学习和信息理论技术能够更好地连接和应用于RL中基于采样的方法。

二、迁移学习/元学习（3+1篇）

1.Learning to Cooperate with Unseen Agents Through Meta-Reinforcement Learning 通过元强化学习学习与看不见的智能体合作
Rujikorn Charakorn, Poramate Manoonpong, Nat Dilokthanakul
(PDF | Details)
元强化学习Meta RL/合作Cooperation/MARL？
Ad hoc（点对点）团队合作问题描述了一个智能体必须与以前看不见的智能体合作以实现共同目标的情况。为了在这些场景中取得成功，智能体必须具备合作技能。然而，在复杂的领域中，领域知识可能不可用，也不能借此来设计智能体的行为。因此，探索如何从数据中直接学习合作技能是一件有趣的事情。在这项工作中，我们将元强化学习（meta-RL）公式应用于特殊团队协作问题。

2.Deep Interactive Bayesian Reinforcement Learning via Meta-Learning 基于元学习的深度交互贝叶斯强化学习
Luisa Zintgraf, Sam Devlin, Kamil Ciosek, Shimon Whiteson, Katja Hofmann
(PDF | Details)
元强化学习Meta RL/MARL？
（Extended Abstract）
与其他智能体互动的智能体通常不知道其他智能体的策略是什么，但在与他人互动和了解他人时，必须最大限度地提高自己的在线回报。在对其他智能体策略不确定的情况下，最优自适应行为在理论上可以使用交互式贝叶斯强化学习框架计算一些先验。不幸的是，在大多数情况下这样做很难，而且现有的近似方法仅限于小任务。为了克服这一点，我们提出了元学习（along side the policy）通过结合顺序和分层VAE进行近似信念推理。

3.Self-Attention Meta-Learner for Continual Learning 用于持续学习的自我关注元学习者
Ghada Sokar, Decebal Constantin Mocanu, Mykola Pechenizkiy
(PDF | Details)
Continual Learning的目的是提供能够使用神经网络顺序学习多个任务的智能体。当前大多数方法中，智能体从随机初始化的参数开始进行优化以掌握当前任务，而不管学习到的表示对未来任务是否有用。此外，未来的每项任务都会使用所有之前学到的知识，尽管其中的一部分可能对学习没有帮助。这些会导致任务之间的干扰，尤其是在无法访问以前任务的数据时。在本文中，我们提出了一种新的方法，称为自我注意元学习器（Self-Attention Meta-Learner ，SAM），它可以学习一个连续学习的先验知识，允许学习一系列任务，同时避免灾难性遗忘。SAM采用了一种注意力机制，学习为未来的每项任务选择特定的相关表征。

SEERL: Sample Efficient Ensemble Reinforcement Learning 样本高效集成强化学习
Rohan Saphal, Balaraman Ravindran, Dheevatsa Mudigere, Sasikant Avancha, Bharat Kaul
(PDF | Details)
集成学习Ensemble Learning/迁移学习Transfer Learing？
我们提出了一种新的无模型强化算法的训练和模型选择框架，该框架使用从单个训练运行中获得的策略集合。这些策略本质上是多样的，通过定期定向扰动模型参数来学习。我们表明，学习和选择一组充分多样的策略是实现良好集成的必要条件，而极端多样性可能会对整体性能造成不利影响。通过我们新颖的策略选择框架，选择一套充分多样的策略。我们评估了挑战离散和连续控制任务的方法，并讨论了各种集成策略。我们的框架基本上是样本效率高、计算成本低，并且在Atari 2600和Mujoco中的表现优于最先进的SOTA分数。

三、应用类/交叉领域（9篇）

1.To hold or not to hold? - Reducing Passenger Missed Connections in Airlines using Reinforcement Learning 坚持还是不坚持？-使用强化学习减少航空公司的乘客错过航班
Tejasvi Malladi, Karpagam Murugappan, Depak Sudarsanam,Ramasubramanian Suriyanarayanan, Arunchandar Vasan
(PDF | Details)
航空
我们使用RL学习保持航班以避免错误连接的策略，补充了现有方法。

2.Active Screening for Recurrent Diseases: A Reinforcement Learning Approach 复发性疾病的主动筛查：强化学习方法
Han-Ching Ou, Haipeng Chen, Shahin Jabbari, Milind Tambe
(PDF | Details)
疾病筛查
我们提出了一种新的基于DQN的强化学习（RL）方法，并对其进行了一些创新性的调整，以应对主动筛查疾病所面临的计算挑战。

3.SPOTTER: Extending Symbolic Planning Operators through Targeted Reinforcement Learning 通过Targeted RL扩展符号规划操作符
Vasanth Sarathy, Daniel Kasenberg, Shivam Goel, Jivko Sinapov, Matthias Scheutz
(PDF | Details)
符号规划模型允许决策智能体以任意方式对行动进行排序，以实现动态领域中的各种目标。然而，它们通常是手工制定的。RL方法虽需要这样的模型，但往往需要数百万次的经验，并且往往学习到不容易迁移到其他任务的策略。在本文中，我们讨论了集成这些方法的开放问题的一个方面：决策智能体如何在试图实现目标的同时解决其符号规划模型中的差异？我们提出了一个名为SPOTTER的集成框架，该框架使用RL来增强和支持规划智能体（通过发现规划智能体所需的新操作符），以实现智能体最初无法实现的目标。SPOTTER的性能优于纯RL方法，同时也能发现可迁移的符号知识，并且不需要监督。

4.An Autonomous Negotiating Agent Framework with Reinforcement Learning based Strategies and Adaptive Strategy Switching Mechanism 一个基于强化学习策略和自适应策略切换机制的自动谈判智能体框架
Ayan Sengupta, Yasser Mohammad, Shinji Nakadai
(PDF | Details)
自动谈判
这项工作的重点是解决专家选择问题和利用我们的自动谈判智能体框架适应对手的行为。该框架允许对对手的行为进行实时分类，并提供了一种机制，可在单个谈判会话中选择、切换或组合策略。

5.Reinforcement Learning for Unified Allocation and Patrolling in Signaling Games with Uncertainty 不确定信号博弈中一致分配和巡逻的强化学习
Aravind Venugopal, Elizabeth Bondi, Harshavardhan Kamarthi, Keval Dholakia, Balaraman Ravindran, Milind Tambe
(PDF | Details)
绿色安全游戏（Green Security Games ， GSG）已成功用于保护渔业、森林和野生动物等宝贵资源。现实世界的部署既包括资源分配，也包括后续的协调巡逻，在存在实时、不确定信息的情况下进行通信。以前的游戏模型不能同时处理这两个阶段。此外，采用现有的解决方案策略是困难的，因为它们不能很好地适应更大、更复杂的游戏模型变体。我们提出了一种新的GSG模型来应对这些挑战。我们还提出了一种新的算法CombSGPO，用于计算该博弈模型的防御策略。

6.Solving 3D Bin Packing Problem via Multimodal Deep Reinforcement Learning 基于多模态深度强化学习的三维装箱问题求解
Yuan Jiang, Zhiguang Cao, Jie Zhang
(PDF | Details)
三维装箱问题3D bin packing problem
我们提出通过端到端多模态DRL智能体来缓解这个问题，该智能体依次处理序列、方向和位置三个子任务。由此产生的体系结构使智能体能够解决100个或更多盒子的大规模实例。

7.Facial Feedback for Reinforcement Learning: A Case Study and Offline Analysis Using the TAMER Framework 强化学习中的面部反馈：使用TAMER框架的案例研究和离线分析
Guangliang Li, Hamdi Dibeklioğlu, Shimon Whiteson, Hayley Hung
(PDF | Details)
交互式强化学习Interactive RL/面部反馈Facial Feedback
（JAAMAS）交互式强化学习为智能体提供了一种从人类用户提供的评估反馈中学习解决任务的方法。之前的研究表明，人类在训练早期会给出丰富的反馈，但在训练之后反馈非常少。在本文中，我们通过将训练者的面部表情解释为评估反馈，研究了智能体从训练者的面部表情中学习的潜力。为此，我们在强化学习基准问题无限马里奥中实现了一种流行的交互式强化学习方法TAMER，并首次对TAMER进行了大规模研究，涉及561名参与者。通过设计CNN-RNN模型，我们的分析表明，告诉训练者使用面部表情和竞争可以提高使用面部表情估计正反馈和负反馈的准确性。此外，我们的模拟实验结果表明，仅从基于面部表情的预测反馈中学习是可能的，并且使用强/有效的预测模型或回归方法，面部反应将显著提高智能体的性能。

8.Temporal Watermarks for Deep Reinforcement Learning Models 深度强化学习模型中的时间水印
Kangjie Chen, Shangwei Guo, Tianwei Zhang, Shuxin Li, Yang Liu
(PDF | Details)
水印Watermarks
我们提出了一种新的数字水印方案来保护DRL。

9.Transferable Environment Poisoning: Training-time Attack on Reinforcement Learning 可迁移环境中毒：强化学习的训练时攻击
Hang Xu, Rundong Wang, Lev Raizman, Zinovi Rabinovich
(PDF | Details)
研究针对RL智能体的对抗性攻击已经成为开发基于RL的健壮解决方案的一个关键方面。最新的研究工作已经转移到调查针对RL智能体的训练时间攻击，即迫使学习过程朝着攻击者设计的目标策略进行。本文研究了训练时的环境动力学中毒攻击。

你可能感兴趣的:(强化学习,人工智能,深度学习)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
深度 Qlearning：在直播推荐系统中的应用 AGI通用人工智能之禅程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
深度Q-learning：在直播推荐系统中的应用关键词：深度Q-learning,强化学习,直播推荐系统,个性化推荐1.背景介绍1.1问题的由来随着互联网技术的飞速发展,直播平台如雨后春笋般涌现。面对海量的直播内容,用户很难快速找到自己感兴趣的内容。因此,个性化推荐系统在直播平台中扮演着越来越重要的角色。1.2研究现状目前,主流的个性化推荐算法包括协同过滤、基于内容的推荐等。这些方法在一定程度上缓
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
cmd泛滥_与您的后泛滥同事见面：人工智能机器人 weixin_26644585 人工智能 leetcode
cmd泛滥Readytoswapyouroldcube-mateforadisembodiedAI?IPsoftCEOChetanDube,creatorofAIco-workerAMELIA,giveshistakeonthepost-COVIDofficelandscape.准备将您的旧立方体伙伴换成无形的AI？AIsoft同事AMELIA的创始人IPsoft首席执行官ChetanDube阐述
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
全自动解密解码神器 — Ciphey K'illCode python_模块 python vscode
Ciphey是一个使用自然语言处理和人工智能的全自动解密/解码/破解工具。简单地来讲，你只需要输入加密文本，它就能给你返回解密文本。就是这么牛逼。有了Ciphey，你根本不需要知道你的密文是哪种类型的加密，你只知道它是加密的，那么Ciphey就能在3秒甚至更短的时间内给你解密，返回你想要的大部分密文的答案。下面就给大家介绍Ciphey的实战使用教程。1.准备开始之前，你要确保Python和pip已
埃隆·马斯克表示特斯拉“没有必要”授权 xAI 模型喜好儿网人工智能 AIGC 马斯克
埃隆·马斯克近日在社交媒体上对《华尔街日报》的一篇报道进行了反驳。该报道指出，马斯克旗下的电动汽车公司特斯拉可能与人工智能初创公司xAI达成了一项收入分享协议，以便特斯拉能够使用xAI的人工智能模型。据称，这些模型将被集成到特斯拉的全自动驾驶（FSD）软件中，并可能用于开发特斯拉汽车的语音助手以及人形机器人擎天柱的软件。喜好儿网然而，马斯克否认了这一说法，他在社交媒体平台上表示，尽管特斯拉确实与x
Reflection 70B——HyperWrite推出的大型语言模型新加坡内哥谈技术语言模型人工智能自然语言处理
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/在AI技术飞速发展的过程中，我们已经见证了可以写作、编程，甚至创造艺术的模型问世。但有一
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后