酿久诗

《Human-level play in the game of Diplomacy by combining language models with strategic reasoning》翻译

《Human-level play in the game of Diplomacy by combining language models with strategic reasoning》- 将语言模型与战略推理相结合，在外交游戏中进行人类水平的游戏

论文信息
摘要
1. 介绍部分
2. 人类与人工智能在外交领域合作的挑战
3. 外交游戏
4. Cicero 概述
- 4.1 对话
- 4.2 战略推理
- 4.3 消息过滤
5. 方法
- 5.1 数据
- 5.2 意图控制对话
- - 5.2.1 模仿对话模型
  - 5.2.2 通过意图可控的对话模型
  - 5.2.3 用意图注释训练消息
  - 5.2.4 在游戏过程中选择意图
  - 5.2.5 当前回合的代理意图操作
  - 5.2.6 对话建模结果
- 5.3 战略推理
- - 5.3.1 piKL：KL-正规化规划
  - 5.3.2 对话条件规划
  - 5.3.3 用于改进值估计的自我对弈 RL
- 5.4 消息过滤
- - 5.4.1 区分人类文本和反事实
  - 5.4.2 意图对应
  - 5.4.3 基于值的过滤
6. 匿名人类游戏中的西塞罗
7. 讨论
8. 伦理考虑

论文信息

题目：《Human-level play in the game of Diplomacy by combining language models with strategic reasoning》
作者：Meta Fundamental AI Research Diplomacy Team (FAIR)
期刊：Science
发表时间：9 December 2022
官方代码：https://github.com/facebookresearch/diplomacy_cicero；
内容概述：这篇研究论文报告了一个名为Cicero的AI系统在桌游外交游戏中达到了人类水平的表现。

摘要

尽管在模仿人类语言方面取得了很大进步,但构建能够与人类在交互环境中有意识地进行通信的代理仍然是一个重大挑战。我们提出了西塞罗(Cicero),这是第一个在外交游戏中达到人类水平表现的AI代理,外交游戏需要在七个玩家之间进行自然语言协商和战术协调,既需要合作又需要竞争。西塞罗将语言模型与计划和强化学习算法相结合,通过推断其对话中的玩家的信念和意图来生成对话以追求其计划。在一个匿名的在线外交联赛的40场游戏中,西塞罗的平均得分是人类玩家的两倍多,在参与一场或多场游戏的参与者中名列前10%。

1. 介绍部分

人工智能（AI）领域的一个主要长期目标是建立能够用自然语言与人类进行计划、协调和谈判的代理。尽管在模仿人类语言的语言模型方面已经取得了很大进展（1），但有效的谈判代理必须超越这一点，理解对方的信念、目标和意图；规划考虑到合作伙伴目标的联合行动；并有说服力地、有意地传达这些建议。

我们推出了 Cicero，一款在策略游戏《外交》中实现了人类水平表现的 AI 代理。在《外交》中，七名参与者进行私人自然语言谈判，以协调他们的行动，以便相互合作和竞争。相比之下，多智能体人工智能之前的重大成功都是在纯粹的对抗性环境中进行的，例如国际象棋 (2)、围棋 (3) 和扑克 (4)，在这些环境中，通信没有价值。由于这些原因，外交已成为多智能体学习的一个具有挑战性的基准（5-8）。

西塞罗将可控对话模块与战略推理引擎结合起来。在游戏的每个时刻，西塞罗都会根据游戏状态和对话来模拟其他玩家可能采取的行动。然后，它计划参与者如何协调以实现共同利益，并将这些计划映射为自然语言消息。

2022 年 8 月 19 日至 10 月 13 日期间，我们以匿名方式参加了 Cicero 参加的人类玩家在线联盟的 40 场外交比赛。在 72 小时的比赛过程中，发送了 5277 条消息，Cicero 在参与者中排名前 10%。玩了不止一场比赛。

2. 人类与人工智能在外交领域合作的挑战

几乎所有先前的游戏人工智能突破都是在两人零和（2p0s）设置中进行的，包括国际象棋（2）、围棋（3）、单挑扑克（9、10）和星际争霸（11、12））。在有限 2p0s 游戏中，某些通过与自身对战来学习的强化学习 (RL) 算法（这一过程称为“自我对战”）将收敛到在平衡游戏中的预期中无与伦比的策略 (13)。换句话说，任何有限的 2p0s 游戏都可以通过具有足够计算和模型能力的自我对弈来解决。

然而，在涉及合作的游戏中，即使具有无限的计算和模型容量，在没有人类数据的情况下，自我对弈也不再能保证找到与人类表现良好的策略，因为自我对弈代理可能会收敛到不兼容的策略符合人类的规范和期望。在涉及语言的环境中可以清楚地看到这种效果，之前的研究发现，尽管智能体取得了很高的任务成功率，但自我博弈会产生无法解释的语言 (14, 15)。即使在《外交》的无对话版本中，我们也发现，在 2p0 版本的游戏中实现超人表现的自我博弈算法在多人游戏中表现不佳，因为学习的策略与潜在的规范和期望不一致。人类盟友 (16, 17)。因此，外交的一个主要挑战是开发一种方法，以产生与人类兼容的语言和行为的方式，利用自我博弈的潜在好处。

维持人类可解释的通信的挑战在《外交》中尤其严峻，在《外交》中，我们的代理平均每场比赛发送和接收 292 条消息（图 S8）。游戏中的信息通常涉及协调精确的计划，任何沟通不畅都可能导致计划失败。代理发送的每条消息都必须基于（上下文适当且一致）冗长的对话历史、游戏状态（包括提出的假设状态）和目标。如果消息的依据不准确，人们可能会要求智能体解释其错误（这是一项具有挑战性的任务，可能会导致进一步的错误），或者选择与其他人合作。此外，重复的消息传递会产生反馈循环，其中语言模型会模仿其之前消息的风格，例如，发送简短或不连贯的消息将增加将来出现此类消息的可能性（18）。过去关于战略对话系统的工作通过关注更简单的设置（14、19-21）来避免这些问题，这些设置仅涉及单个人类伙伴、较短的对话历史和更简单的策略。

最后，外交是一个特别具有挑战性的领域，因为成功需要在鼓励玩家不信任任何人的环境中与他人建立信任。每个回合的行动在不具约束力的私人谈判后同时发生。为了取得成功，经纪人必须考虑球员可能不遵守诺言的风险，或者其他球员本身可能怀疑经纪人的诚实性的风险。因此，推理他人的信念、目标和意图的能力以及通过对话说服和建立关系的能力是外交中的强大技能。

3. 外交游戏

《外交》是一款棋盘游戏，七名玩家通过将自己的部队移入其中来竞争控制地图上的供应中心 (SC)。玩家通过控制大多数 SC 来获胜。当所有剩余玩家同意平局或达到回合限制时，游戏也可能结束，在这种情况下，分数由每个玩家控制的 SC 数量决定。

每回合，所有玩家在谈判期间与其他玩家进行私人的成对自由对话，然后所有玩家同时选择一个行动，其中每个他们控制的单位包含一个命令。一个单位可以支持其他单位，包括另一个玩家的单位，这构成了外交中大部分谈判的基础。补充材料 (SM)、材料和方法，C 节中提供了规则的详细说明。

4. Cicero 概述

在高层次上，西塞罗将对话模块与策略推理模块以及拒绝低质量消息的过滤过程结合起来。图 1 提供了西塞罗图。

图 1. Cicero 的架构。 Cicero 根据棋盘状态和对话预测每个玩家可能的人类行为，并将其作为使用 RL 训练模型的规划算法的起点。规划的输出是智能体的行动以及对其他参与者行动的信念，这些信念用于选择对话模型的意图。生成的候选消息在发送最终消息之前会经历多个过滤步骤。

4.1 对话

西塞罗使用预先训练的语言模型生成对话，该模型根据人类外交游戏的对话数据进行了进一步训练。至关重要的是，除了基于对话历史和游戏状态之外，对话模型还经过训练，可以通过意图进行控制，我们在这里将其定义为代理及其对话伙伴的一组计划动作。这是通过自动增加具有推断意图的人类数据并在训练期间使用这些信息作为进一步调节来实现的。例如，显示代理在其说话伙伴的支持下进入保加利亚领土（“BUL”）的意图可能会产生诸如“作为回报，你能支持我进入 BUL 吗？”之类的消息。以意图为基础，对话模型免除了大部分学习哪些行为是合法且具有战略利益的责任。特别是，这种控制在对话生成和策略推理之间提供了一个接口。

4.2 战略推理

Cicero 使用战略推理模块来智能地选择意图和行动。该模块运行一个规划算法，根据迄今为止的游戏状态和对话来预测所有其他玩家的策略，同时考虑不同行动的强度及其在人类游戏中的可能性，并为西塞罗选择最佳行动这是基于这些预测的。规划依赖于通过自我对弈强化学习训练的价值和政策函数，该函数会惩罚偏离人类行为太远的智能体，以维持与人类兼容的政策。在每个协商期间，每次 Cicero 发送或接收消息时都会重新计算意图。在每个回合结束时，Cicero 都会发挥其最近计算的意图。

4.3 消息过滤

西塞罗将每条生成的消息传递给多个过滤器，这些过滤器旨在限制无意义、与意图不一致或策略性较差的消息。

5. 方法

5.1 数据

我们在 webDiplomacy.net 上获得了包含 125,261 场在线外交游戏的数据集。其中，有 40,408 款游戏包含对话，玩家之间总共交换了 12,901,662 条消息。玩家帐户被取消识别，并且由 webDiplomacy 执行个人身份信息 (PII) 的自动编辑。我们将此数据集称为 WebDiplomacy。

5.2 意图控制对话

西塞罗通过神经生成外交对话模型生成消息，该模型经过训练可通过一组意图进行控制。

5.2.1 模仿对话模型

我们将 R2C2 (22) 作为我们的基础模型——一个基于 Transformer 的 27 亿参数 (23) 编码器-解码器模型，使用 BART 去噪目标 (24) 对来自互联网的文本进行预训练。然后通过标准最大似然估计在 WebDiplomacy（方法、数据）上进一步训练基本预训练模型。具体来说，使用数据集 D ¼ x ið Þ； y ið Þ ，模型被训练来预测在时间 t 从玩家 A 到玩家 B 的对话消息 y(i)，假设以下所有内容都表示为文本 x(i) ：对话历史记录（所有交换的消息在玩家 A 和其他六名玩家之间，直到时间 t)；游戏状态和动作历史（当前游戏状态和最近的动作历史）；玩家评级（A 的评级对应于 WebDiplomacy 中的游戏计算得出的 Elo 评级）；游戏和消息元数据（有关游戏设置和当前消息的附加信息，例如自上次消息以来的时间和当前回合）。此外，模型还以意图为条件（玩家 A 和 B 在当前回合和未来回合中建议采取的一组行动，代表消息 y(i) 的意图）。 SM 的 D.1 节提供了有关训练数据、训练过程、相关超参数、采样过程和其他推理时间方法的更多详细信息。

在游戏过程中，我们使用了额外的模块来控制何时说话以及对谁说话，这些模块在 SM 的 D.4 节中进行了描述。

5.2.2 通过意图可控的对话模型

图 2. 意图控制对话的训练和推理过程图示。动作被指定为单位命令字符串；例如“NTH S BEL - HOL”表示北海将支持比利时飞往荷兰。 (A) 训练“意图模型”来根据一对玩家的对话来预测他们的行动。训练数据仅限于对话被视为“真实”的子集（SM，D.2.3 节）。 (B) 对话训练数据集中的每条消息都用迄今为止对话的意图模型的输出进行了注释，并在最后注入了一条协议消息。 © 对话模型经过训练，可以在给定目标消息的注释意图的情况下预测每个数据集消息。 (D) 在游戏过程中，意图由规划模块提供。

标准语言建模方法只会训练我们的对话模型来模仿数据集中的消息，但不会超越它们。为了超越模仿学习，我们通过根据战略推理模块（意图）指定的计划生成消息来使对话模型变得可控，从而产生更高质量的消息。更具体地说，如果 z 是发送者和接收者在当前回合和未来几个回合中最有可能采取的一组动作（如果在接收到消息后没有发生进一步的对话），则消息被定义为具有意图 z。为了建立这种控制，我们开发了一些技术，可以使用与消息内容相对应的一组动作自动注释训练集中的每条消息。在训练过程中，对话模型学习了分布 pq y ið Þ x ið Þ； z ið Þ ，其中 z(i) 表示数据点 [x(i) , y(i) ] 的意图；因此，在推理时，时间 z 提供了对生成的控制点 (25)。我们稍后描述训练和推理过程，这也在图 2 的流程中进行了说明。图 3 演示了意图对生成的对话的影响；对不同计划行动的调节会产生不同的信息。

图 3. 意图对西塞罗对话的影响。图为同一游戏情境中三种不同可能的意图。在每种情况下，我们都会根据这些意图向法国（蓝色）、德国（橙色）和俄罗斯（紫色）显示西塞罗（英格兰；粉色）生成的消息。每个意图都会导致完全不同的消息，这些消息与预期的操作一致。

我们在开发过程中考虑了其他意图概念，例如控制消息以关注特定的操作子集、第三方操作或具有特定的语气。更丰富的意图更难在人类消息上进行注释，更难以通过规划模块进行选择，并且会产生更大的语言模型退出分发的风险。

5.2.3 用意图注释训练消息

当用相应的意图注释训练数据中的消息时，我们的目标是让建议的动作 z(i) 密切反映消息 y(i) 的内容，以便在训练时，模型学会利用z(i) 。

天真地，我们可以使用发送者和接收者在意图范围内每个回合结束时所采取的实际行动。但是，如果 (i) 消息不诚实或 (ii) 后续消息改变了发送者的计划，则这些操作可能无法反映消息的内容。为了解决 (i)，我们根据在数据集的“真实”子集上训练的对话条件动作预测模型来预测最可能的动作，其中我们预测玩家的对话不会欺骗其他人（SM，D 部分） .2).这如图2A所示；我们将此模型称为意图模型。为了解决（ii）问题，我们限制了该意图模型所看到的对话历史记录，直到有问题的消息，这向模型发出信号来预测动作，就好像对话在该时间点已经结束一样。我们还在对话历史中添加了表明双方达成结论性协议的消息（图2B）。因此，我们获得了注释为消息意图的动作与内容之间的高度对应性，从而实现了在一个旨在测量这种对应关系的小型测试集上，得分为 97%（相比之下，更简单的基线为 77%）（表 S2）。然后，对话模型可以按照上述模拟对话部分中描述的方式进行训练logue 模型和图 2C（SM，D.2 节）。

5.2.4 在游戏过程中选择意图

在游戏过程中，西塞罗使用策略推理模块来选择当前回合的意图动作（图2D），而未来回合的意图动作是通过人类模仿模型生成的。

5.2.5 当前回合的代理意图操作

西塞罗考虑了其政策信念下极有可能采取的接收者行动的子集。高可能性要求某个动作被认为对接收者有利和/或他们被认为在给定对话的情况下可能会执行该动作。在这个限制集中，西塞罗选择了对其自身具有最高期望值的接收者动作（SM，D.2.4 节）。

5.2.6 对话建模结果

我们将对话模型的性能与没有意图基础的基线和没有意图或游戏状态基础的基线（“语言模型”）进行了比较。我们报告了验证集的困惑度和对话质量评分，这些评分是根据 126 个外交游戏场景中生成的消息的专家注释计算得出的。专家被要求标记一条消息是否（i）与游戏状态一致，（ii）与代理的计划一致，以及（iii）与普通人相比，质量是否显着提高。结果如图 4 所示，SM 的 D.2.3 节提供了有关此评估的更多详细信息。我们的模型在所有指标上都优于基线。验证困惑度的改善表明该模型可以使用额外的基础信息来更好地预测人类消息。专家注释表明，意图和游戏状态提供的基础信息可以产生与智能体预期行动高度一致的更高质量的消息。

图4 可控对话建模结果。我们报告西塞罗对话模型验证集的对话质量评级和困惑度，并将它们与没有意图基础的基线和没有意图或游戏状态基础的基线（“语言模型”）进行比较。对话质量评级是根据专家对 126 种情况下生成的消息的注释计算得出的；我们报告标记为与游戏状态一致、与下一步行动计划一致以及特别高质量的消息的百分比（在过滤之前）。较低的困惑度对应于更多的真实人类信息的概率质量。

5.3 战略推理

为了生成对话意图并选择每个回合的最终行动，西塞罗运行了一个战略推理模块，该模块根据状态预测当前回合中其他玩家的政策（行动的概率分布）董事会和共享对话，然后为自己选择当前回合的政策，以最佳地响应其他参与者的预测政策。与人类玩家一起做这件事需要预测人类将如何玩。合作游戏中的一种流行方法是通过对人类数据的监督学习来模拟其他玩家的策略，这通常称为行为克隆（BC）。然而，纯粹的BC是脆弱的，特别是因为监督模型可能会学习对话和动作之间的虚假相关性（图S6）。为了解决这个问题，西塞罗使用 piKL (26) 的变体来模拟玩家的策略。 piKL 是一种迭代算法，它通过假设每个参与者 i 寻求最大化其策略 pi 的期望值并最小化 pi 与 BC 策略（我们称之为锚定策略 ti）之间的 Kullback-Leibler (KL) 差异来预测策略。锚固强度参数l∈0； ∞½ Þ 在这些相互竞争的目标之间进行权衡。

5.3.1 piKL：KL-正规化规划

piKL 是一种预测玩家策略的迭代算法。该算法的完整描述可以在 SM 的 E.1 节中找到。 piKL 将外交中的每一回合视为自己的子游戏，其中每个玩家 i 同时选择一个动作 ai，导致联合动作 a = (a1, …, an)，然后每个玩家 i 收到奖励 ui(a ) 由值函数 u i 确定。我们稍后将讨论该价值函数的训练。

piKL 假设玩家 i 寻求最大化修改后的效用函数的策略 pi

其中 p–i 表示除 i 之外的所有参与者的策略，u i(pi, p–i) 是在其他参与者玩 p–i 的情况下 pi 的期望值。具体来说，令 Q t 1 i aið Þ ¼ u i ai ； pt i 我并让

在每次迭代 t 中，piKL 都会将其对参与者联合策略的预测更新为

piKL 可证明收敛于修改后的效用空间中的平衡点 (26)。当锚定强度l设置为较大值时，piKL预测玩家i的策略将接近锚定策略ti。当 l 很小时，piKL 预测玩家 i 的策略将具有较高的期望值，并且可能会大幅偏离 ti

piKL 的泛化称为分布 Lambda piKL (DiL-piKL)，用 l 值的概率分布替换 piKL 中的单个 l 参数（SM，E.1.3 节）。在每次迭代中，每个玩家都会从其分布中采样一个 l 值。在实践中，我们发现这可以带来更好的性能（17）。

5.3.2 对话条件规划

由于对话会影响 BC 策略（锚定策略 ti），因此 piKL 提供了一种对话机制来影响策略预测。西塞罗和另一个玩家之间不同的可能消息可能会产生不同的锚定策略（图 5），这最终给出了关于该玩家将做什么的不同的最终预测。

图 5. 对话对西塞罗战略规划和意图的影响。西塞罗（法国；蓝色）和英格兰（粉色）纠缠在一起，但如果他们能够脱离冲突，对双方都有好处。西塞罗刚刚给英格兰队发信息：“你想取消这场战斗吗？我可以让你专注于俄罗斯，我可以专注于意大利。”图为英格兰可能采取的三种应对方式以及西塞罗如何适应每种方式。（左和中）由于西塞罗的规划以对话条件政策模型为基础，因此它对其他参与者的预测以及相应的其自己的计划都是灵活的，并且能够响应与其他参与者的谈判。（右）但西塞罗也避免盲目相信其他参与者的提议，拒绝那些预测价值低且与自身利益相悖的计划。

其他玩家当然可能会欺骗他们的计划。 Cicero 没有明确预测消息是否具有欺骗性，而是依靠 piKL 根据 BC 策略（以消息为条件）以及是否偏离 BC 策略来直接预测其他参与者的策略将使该玩家受益。

由于《外交》中的对话是在玩家之间私下进行的，因此西塞罗必须推断玩家在做出预测时可以获得哪些信息。例如，如果西塞罗正在与盟友协调对对手的攻击，那么西塞罗对对手政策的预测必须考虑到对手不知道预期的协调。西塞罗通过成对 piKL 预测其他参与者的策略来实现这一目标。

具体来说，在战略规划过程中，对于每个玩家 j，西塞罗根据共享对话、棋盘状态和最近的行动历史记录为自己和玩家 j 计算了一个锚定策略。然后，Cicero 为两名玩家运行 DiL-piKL 来预测玩家 j 的策略。在每次迭代中，Cicero 假设其余 5 个玩家将根据 RL 计算的策略进行游戏，以 Cicero 和玩家 j 的策略为条件。这个过程对每个参与者的策略进行了独立的预测。

接下来，西塞罗解释了参与者的政策不独立，因为他们有能力通过西塞罗没有观察到的私人对话来关联他们的行为。 Cicero 通过自我归一化重要性采样为所有其他参与者构建近似联合策略来实现这一目标：我们从其他参与者的独立 piKL 策略中采样了 N = 1000 个联合行动 a，并通过 a 在相关和下的似然比对它们进行了重新加权。分别是独立的 RL 策略。

最后，西塞罗选择了最能响应其他参与者预测的联合政策 p–i 的动作 a i，同时仍尽可能与其对话保持一致。具体来说，西塞罗选择了动作 argmaxai ui a i； p ið Þ þ llogti a ið Þ，其中 ui 是 RL 值函数，ti(ai) 是对话条件模仿策略下动作的概率，l = 3 × 10−3 。西塞罗使用较小的 l 来规范其最佳响应，而不是计算其他参与者的策略；因此，对话更强烈地告知了西塞罗对其他参与者如何协调的期望，同时当它预测人类在其情况下最有可能选择的行动不是最理想时，仍然允许西塞罗有更多的偏离余地。

5.3.3 用于改进值估计的自我对弈 RL

应用 piKL 需要一个状态值函数。自我游戏为训练这种价值函数提供了一种途径，但存在与人类游戏不兼容的风险 (16, 17)。为了解决这个问题，我们在自我对弈中使用 piKL 来保持策略与人类兼容。

在《外交》中进行自我对战的一个挑战是，玩家可能会在与其他玩家对话的基础上调整自己的行动，包括协调联合行动。在强化学习中，显式模拟对话的成本极其高昂。然而，一个关键的见解是，在人类数据的联合动作分布上训练的联合、共享的 BC 策略已经通过直接对动作分布进行建模，隐式地捕获了对话对人类玩家动作分布的影响。

因此，我们开发了相关和共享（CoShar）piKL，它允许对所有玩家共享的联合相关锚定策略进行规范化，而不是针对每个玩家的策略。这样，我们依靠联合锚定策略来捕获所有玩家策略之间的相关性。具体来说，CoShar piKL 与标准 piKL 的不同之处在于，策略 pDt 中联合行动 a = (a1, …, an) 的概率变为

我们发现 CoShar piKL 保留了联合锚定策略 t 中存在的大部分相关性，同时比单独模仿更好地模拟了强大的人类游戏。

我们最终的自我对弈算法的运行方式与 AlphaZero (27) 和 ReBeL (28) 类似，通过应用“循环中”规划作为 RL 的改进算子。在我们的案例中，规划是使用 CoShar piKL 的近似版本。我们生成了自我对弈轨迹，在每个回合中我们使用学习的状态值模型计算 CoShar piKL 策略。我们将联合政策模型回归到该政策，并将价值模型回归到该政策下所有参与者的预期价值。然后，我们从该策略中采样联合行动，以生成轨迹中的下一个状态。锚定策略在整个训练过程中都是固定的，以将 RL 锚定在人类游戏附近（SM，E.4 节）。

5.4 消息过滤

先前的工作表明，神经语言模型存在矛盾和不一致，以及产生“幻觉”或生成实际上不正确的信息的倾向（29）。在复杂的外交领域，对话模型既表现出这些问题，也表现出其他更微妙的错误，例如偏离控制信息的意图或信息的战略内容中的错误。我们通过使用一系列分类器过滤生成的消息并检查以检测常见问题来解决此问题。我们在这里概述了其中几个过滤器，并在 SM 的 D.3 节中提供了更多详细信息。

5.4.1 区分人类文本和反事实

许多工作都使用对抗性或反事实的例子来提高自然语言系统的稳健性 (30, 31)。按照这种方法，我们生成了多种反事实消息，其中包含语言模型容易出现的错误，包括启发式损坏的文本以及模型生成的负数。我们训练了一套 16 个分类器来区分真实的人类消息和不同类型的反事实消息（有时改变可用的随机种子或上下文信息），并在集合中使用这些分类器来过滤消息。这种方法存在过度过滤包含精确计划的复杂消息并接受平淡消息的风险，例如“好的”，这些消息不太可能包含错误。然而，我们发现，精心设计我们的集成使我们能够过滤大多数无意义的消息，同时对消息复杂性的影响最小：在包含 362 个专家注释示例的小型评估集上，我们发现我们可以检测到 83%无意义的消息，对消息多样性没有实质性影响，这是通过消息长度和对外交特定实体的引用数量来衡量的（SM，D.3.1 节）。

5.4.2 意图对应

如前所述，通过意图控制对话生成具有双重好处，即提高消息的战略价值并减少对不可能的举动或其他幻觉的讨论。然而，这种控制是不完美的，对话模型可能会生成与其所条件的意图相矛盾的消息。为了解决这个问题，我们过滤了消息，以减少意图中的操作的可能性。在包含 1013 条专家注释消息的小型测试集上评估此方法，我们实现了 65% 的召回率，过滤了所有消息的 24%（SM，D.3.2 节）。

5.4.3 基于值的过滤

以意图为条件可能会导致“信息泄漏”，即智能体向对手透露有关其计划的不利信息（在游戏过程中选择意图部分）。为了缓解这种情况，我们开发了一种根据潜在消息的估计价值影响对潜在消息进行评分的方法。我们在每条候选消息之后计算所有代理的 piKL 策略，并过滤那些导致 Cicero 执行其预期操作的预期值 (EV) 较低的策略。对 127 个对话场景的专家评估表明，在 62% 的情况下，接受的消息优于过滤的消息 (P < 0.05)（SM，D.3.3 节）。

6. 匿名人类游戏中的西塞罗

2022 年 8 月 19 日至 10 月 13 日，西塞罗匿名参加了 webDiplomacy.net 上“闪电战”联盟的 40 场外交比赛。该联盟以 5 分钟的谈判回合进行；这些时间控制使游戏能够在 2 小时内完成。西塞罗在参加一场以上比赛的球员中排名前 10%，在参加 5 场或以上比赛的 19 名球员中排名第二。在所有 40 场比赛中，西塞罗的平均得分为 25.8%，是 82 名对手平均得分 12.4% 的两倍多。作为联盟的一部分，西塞罗参加了 21 名参赛者参加的 8 场比赛，其中 6 人至少打了 5 场比赛。参赛者最多可以参加六场比赛，排名由他们最好的三场比赛的平均成绩决定。西塞罗在这次比赛中获得第一名。

在游戏过程中，玩家无法看到其他玩家的用户名。尽管 webDiplomacy 通知用户该网站已参与人工智能研究，并且某些游戏模式允许用户与人工智能代理一起玩，但我们在与人类的游戏中评估了西塞罗，其中参与者没有明确告知他们正在与人工智能代理一起玩对于那个特定的游戏。在研究结束时，西塞罗作为 AI 的参与向所有玩家透露（SM，A.4 节）。

7. 讨论

西塞罗成功地将战略推理和对话结合起来，在复杂的任务上与人类合作和谈判，在外交游戏中取得了人类水平的出色表现。此外，西塞罗以人类玩家的身份与 82 名不同的玩家进行了 40 场外交游戏，并且游戏中没有任何消息表明玩家相信他们正在与人工智能代理一起玩。一名球员在赛后聊天中提到，怀疑西塞罗的一个账户可能是机器人，但这并没有导致西塞罗被联盟中的其他球员检测为人工智能代理。

图 6. 成功的对话示例。西塞罗（左）在测试游戏中与本文作者协调和（右）谈判的示例。

图 6 显示了协调和谈判的两个例子。在协调示例中，我们观察到西塞罗通过讨论长期战略来建立联盟。在谈判的例子中，西塞罗通过提出互惠互利的举措，成功地改变了对方的想法。尽管不诚实在外交中很常见，但我们能够通过战略推理模块控制代理的对话，使其在很大程度上诚实并对其说话伙伴有所帮助，从而实现人类水平的表现。

尽管西塞罗在与人类合作方面被证明是有效的，但它偶尔会发送包含基本错误、与其计划相矛盾或在其他方面策略不佳的信息。尽管我们使用一套过滤器减少了错误，但外交为研究这个问题提供了一个有趣的基准。我们怀疑，由于游戏施加的时间压力，以及人类偶尔会犯类似的错误，这些错误并没有引起人们对西塞罗是人工智能代理的进一步怀疑。因此，谈判周期较长的外交形式可能会给未来的工作带来进一步的挑战，因为参与者通常会在这些形式中进行更详细和复杂的谈判。

从战略角度来看，西塞罗纯粹根据玩家当前回合的行动来推理对话。它没有模拟对话如何在游戏的长期过程中影响与其他玩家的关系。考虑到这一点可能会让它更有战略性地部署对话。此外，我们意图表达的表达能力限制了西塞罗控制更丰富的对话可供性的能力，例如战略性地揭示信息、提出问题或为其行为提供解释。有意使用对话仍然存在许多悬而未决的问题，外交提供了一个丰富的测试平台来探索策略和沟通之间的联系，其目标是改善人类和代理人之间的协调。

8. 伦理考虑

我们在 SM 中进一步讨论了本研究的伦理考虑，包括数据使用的隐私考虑（SM，A.1 节）、有毒或有偏见的语言生成造成的潜在危害（SM，A.2 节）、途径滥用目标导向的对话技术（SM，A.3 节），以及人工智能代理向人类玩家披露信息（SM，A.4 节）。

你可能感兴趣的:(论文阅读笔记,Cicero)

【论文阅读笔记】《CodeS: Towards Building Open-source Language Models for Text-to-SQL 》柠石榴 text2sql 论文论文阅读笔记语言模型
文章目录一、论文基本信息1.文章标题2.所属刊物/会议3.发表年份4.作者列表5.发表单位二、摘要三、解决问题四、创新点五、自己的见解和感想六、研究背景七、研究方法模型实验数据评估指标八、总结九、相关重要文献一、论文基本信息1.文章标题CodeS:TowardsBuildingOpen-sourceLanguageModelsforText-to-SQL2.所属刊物/会议未明确标注（会议缩写为“C
【论文阅读笔记】HaDes幻觉检测benchmark zsq 论文分享论文阅读笔记 NLP 大语言模型幻觉
0论文信息题目：AToken-levelReference-freeHallucinationDetectionBenchmarkforFree-formTextGeneration作者：TianyuLiu,YizheZhang,ChrisBrockett,YiMao,ZhifangSui,WeizhuChen,BillDolan会议：ACL，2022链接：https://arxiv.org/ab
论文阅读笔记—— Multi-attentional Deepfake Detection jessIoss 论文阅读笔记DeepFake 论文阅读笔记
文章目录Multi-attentionalDeepfakeDetection背景创新贡献方法注意图正则化的区域独立性损失注意力引导的数据增强实验Multi-attentionalDeepfakeDetection来源：CVPR2021作者：HanqingZhao1WenboZhou1,†DongdongChen2TianyiWei1WeimingZhang1,†NenghaiYu1单位：Unive
[论文阅读笔记] Learning Transferable Visual Models From Natural Language Supervision Heartache Doctor 笔记论文阅读笔记
Abstract将LLM带来的语言zero-shot能力扩展到图像领域，让图像pretrain不再局限于由数据集定义的类别，从而大幅度提升在downstream任务zero-shot的精度。文章提供了从零预训练的CLIP模型，用以训练的大数据集，以及基于对比学习的对齐方案。IntroductionNLP领域下，使用大量数据pretrain>使用高质量标注数据集。→\rightarrow→CV是否也
GLIDE论文阅读笔记与DDPM（Diffusion model）的原理推导大写-凌祁论文阅读笔记人工智能深度学习 python 机器学习计算机视觉
Abstract扩散模型（Diffusionmodel）最近被证明可以生成高质量的合成图像，尤其是当它们与某种引导技术结合使用时，可以在生成结果的多样性与保真度之间进行权衡。本文探讨了在文本条件图像生成任务中使用扩散模型，并比较了两种不同的引导策略：CLIP引导和无分类器引导。我们发现，人类评估者更倾向于使用无分类器引导方法，无论是在照片真实感还是与文本描述的匹配度方面，该方法通常都能生成具有高度
论文阅读笔记——FLOW MATCHING FOR GENERATIVE MODELING 寻丶幽风 Background 论文阅读笔记流匹配扩散模型人工智能
FlowMatching论文扩散模型：根据中心极限定理，对原始图像不断加高斯噪声，最终将原始信号破坏为近似的标准正态分布。这其中每一步都构造为条件高斯分布，形成离散的马尔科夫链。再通过逐步去噪得到原始图像。Flowmatching采取直接将已知分布（如白噪声）转换为真实数据分布来生成数据，并且Flow是基于NormalizingFlow，故而是可微双射。生成过程中变化的概率密度构成一个集合，称为概
论文阅读笔记——Step1X-Edit: A Practical Framework for General Image Editing 寻丶幽风论文阅读笔记论文阅读笔记理解生成模型多模态人工智能
Step1X-Edit论文当前图像编辑数据集规模小，质量差，由此构建了如下数据构造管线。高质量三元组数据（源图像、编辑指令、目标图像）。主体添加与移除：使用Florence-2对专有数据集标注，然后使用SAM2进行分割，再使用ObjectRemovalAlpha进行修复。编辑指令结合Step-1o和GPT-4o生成，然后人工审查有效性。主体替换与背景更改：使用Florence-2对专有数据集标注，
论文阅读笔记——Nexus-Gen: A Unified Model for Image Understanding, Generation, and Editing 寻丶幽风论文阅读笔记论文阅读笔记多模态理解生成自回归扩散模型
Nexus-Gen论文Nexus-Gen采用预测图像嵌入作为中间条件，链接自回归模型和扩散模型，通过预填充自回归避免嵌入误差传播，突破传统外界LLM因条件压缩导致信息丢失，提高理解生成模型在理解任务和生成任务上的性能表现。传统的图像生成任务往往局限于Text-to-Image场景，模型侧重于图像质量或局部内容填充。而Nexus-Gen的架构设计突破了这一范式，不仅具备高质量图像生成能力，还可以执行
论文阅读笔记——PixArt-α，PixArt-δ 寻丶幽风论文阅读笔记论文阅读笔记 T2I 扩散模型文生图
PixArt-αPixArt-α论文仅使用28400美元，28M训练数据，训练时长为SD1.5的10.8%，只有0.6B参数量，达到接近商业应用的水准。现有数据集存在的缺陷：图文匹配偏差、描述信息不完整、词汇多样性不足（长尾效应显著）、低质量数据。为了实现低成本训练，华为采用了三阶段的训练策略：第一个阶段是学习像素依赖关系，简单来说是先学习生成真实的图像，这里是用ImageNet数据集训练一个基于
《XMK-CKKS: Extended Multiple Key Homomorphic Encryption over CKKS》论文阅读笔记 stupidyccc 同态加密论文阅读笔记安全
《XMK-CKKS:ExtendedMultipleKeyHomomorphicEncryptionoverCKKS》中科院2区总结提出了xMK-CKKS,一种多密钥同态方案。客户端使用聚合公钥加密梯度，解密的时候需要所有客户端提供解密份额，协助服务器解密总和。基于FadAvg和XMK-CKKS提出一个ppfl模型。在半诚实模型下可以防止n-1个客户端和服务器的勾结。xMK-CKKS###setu
Adversarial examples based on object detection tasks: A survey》论文阅读笔记 2301_80355452 目标检测论文阅读笔记
这是一篇关于目标检测任务中对抗样本攻击的综述论文。文章介绍了深度学习在计算机中的应用，以及对抗样本攻击的相关概念和方法，其中重点讨论了目标检测任务中基于分类和回归的对抗样本攻击，并对其他相关攻击方法进行了总结，最后得出结论并展望未来研究方向。1.引言深度学习背景：深度学习在处理图像或视频数据方面具有优势，广泛应用于计算机视觉任务，但由于深度网络的复杂结构，其存在脆弱性，容易受到攻击。目标检测任务：
论文阅读笔记—— AdvFilter: Predictive Perturbation-aware Filtering against Adversarial Attack via Multi-d L jessIoss 论文阅读笔记DeepFake 论文阅读笔记
文章目录AdvFilter:PredictivePerturbation-awareFilteringagainstAdversarialAttackviaMulti-domainLearning背景贡献相关工作对抗性去噪防御对抗性训练防御其他对抗性防御方法一般图像去噪创新公式方法多域学习实验AdvFilter:PredictivePerturbation-awareFilteringagains
【论文阅读笔记】Attention Is All You Need 时光机ﾟ论文阅读笔记
论文小结这是17年的老论文了，Transformer的出处，刚发布时的应用场景是文字翻译。BLUE是机器翻译任务中常用的一个衡量标准。在此论文之前，序列翻译的主导模型是RNN或者使用编解码器结构的CNN。本文提出的Transformer结构不需要使用循环和卷积结构，是完全基于注意力机制的模型。Transformer在序列转换上具有高并行度，在两个机器翻译的任务上都得到了卓越的成果，且其训练
论文阅读笔记——MAGICDRIVE: STREET VIEW GENERATION WITH DIVERSE 3D GEOMETRY CONTROL 寻丶幽风论文阅读笔记论文阅读笔记 3d 人工智能自动驾驶
MagicDrive论文MagicDrive通过对3D数据和文本数据的多模态条件融合和隐式视角转换，实现了高质量、多视角一致的3D场景生成。几何条件编码Cross-attention：针对顺序数据，适合处理文本标记和边界框等可变长度输入。Additiveencoderbranch：对于地图等网络状规则数据，能够有效保留空间结构。对于文本按照模版构建：“Adrivingsceneat{locatio
GS-SLAM论文阅读笔记-MGSO zenpluck GS论文阅读论文阅读笔记
前言MGSO首字母缩略词是直接稀疏里程计(DSO)，我们建立的光度SLAM系统和高斯飞溅(GS)的混合。这应该是第一个前端用DSO的高斯SLAM，不知道这个系统的组合能不能打得过ORB-SLAM3，以及对DSO会做出怎么样的改进以适应高斯地图，接下来就看一下吧！GishelloG^s_ihelloGishello我是红色文章目录前言1.背景介绍2.关键内容2.1SLAMmodule2.2Dense
论文阅读笔记——QLORA: Efficient Finetuning of Quantized LLMs 寻丶幽风论文阅读笔记论文阅读笔记人工智能深度学习语言模型
QLoRA论文4-bit标准浮点数量化常见的量化技术是最大绝对值量化：XInt8=round(127absmax(XFP32)XFP32)=round(cFP32,XFP32)式(1)X^{Int8}=round(\frac{127}{absmax(X^{FP32})}X^{FP32})=round(c^{FP32},X^{FP32})\qquad\qquad\text{式(1)}XInt8=ro
论文阅读笔记：Graph Matching Networks for Learning the Similarity of Graph Structured Objects 游离态GLZ不可能是金融技术宅知识图谱机器学习深度学习人工智能
论文做的是用于图匹配的神经网络研究，作者做出了两点贡献:证明GNN可以经过训练，产生嵌入graph-leve的向量可以用于相似性计算。作者提出了一种新的基于注意力的跨图匹配机制GMN(cross-graphattention-basedmatchingmechanism)，来计算出一对图之间的相似度评分。（核心创新点）论文证明了该模型在不同领域的有效性，包括具有挑战性的基于控制流图(control
论文阅读笔记——π0: A Vision-Language-Action Flow Model for General Robot Control 寻丶幽风论文阅读笔记论文阅读笔记人工智能机器人语言模型
π0论文π0π_0π0是基于预训练的VLM模型增加了actionexpert，并结合了flowmatching方法训练的自回归模型，能够直接输出模型的actionchunk（50）。π0采用FlowMatching技术来建模连续动作的分布，这一创新使模型能够精确控制高频率的灵巧操作任务，同时具备处理多模态数据的能力。架构受到Transfusion的启发：通过单一Transformer处理多目标任务
论文阅读笔记——Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware 寻丶幽风论文阅读笔记论文阅读笔记人工智能深度学习机器人
ALOHA论文ALOHA解决了策略中的错误可能随时间累积，且人类演示可能是非平稳的，提出了ACT（ActionChunkingwithTransformers）方法。ActionChunking模仿学习中，compoundingerror是致使任务失败的主要原因。具体来说，当智能体（agent）在测试时遇到训练集中未见过的情况时，可能会产生预测误差。这些误差会逐步累积，导致智能体进入未知状态，最终
Self-Attentive Sequential Recommendation论文阅读笔记调包调参侠推荐系统学习深度学习机器学习神经网络算法
SASRec论文阅读笔记论文标题：Self-AttentiveSequentialRecommendation发表于：2018ICDM作者：Wang-ChengKang,JulianMcAuley论文代码：https://github.com/pmixer/SASRec.pytorch论文地址：https://arxiv.org/pdf/1808.09781v1.pdf摘要顺序动态是许多现代推荐系
论文阅读笔记2 sixfrogs 论文阅读笔记论文阅读 cnn
OptimizingMemoryEfficiencyforDeepConvolutionalNeuralNetworksonGPUs1论文简介作者研究了CNN各层的访存效率，并揭示了数据结构和访存模式对CNN的性能影响。并提出了优化方法。2方法介绍2.1Benchmarks数据集：MNIST，CIFAR，ImageNetCNN：AlexNet，ZFNet，VGG2.2实验设置CPU：IntelXe
大模型隐空间推理论文阅读笔记猴猴猪猪 AIGC python 实验记录人工智能深度学习
文章目录TrainingLargeLanguageModelstoReasoninaContinuousLatentSpace一.简介1.1摘要1.2引言TrainingLargeLanguageModelstoReasoninaContinuousLatentSpace一.简介机构：Meta代码：任务:特点:方法:1.1摘要现状：大语言模型往往局限在“languagespace"进行推理，在解决
【网安AIGC专题】46篇前沿代码大模型论文、24篇论文阅读笔记汇总_大模型在代码缺陷检测领域的应用实践(1) 2401_84972910 程序员 AIGC 论文阅读笔记
欢迎一起踏上探险之旅，挖掘无限可能，共同成长！写在最前面本文为邹德清教授的《网络安全专题》课堂笔记系列的文章，本次专题主题为大模型。本系列文章不仅涵盖了46篇关于前沿代码大模型的论文，还包含了24篇深度论文阅读笔记，全面覆盖了代码生成、漏洞检测、程序修复、生成测试等多个应用方向，深刻展示了这些技术如何在网络安全领域中起到革命性作用。同时，本系列还细致地介绍了大模型技术的基础架构、增强策略、关键数据
论文阅读笔记——Prediction with Action: Visual Policy Learning via Joint Denoising Process 寻丶幽风论文阅读笔记论文阅读笔记人工智能
以前的method是输入视频输出视频或者输入视频和action学习action，该方法认为action，video和othercondition具有一定联系，所以一次性对所有的进行jointdenoise。网络结构采用MaskedMulti-headAttention关联不同模态，使用DiT的backbone。
深度学习重要论文阅读笔记 ResNet （2025.2.26）北岛寒沫逐界星辰2025 计算机科研深度学习论文阅读笔记
文章目录问题背景数据预处理神经网络模型模型性能知识点积累英语单词积累问题背景随着神经网络变得更深（层数变多），模型的训练过程也会变得更加困难。当神经网络的深度增加，就会出现梯度消失和梯度下降现象，妨碍模型的收敛。不过，这种情况可以通过归一化的模型初始化和中间的归一化层基本解决。但是，尽管在增加了归一化技术的情况下很深的神经网络可以收敛，又出现了另外一个问题，即随着模型深度的增加，模型的准确率反而下
论文阅读笔记1——DARTS：Differentiable Architecture Search可微分架构搜索（一）（论文翻译学习） fuhao7i 论文阅读笔记深度学习人工智能机器学习算法计算机视觉
DARTS：DifferentiableArchitectureSearch可微分架构搜索（一）DARTS：DifferentiableArchitectureSearch（一）ABSTRACT摘要1.INTRODUCTION介绍2.可微的结构搜索加油加油！如果你感觉你现在很累，那么恭喜你，你现在正在走上坡路！让我们一起加油！欢迎关注我的讲解视频，让我们一起学习：Bilibili主页：https:
【CCM-SLAM论文阅读笔记】随机取名字协同SLAM论文阅读 slam
CCM-SLAM论文阅读笔记整体框架结构如图所示：单智能体只负责采集图像数据，运行实时视觉里程计VO以估计当前位姿和环境地图，由于单智能体计算资源有限，负责生成的局部地图只包含当前N个最近的关键帧。服务器负责地图管理、地点识别、地图融合和全局BA优化。所有局部地图使用本地里程计框架，地图信息在从一个本地里程计到另一个本地里程计框架的相对坐标中进行交换。CCM-SLAM不假设任何关于智能体初始位置的
【论文阅读笔记|EMNLP2023】DemoSG: Demonstration-enhanced Schema-guided Generation for Low-resource Event Ext Rose sait 论文阅读笔记
论文题目：DemoSG:Demonstration-enhancedSchema-guidedGenerationforLow-resourceEventExtraction论文来源：EMNLP2023论文链接：2023.findings-emnlp.121.pdf(aclanthology.org)代码链接：https://github.com/GangZhao98/DemoSG0摘要当前大多数
神经网络压缩实验-Deep-compression 无用技术研究所
首发于个人博客，结合论文阅读笔记更佳实验准备基础网络搭建为了实现神经网络的deepcompression，首先要训练一个深度神经网络，为了方便实现，这里实现一个两层卷积+两层MLP的神经网络classnet(pt.nn.Module):def__init__(self):super(net,self).__init__()self.conv1=pt.nn.Conv2d(in_channels=1,
论文阅读笔记（9）——《A Practical Survey on Faster and Lighter Transformers》 StriveQueen 自然语言处理机器学习论文阅读笔记算法神经网络机器学习 Transformer
1Abstract2Introductionrecurrentneuralnetworks(RNNs)longshort-termmemory(LSTM)networksequencetosequenceframeworkinter-attentionrelativeeffectivecontextlength(RECL)Transformer3TransformerA.EncoderB.Deco
redis学习笔记——不仅仅是存取数据 Everyday都不同 returnSource expire/del incr/lpush 数据库分区 redis
最近项目中用到比较多redis，感觉之前对它一直局限于get/set数据的层面。其实作为一个强大的NoSql数据库产品，如果好好利用它，会带来很多意想不到的效果。（因为我搞java，所以就从jedis的角度来补充一点东西吧。PS：不一定全，只是个人理解，不喜勿喷） 1、关于JedisPool.returnSource(Jedis jeids) 这个方法是从red
SQL性能优化-持续更新中。。。。。。 atongyeye oracle sql
1 通过ROWID访问表--索引你可以采用基于ROWID的访问方式情况,提高访问表的效率, , ROWID包含了表中记录的物理位置信息..ORACLE采用索引(INDEX)实现了数据和存放数据的物理位置(ROWID)之间的联系. 通常索引提供了快速访问ROWID的方法,因此那些基于索引列的查询就可以得到性能上的提高. 2 共享SQL语句--相同的sql放入缓存 3 选择最有效率的表
[JAVA语言]JAVA虚拟机对底层硬件的操控还不完善 comsci JAVA虚拟机
如果我们用汇编语言编写一个直接读写CPU寄存器的代码段，然后利用这个代码段去控制被操作系统屏蔽的硬件资源，这对于JVM虚拟机显然是不合法的，对操作系统来讲，这样也是不合法的，但是如果是一个工程项目的确需要这样做，合同已经签了，我们又不能够这样做，怎么办呢？那么一个精通汇编语言的那种X客，是否在这个时候就会发生某种至关重要的作用呢？ &n
lvs- real 男人50 LVS
#!/bin/bash # # Script to start LVS DR real server. # description: LVS DR real server # #. /etc/rc.d/init.d/functions VIP=10.10.6.252 host='/bin/hostname' case "$1" in sta
生成公钥和私钥 oloz DSA 安全加密
package com.msserver.core.util; import java.security.KeyPair; import java.security.PrivateKey; import java.security.PublicKey; import java.security.SecureRandom; public class SecurityUtil {
UIView 中加入的cocos2d，背景透明 374016526 cocos2d glClearColor
要点是首先pixelFormat:kEAGLColorFormatRGBA8，必须有alpha层才能透明。然后view设置为透明glView.opaque = NO;[director setOpenGLView:glView];[self.viewController.view setBackgroundColor:[UIColor clearColor]];[self.viewControll
mysql常用命令香水浓 mysql
连接数据库 mysql -u troy -ptroy 备份表 mysqldump -u troy -ptroy mm_database mm_user_tbl > user.sql 恢复表（与恢复数据库命令相同） mysql -u troy -ptroy mm_database < user.sql 备份数据库 mysqldump -u troy -ptroy
我的架构经验系列文章 - 后端架构 - 系统层面 agevs JavaScript jquery css html5
系统层面：高可用性所谓高可用性也就是通过避免单独故障加上快速故障转移实现一旦某台物理服务器出现故障能实现故障快速恢复。一般来说，可以采用两种方式，如果可以做业务可以做负载均衡则通过负载均衡实现集群，然后针对每一台服务器进行监控，一旦发生故障则从集群中移除；如果业务只能有单点入口那么可以通过实现Standby机加上虚拟IP机制，实现Active机在出现故障之后虚拟IP转移到Standby的快速
利用ant进行远程tomcat部署 aijuans tomcat
在javaEE项目中，需要将工程部署到远程服务器上，如果部署的频率比较高，手动部署的方式就比较麻烦，可以利用Ant工具实现快捷的部署。这篇博文详细介绍了ant配置的步骤（http://www.cnblogs.com/GloriousOnion/archive/2012/12/18/2822817.html），但是在tomcat7以上不适用，需要修改配置，具体如下： 1.配置tomcat的用户角色
获取复利总收入 baalwolf 获取
public static void main(String args[]){ int money=200; int year=1; double rate=0.1; &
eclipse.ini解释 BigBird2012 eclipse
大多数java开发者使用的都是eclipse，今天感兴趣去eclipse官网搜了一下eclipse.ini的配置，供大家参考，我会把关键的部分给大家用中文解释一下。还是推荐有问题不会直接搜谷歌，看官方文档，这样我们会知道问题的真面目是什么，对问题也有一个全面清晰的认识。 Overview 1、Eclipse.ini的作用 Eclipse startup is controlled by th
AngularJS实现分页功能 bijian1013 JavaScript AngularJS 分页
对于大多数web应用来说显示项目列表是一种很常见的任务。通常情况下，我们的数据会比较多，无法很好地显示在单个页面中。在这种情况下，我们需要把数据以页的方式来展示，同时带有转到上一页和下一页的功能。既然在整个应用中这是一种很常见的需求，那么把这一功能抽象成一个通用的、可复用的分页（Paginator）服务是很有意义的。 &nbs
[Maven学习笔记三]Maven archetype bit1129 ArcheType
archetype的英文意思是原型，Maven archetype表示创建Maven模块的模版，比如创建web项目，创建Spring项目等等. mvn archetype提供了一种命令行交互式创建Maven项目或者模块的方式， mvn archetype 1.在LearnMaven-ch03目录下，执行命令mvn archetype:gener
【Java命令三】jps bit1129 Java命令
jps很简单，用于显示当前运行的Java进程，也可以连接到远程服务器去查看 [hadoop@hadoop bin]$ jps -help usage: jps [-help] jps [-q] [-mlvV] [<hostid>] Definitions: <hostid>: <hostname>[:
ZABBIX2.2 2.4 等各版本之间的兼容性 ronin47
zabbix更新很快，从2009年到现在已经更新多个版本，为了使用更多zabbix的新特性，随之而来的便是升级版本，zabbix版本兼容性是必须优先考虑的一点客户端AGENT兼容 zabbix1.x到zabbix2.x的所有agent都兼容zabbix server2.4：如果你升级zabbix server，客户端是可以不做任何改变，除非你想使用agent的一些新特性。 Zabbix代理（p
unity 3d还是cocos2dx哪个适合游戏？ brotherlamp unity自学 unity教程 unity视频 unity资料 unity
unity 3d还是cocos2dx哪个适合游戏？问：unity 3d还是cocos2dx哪个适合游戏？答：首先目前来看unity视频教程因为是3d引擎，目前对2d支持并不完善，unity 3d 目前做2d普遍两种思路，一种是正交相机，3d画面2d视角，另一种是通过一些插件，动态创建mesh来绘制图形单元目前用的较多的是2d toolkit，ex2d，smooth moves，sm2，
百度笔试题：一个已经排序好的很大的数组，现在给它划分成m段，每段长度不定，段长最长为k，然后段内打乱顺序，请设计一个算法对其进行重新排序 bylijinnan java 算法面试百度招聘
import java.util.Arrays; /** * 最早是在陈利人老师的微博看到这道题： * #面试题#An array with n elements which is K most sorted，就是每个element的初始位置和它最终的排序后的位置的距离不超过常数K * 设计一个排序算法。It should be faster than O(n*lgn)。
获取checkbox复选框的值 chiangfai checkbox
<title>CheckBox</title> <script type = "text/javascript"> doGetVal: function doGetVal() { //var fruitName = document.getElementById("apple").value;//根据
MySQLdb用户指南 chenchao051 mysqldb
原网页被墙，放这里备用。 MySQLdb User's Guide Contents Introduction Installation _mysql MySQL C API translation MySQL C API function mapping Some _mysql examples MySQLdb
HIVE 窗口及分析函数 daizj hive 窗口函数分析函数
窗口函数应用场景：（1）用于分区排序（2）动态Group By （3）Top N （4）累计计算（5）层次查询一、分析函数用于等级、百分点、n分片等。函数说明 RANK() &nbs
PHP ZipArchive 实现压缩解压Zip文件 dcj3sjt126com PHP zip
PHP ZipArchive 是PHP自带的扩展类，可以轻松实现ZIP文件的压缩和解压，使用前首先要确保PHP ZIP 扩展已经开启，具体开启方法就不说了，不同的平台开启PHP扩增的方法网上都有，如有疑问欢迎交流。这里整理一下常用的示例供参考。一、解压缩zip文件 01 02 03 04 05 06 07 08 09 10 11
精彩英语贺词 dcj3sjt126com 英语
I'm always here 我会一直在这里支持你 &nb
基于Java注解的Spring的IoC功能 e200702084 java spring bean IOC Office
java模拟post请求 geeksun java
一般API接收客户端（比如网页、APP或其他应用服务）的请求，但在测试时需要模拟来自外界的请求，经探索，使用HttpComponentshttpClient可模拟Post提交请求。此处用HttpComponents的httpclient来完成使命。 import org.apache.http.HttpEntity ; import org.apache.http.HttpRespon
Swift语法之 ---- ?和!区别 hongtoushizi ?swift !
转载自： http://blog.sina.com.cn/s/blog_71715bf80102ux3v.html Swift语言使用var定义变量，但和别的语言不同，Swift里不会自动给变量赋初始值，也就是说变量不会有默认值，所以要求使用变量之前必须要对其初始化。如果在使用变量之前不进行初始化就会报错： var stringValue : String //
centos7安装jdk1.7 jisonami jdk centos
安装JDK1.7 步骤1、解压tar包在当前目录 [root@localhost usr]#tar -xzvf jdk-7u75-linux-x64.tar.gz 步骤2：配置环境变量在etc/profile文件下添加 export JAVA_HOME=/usr/java/jdk1.7.0_75 export CLASSPATH=/usr/java/jdk1.7.0_75/lib
数据源架构模式之数据映射器 home198979 PHP 架构数据映射器 datamapper
前面分别介绍了数据源架构模式之表数据入口、数据源架构模式之行和数据入口数据源架构模式之活动记录，相较于这三种数据源架构模式，数据映射器显得更加“高大上”。一、概念数据映射器（Data Mapper）：在保持对象和数据库（以及映射器本身）彼此独立的情况下，在二者之间移动数据的一个映射器层。概念永远都是抽象的，简单的说，数据映射器就是一个负责将数据映射到对象的类数据。 &nb
在Python中使用MYSQL pda158 mysql python
缘由　　近期在折腾一个小东西须要抓取网上的页面。然后进行解析。将结果放到数据库中。　　了解到 Python在这方面有优势，便选用之。　　由于我有台 server上面安装有 mysql，自然使用之。在进行数据库的这个操作过程中遇到了不少问题，这里记录一下，大家共勉。　　 python中mysql的调用　　百度之后能够通过MySQLdb进行数据库操作。
单例模式 hxl1988_0311 java 单例设计模式单件
package com.sosop.designpattern.singleton; /* * 单件模式：保证一个类必须只有一个实例，并提供全局的访问点 * * 所以单例模式必须有私有的构造器，没有私有构造器根本不用谈单件 * * 必须考虑到并发情况下创建了多个实例对象 * */ /** * 虽然有锁，但是只在第一次创建对象的时候加锁，并发时不会存在效率
27种迹象显示你应该辞掉程序员的工作 vipshichg 工作
1、你仍然在等待老板在2010年答应的要提拔你的暗示。 2、你的上级近10年没有开发过任何代码。 3、老板假装懂你说的这些技术，但实际上他完全不知道你在说什么。 4、你干完的项目6个月后才部署到现场服务器上。 5、时不时的，老板在检查你刚刚完成的工作时，要求按新想法重新开发。 6、而最终这个软件只有12个用户。 7、时间全浪费在办公室政治中，而不是用在开发好的软件上。 8、部署前5分钟才开始测试。