昵称4

伯克利开源工具库RLib现已支持大规模多智能体强化学习

\u003cp\u003e\u003cstrong\u003eAI前线导读\u003c/strong\u003e：近日，UC伯克利的研究团队RISELab在其Github的项目Ray Rlib 0.6.0中添加了面向多智能体强化学习（multi-agent Reinforcement Learning）的支持。本文由团队成员Eric Liang首发于RISELab团队主页，AI前线翻译整理。本文主要是关于多智能体强化学习的简明教程，以及在RLib中的设计思路。\u003c/p\u003e\n\u003ch2\u003e为什么要使用多智能体强化学习？\u003c/h2\u003e\n\u003cp\u003e研究人员发现，在实际的强化学习设置中，很多问题都讨论到使用多智能体学习是否有意义。在特定的环境中，与训练单一策略的方案相比，多智能体方案能提供以下优点：\u003c/p\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e对问题的分解更具有可解释性\u003c/strong\u003e。举个例子，假设现在需要在城市环境中训练\u003ca href=\"https://ieeexplore.ieee.org/document/1032000\"\u003e蜂窝天线仰角控制\u003c/a\u003e的策略。一种方案是训练一个“超级智能体”在城市中控制所有的蜂窝天线，另一种方案是将每个天线建模成分离的智能体，后者显然更加合理。因为只有相邻的天线和用户观测到的天线需要彼此互联，而其他个体之间则不需要复杂的响应机制。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e对于可扩展性的潜力：\u003c/strong\u003e首先，将一个庞大的、复杂的单一智能体分解为多个简单的智能体不仅可以减少输入和输出的维度，同时也可以有效的增加每次迭代过程中训练数据的输入数量。其次，对每个智能体的操作和观测空间进行分区，可以起到与\u003ca href=\"https://www.sciencedirect.com/science/article/pii/S0004370299000521\"\u003e时域抽象方法\u003c/a\u003e类似的作用，该方法成功地在单智能体策略中\u003ca href=\"https://arxiv.org/pdf/1604.06057.pdf\"\u003e提高\u003c/a\u003e了学习效率。相对地，类似的分级方法可以显式地实现为多智能体系统。最后，好的分解策略可以对环境变化具有更好的鲁棒性，例如，单一的超智能体很容易对某个特定环境产生过拟合。\u003c/li\u003e\n\u003c/ul\u003e\n\u003cp\u003e\u003cimg src=\"https://static.geekbang.org/infoq/5c089df3d8211.png\" alt=\"image\" /\u003e\u003c/p\u003e\n\u003ccenter\u003e图 1：单智能体方法（a）和（b）与多智能体强化学习（c）。\u003c/center\u003e\n\u003cp\u003e\u003cstrong\u003e一些多智能体应用的例子：\u003c/strong\u003e\u003c/p\u003e\n\u003cp\u003e\u003ca href=\"https://flow-project.github.io/\"\u003e减少交通拥堵\u003c/a\u003e：事实证明，\u003ca href=\"https://flow-project.github.io/gallery.html\"\u003e智能化控制\u003c/a\u003e少数自动驾驶车辆的速度，我们可以大幅增加交通流量。多智能体是这种自动化策略的基础，因为在\u003ca href=\"https://flow-project.github.io/index.html\"\u003e混合自动化\u003c/a\u003e系统中，将交通信号灯和车辆建模为单个智能体是不现实的，因为这需要在一个广泛区域内的所有智能体之间同步所有的观测值和行为。\u003c/p\u003e\n\u003cp\u003e\u003cimg src=\"https://static.geekbang.org/infoq/5c089df94e177.png\" alt=\"image\" /\u003e\u003c/p\u003e\n\u003ccenter\u003e图 2：\u003ca href=\"https://flow-project.github.io/\"\u003e交通流量模拟\u003c/a\u003e，上图为没有自动驾驶车辆的情况，下图为有自动驾驶车辆的情况。\u003c/center\u003e\n\u003cp\u003e\u003ca href=\"https://www.kt.tu-darmstadt.de/media/kt/publikationen_1/10/17/WPC_16_Dandanov.pdf\"\u003e天线仰角控制\u003c/a\u003e：可以根据本地环境的用户分布和拓扑结构来优化蜂窝基站的联合配置。每个基站可以被建模为覆盖城市的多个智能体之一。\u003c/p\u003e\n\u003cp\u003e\u003cimg src=\"https://static.geekbang.org/infoq/5c089df453219.png\" alt=\"image\" /\u003e\u003c/p\u003e\n\u003ccenter\u003e图 3：天线仰角控制系统\u003c/center\u003e\n\u003cp\u003e\u003ca href=\"https://blog.openai.com/openai-five/\"\u003eOpenAI Five\u003c/a\u003e：Dota 2 AI智能体经过训练，可以相互协调并与人类对抗。五个AI玩家中的每一个都作为单独的神经网络策略实施，并与大规模PPO一起训练。\u003c/p\u003e\n\u003cp\u003e\u003cimg src=\"https://static.geekbang.org/infoq/5c089df70e746.png\" alt=\"image\" /\u003e\u003c/p\u003e\n\u003ccenter\u003e图 4：电脑玩家进行Dota 2游戏\u003c/center\u003e\n\u003ch2\u003e介绍RLib中的多智能体支持\u003c/h2\u003e\n\u003cp\u003e本文主要针对\u003ca href=\"https://ray.readthedocs.io/en/latest/rllib.html\"\u003eRLib\u003c/a\u003e中的通用多智能体支持进行介绍，包括与Rlib中的大多数\u003ca href=\"https://ray.readthedocs.io/en/latest/rllib.html#algorithms\"\u003e分布式算法\u003c/a\u003e（A2C/A3C、PPO、IMPALA、DQN、DDPG和Ape-X）的兼容性介绍。本文还讨论了多智能体强化学习面临的挑战，并展示了如何使用现有算法训练多智能体策略，同时还提供了针对非平稳环境和环境变化较多情况下的\u003cstrong\u003e特定算法\u003c/strong\u003e的实现。\u003c/p\u003e\n\u003cp\u003e由于当前可供使用的多智能体强化学习库几乎没有，这就增加了基于多智能体方法的实验成本。在科研和应用两个领域中，RLib希望减少从单智能体模式转为多智能体模式的矛盾并简化转变过程。\u003c/p\u003e\n\u003ch2\u003e为什么支持多智能体很困难\u003c/h2\u003e\n\u003cp\u003e为类似强化学习这种快速发展的领域开发软件是极具挑战性的，多智能体强化学习更甚之。这一工作的难点主要是针对处理多智能体学习中出现的核心问题的技术。\u003c/p\u003e\n\u003cp\u003e举个例子：非平稳环境。在下图中，红色智能体的目标是学习如何调节整个交通流的速度。蓝色智能体则只学习如何最小化它自己的行进时间。红色智能体可以通过简单地以所需速度驾驶来实现其目标。然而，在多智能体环境中，其他智能体将会学习如何达到其目标——例如蓝色智能体通过绕行以缩短其时间。这是有问题的，因为从单智能体的视角来看（例如图中红色智能体），蓝色智能体也是“环境的一部分”。事实上，从单智能体视角来看，环境的动态变化违反了马尔可夫假设，而在\u003ca href=\"https://en.wikipedia.org/wiki/Q-learning\"\u003eQ-learning\u003c/a\u003e算法例如\u003ca href=\"https://ray.readthedocs.io/en/latest/rllib-algorithms.html#deep-q-networks-dqn-rainbow\"\u003eDQN\u003c/a\u003e中，这是整个算法设计的前提。\u003c/p\u003e\n\u003cp\u003e\u003cimg src=\"https://static.geekbang.org/infoq/5c089df364e9f.png\" alt=\"image\" /\u003e\u003c/p\u003e\n\u003ccenter\u003e图 5：环境中的非平稳过程：最开始在（a）中，红色智能体通过减速来控制整个交通流的速度。然而，紧接着蓝色智能体会学习绕过红色智能体（b），这时，红色智能体的处理机制将无法有效的应对当前环境。\u003c/center\u003e\n\u003cp\u003e针对上述情况，很多算法被提出，例如LOLA、RIAL和Q-MIX。从高层面讲，强化学习模型的训练过程中，这些算法会考虑其他智能体的行为。通常是在训练阶段部分集中化，在执行阶段分散化处理。在实现方面，这意味着策略网络之间是彼此依赖的，例如，Q-MIX算法中的网络混合：\u003c/p\u003e\n\u003cp\u003e\u003cimg src=\"https://static.geekbang.org/infoq/5c089df51e926.png\" alt=\"image\" /\u003e\u003c/p\u003e\n\u003ccenter\u003e图 6：Q-MIX混合网络结构，具体可参考：\u003ca href=\"https://arxiv.org/abs/1803.11485\"\u003eQMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning\u003c/a\u003e。独立的Q-估测通过单调的混合网络进行累积，从而高效地进行最终行为的计算。\u003c/center\u003e\n\u003cp\u003e类似地，基于梯度策略的算法例如A3C和PPO等，可能无法兼容多智能体配置。因为随着智能体数量的增加，置信度评价将变得越来越困难。考虑下图中这种多智能体的所处的情况。可以看出，随着智能体数量的增加，对智能体的激励与其行为的相关性将会越来越小。此时，交通速度已经降为了0，但是智能体并不能作出正确的响应以打破僵局。\u003c/p\u003e\n\u003cp\u003e\u003cimg src=\"https://static.geekbang.org/infoq/5c089df60bcbf.png\" alt=\"image\" /\u003e\u003c/p\u003e\n\u003ccenter\u003e图 7：复杂情况下的优势估测：在上图的交通阻塞情况中，难以判断哪个智能体是主要原因，在阻塞情况被解决后，同样无法确定应当给哪个智能体分配更高的置信度。\u003c/center\u003e\n\u003cp\u003e一类方法通过中心化值函数（如图8中的“Q”框）来模拟其他智能体对环境中的影响，MA-DDPG则使用了这种方法。直观地讲，通过统计其他智能体的行为，可以有效减少对每个智能体进行优势估计时的变化性。\u003c/p\u003e\n\u003cp\u003e\u003cimg src=\"https://static.geekbang.org/infoq/5c089df69b309.png\" alt=\"image\" /\u003e\u003c/p\u003e\n\u003ccenter\u003e图 8：MA-DDPG基本框架，选自\u003ca href=\"https://arxiv.org/abs/1706.02275\"\u003eMulti-Agent Actor-Critic for Mixed Cooperative-Competitive Environments\u003c/a\u003e。在执行阶段，仅使用局部信息，但在训练阶段需要使用全局信息进行优化。\u003c/center\u003e\n\u003cp\u003e到这里，本文已经介绍了研究多智能体强化学习所面临的两大挑战与解决策略。在很多情况下，使用单智能体强化学习算法训练多智能策略可以取得不错的结果。例如，OpenAI Five就是利用了大规模\u003ca href=\"https://ray.readthedocs.io/en/latest/rllib-algorithms.html#proximal-policy-optimization-ppo\"\u003ePPO\u003c/a\u003e和\u003ca href=\"https://neuro.cs.ut.ee/the-use-of-embeddings-in-openai-five/\"\u003e特殊化网络模型\u003c/a\u003e的组合。\u003c/p\u003e\n\u003ch2\u003e在RLib中训练多智能体\u003c/h2\u003e\n\u003cp\u003e那么，在多智能体设置中如何使用特殊化算法与单智能体强化学习？RLib为此设计了简单易行的\u003ca href=\"https://ray.readthedocs.io/en/latest/rllib-concepts.html\"\u003e方法\u003c/a\u003e。相关细则如下：\u003c/p\u003e\n\u003cul\u003e\n\u003cli\u003e\n\u003cp\u003e策略被表示为对象：在RLib中，所有的基于梯度的算法都会声明一个策略图对象，该对象包含一个策略模型πθ(ot)和一个\u003ca href=\"https://github.com/ray-project/ray/blob/a221f55b0d611de29324e3b1aa79eec1c10458ba/python/ray/rllib/evaluation/policy_graph.py#L99\"\u003e轨迹后处理函数\u003c/a\u003epostθ(traj)以及策略损失L(θ; X)。\u003ca href=\"https://ray.readthedocs.io/en/latest/rllib-concepts.html#policy-graphs\"\u003e该策略图\u003c/a\u003e对象为分布式框架提供了足够的内容与功能以执行环境部署（通过检索πθ）、\u003ca href=\"https://github.com/ray-project/ray/blob/07d8cbf414df48fc186f3b859512b50c2700c92c/python/ray/rllib/evaluation/policy_graph.py#L95\"\u003e经验整理\u003c/a\u003e（通过应用postθ）以及策略优化（通过减小策略损失）。\u003c/p\u003e\n\u003c/li\u003e\n\u003cli\u003e\n\u003cp\u003e策略对象是黑箱：为了支持多智能体配置，在每个环境中，RLib仅管理多个策略图的创建与执行，并在\u003ca href=\"https://ray.readthedocs.io/en/latest/rllib-concepts.html#policy-optimization\"\u003e策略优化\u003c/a\u003e过程中对他们的损失进行累计。在RLib中，策略图对象通常被当成黑箱，这就意味着可以用任何框架（包括TensorFlow和PyTorch）来实现它们。此外，策略图可以在内部共享变量和层以实现Q-MIX和MA-DDPG等算法，而不需要特殊的框架支持。\u003c/p\u003e\n\u003c/li\u003e\n\u003c/ul\u003e\n\u003cp\u003e更了更具体的说明这些细则，接下来的几节将介绍一些RLlib中的多智能体API来执行大规模多智能体训练的代码示例。\u003c/p\u003e\n\u003ch2\u003e多智能体环境模型\u003c/h2\u003e\n\u003cp\u003e由于不确定标准的多智能体环境借口，因此RISELab将\u003ca href=\"https://github.com/ray-project/ray/blob/master/python/ray/rllib/env/multi_agent_env.py\"\u003e这个多智能体环境模型\u003c/a\u003e编写为\u003ca href=\"https://github.com/openai/gym\"\u003eGym接口\u003c/a\u003e的直接扩展。在多智能体环境中，每一步会存在多种行为实体。图6所示的是一种交通控制场景，其中多个可控实体（例如，交通灯、自动驾驶车辆）一起工作以减少高速公路拥堵。\u003c/p\u003e\n\u003cp\u003e在该场景中：\u003c/p\u003e\n\u003cul\u003e\n\u003cli\u003e每个智能体都可以在不同的时间尺度上作出响应（即，异步工作）。\u003c/li\u003e\n\u003cli\u003e智能体会随时间进出该环境。\u003c/li\u003e\n\u003c/ul\u003e\n\u003cp\u003e\u003cimg src=\"https://static.geekbang.org/infoq/5c089df59d82b.png\" alt=\"image\" /\u003e\u003c/p\u003e\n\u003ccenter\u003e图 9：RLib多智能体环境可以模拟多个独立智能体随时间进出环境的情况。不同的智能体可以被赋予不同的策略。\u003c/center\u003e\n\u003cp\u003e下面这段代码是使用MultiAgentEnv接口的一个示例，该接口可以从多个就绪的智能体中返回观测值和激励：\u003c/p\u003e\n\u003cpre\u003e\u003ccode\u003e# 示例：使用多智能体环境\n\u0026gt; env = MultiAgentTrafficEnv(num_cars=20, num_traffic_lights=5)\n\n# 观测值是字典形式的，不是每一个智能体都需要在每个时间点被表示于字典中。\n\u0026gt; print(env.reset())\n{\n \u0026quot;car_1\u0026quot;: [[...]],\n \u0026quot;car_2\u0026quot;: [[...]],\n \u0026quot;traffic_light_1\u0026quot;: [[...]],\n}\n\n# 每个智能体都需要定义一个行为来返回他们的观测值\n\u0026gt; new_obs, rewards, dones, infos = env.step(\nactions={\u0026quot;car_1\u0026quot;: ..., \u0026quot;car_2\u0026quot;: ...})\n\n# 同样的，新的观测值，激励，完成的，信息等也是字典形式\n\u0026gt; print(rewards)\n{\u0026quot;car_1\u0026quot;: 3, \u0026quot;car_2\u0026quot;: -1, \u0026quot;traffic_light_1\u0026quot;: 0}\n\n# 独立的智能体可以早早离开; 当\u0026quot;__all__\u0026quot;设置为True时，环境配置完成。\n\u0026gt; print(dones)\n{\u0026quot;car_2\u0026quot;: True, \u0026quot;__all__\u0026quot;: False}\n\u003c/code\u003e\u003c/pre\u003e\n\u003cp\u003eOpenAI gym中的任何离散的Box、Dict或者Tuple都可以为这些独立的智能体提供支持，每个智能体都允许接受多种类型的输入（包括智能体间的通信）。\u003c/p\u003e\n\u003ch2\u003e多级的API支持\u003c/h2\u003e\n\u003cp\u003e在较高的层次上，RLib模型将智能体和策略建模为在一段持续时间内可以互相绑定的对象（如图7所示）。用户可以在不同程度上使用这一抽象的对象，从仅使用一个单智能体共享策略到多策略，再到完全自定义的策略优化：\u003c/p\u003e\n\u003cp\u003e\u003cimg src=\"https://static.geekbang.org/infoq/5c08a7ba70462.png\" alt=\"image\" /\u003e\u003c/p\u003e\n\u003ccenter\u003e图10：RLib中的多智能体执行与单智能体执行模型对比\u003c/center\u003e\n\u003ch3\u003e级别1：多智能体，共享策略\u003c/h3\u003e\n\u003cp\u003e如果环境中的所有智能体都是同质的（例如，在交通模拟中的多个独立的车辆），则可以使用现有的单智能体算法进行训练。由于只有一个策略被训练，因此RLib只需要在策略优化之前在内部累积不同智能体的经验，用户方面的变化则很小。\u003c/p\u003e\n\u003cp\u003e单智能体的情况：\u003c/p\u003e\n\u003cpre\u003e\u003ccode\u003eregister_env(\u0026quot;your_env\u0026quot;, lambda c: YourEnv(...))\ntrainer = PPOAgent(env=\u0026quot;your_env\u0026quot;)\nwhile True:\n print(trainer.train()) # distributed training step\n\u003c/code\u003e\u003c/pre\u003e\n\u003cp\u003e多智能体的情况：\u003c/p\u003e\n\u003cpre\u003e\u003ccode\u003eregister_env(\u0026quot;your_multi_env\u0026quot;, lambda c: YourMultiEnv(...))\ntrainer = PPOAgent(env=\u0026quot;your_multi_env\u0026quot;)\nwhile True:\n print(trainer.train()) # distributed training step\n\u003c/code\u003e\u003c/pre\u003e\n\u003cp\u003e\u003cstrong\u003e注意\u003c/strong\u003e，此处的PPOAgent只是从单智能体API继承的命名约定。它更像是智能体的一个训练器而不是真正的智能体。\u003c/p\u003e\n\u003ch3\u003e级别2：多智能体，多策略\u003c/h3\u003e\n\u003cp\u003e这种情况下，需要定义每个智能体会被哪个策略处理。在RLib中可以通过策略映射函数处理此问题，该函数在智能体首次进入环境时将环境中的智能体分配给特定策略。下面的例子展示了一个分级控制设定，其中监督智能体将工作分配给它们监督的工作智能体。完成这一目标的所需配置是监督策略和工作策略的集合：\u003c/p\u003e\n\u003cpre\u003e\u003ccode\u003edef policy_mapper(agent_id):\n if agent_id.startswith(\u0026quot;supervisor_\u0026quot;):\n return \u0026quot;supervisor_policy\u0026quot;\n else:\n return random.choice([\u0026quot;worker_p1\u0026quot;, \u0026quot;worker_p2\u0026quot;])\n在本例中，我们通常将监督智能体与一个单独的监督策略绑定，然后将其他工作智能体随机分配给两个不同的工作策略绑定。这些配置会在智能体首次进入环境时完成，并在智能体离开环境之前持续工作。最后，我们需要定义不止一个策略配置。这是作为上级智能体配置的一部分来完成的：\ntrainer = PPOAgent(env=\u0026quot;control_env\u0026quot;, config={\n \u0026quot;multiagent\u0026quot;: {\n \u0026quot;policy_mapping_fn\u0026quot;: policy_mapper,\n \u0026quot;policy_graphs\u0026quot;: {\n \u0026quot;supervisor_policy\u0026quot;:\n\n (PPOPolicyGraph, sup_obs_space, sup_act_space, sup_conf),\n \u0026quot;worker_p1\u0026quot;: (\n (PPOPolicyGraph, work_obs_s, work_act_s, work_p1_conf),\n \u0026quot;worker_p2\u0026quot;:\n\n (PPOPolicyGraph, work_obs_s, work_act_s, work_p2_conf),\n },\n \u0026quot;policies_to_train\u0026quot;: [\n\n \u0026quot;supervisor_policy\u0026quot;, \u0026quot;worker_p1\u0026quot;, \u0026quot;worker_p2\u0026quot;],\n },\n})\nwhile True:\n print(trainer.train()) # distributed training step\n\u003c/code\u003e\u003c/pre\u003e\n\u003cp\u003e这将生成一个如图5所示的配置。你可以为每个策略定制个性化的策略图类，以及不同的策略配置字典。任何RLib的支持的定制（例如，自定义模型和预处理）都可以用于每个策略，以及新的策略类的批量定义。\u003c/p\u003e\n\u003cp\u003e其他示例：\u003ca href=\"https://ray.readthedocs.io/en/latest/rllib-env.html#variable-sharing-between-policies\"\u003eSharing layers across policies\u003c/a\u003e、 \u003ca href=\"https://ray.readthedocs.io/en/latest/rllib-env.html#implementing-a-centralized-critic\"\u003eImplementing a centralized critic\u003c/a\u003e\u003c/p\u003e\n\u003ch3\u003e级别3：自定义训练策略\u003c/h3\u003e\n\u003cp\u003e对于一些高级的应用于研究情景，不可避免地会遇到一些框架方面的限制。\u003c/p\u003e\n\u003cp\u003e例如，假设需要多种训练方法的情况：一些智能体将使用PPO进行学习，一些则使用DQN。这种情况下，可以通过在两个不同的训练器之间交换权重来完成（\u003ca href=\"https://github.com/ray-project/ray/blob/master/python/ray/rllib/examples/multiagent_two_trainers.py\"\u003e参考代码\u003c/a\u003e），但这种方法的可扩展性较差，例如想加入新的算法或是想同时使用经验对环境模型进行训练的时候。\u003c/p\u003e\n\u003cp\u003e为了应对这种情况，RLib的底层系统\u003ca href=\"https://bair.berkeley.edu/blog/2018/01/09/ray/\"\u003eRay\u003c/a\u003e可以按需分配计算。Ray提供了两个简单的并行接口：\u003c/p\u003e\n\u003cul\u003e\n\u003cli\u003e\u003ca href=\"https://ray.readthedocs.io/en/latest/tutorial.html\"\u003eTasks\u003c/a\u003e，通过func.remote()被异步执行的Python函数。\u003c/li\u003e\n\u003cli\u003e\u003ca href=\"https://ray.readthedocs.io/en/latest/actors.html\"\u003eActors\u003c/a\u003e，通过class.remote()在集群中被创建的Python类。Actor方法可以被actor.method.remote()调用。\u003c/li\u003e\n\u003c/ul\u003e\n\u003cp\u003eRLib在Ray的tasks和actors上构建，为分布式强化学习提供工具包。其中包括：\u003c/p\u003e\n\u003cul\u003e\n\u003cli\u003e\u003ca href=\"https://ray.readthedocs.io/en/latest/rllib-concepts.html\"\u003e策略图\u003c/a\u003e（之前示例已展示）\u003c/li\u003e\n\u003cli\u003e\u003ca href=\"https://ray.readthedocs.io/en/latest/rllib-concepts.html#policy-evaluation\"\u003e策略评估\u003c/a\u003e：PolicyEvaluator类会对生成批量经验的环境交互循环进行管理。当创建为Ray actors时，它可以用于在分布式环境中收集经验。\u003c/li\u003e\n\u003cli\u003e\u003ca href=\"https://ray.readthedocs.io/en/latest/rllib-concepts.html#policy-optimization\"\u003e策略优化\u003c/a\u003e：这一部分用于对策略的优化。你可以使用现有的优化器，也可以使用自定义策略。\u003c/li\u003e\n\u003c/ul\u003e\n\u003cp\u003e例如，你可以创建\u003ca href=\"https://ray.readthedocs.io/en/latest/rllib-concepts.html#policy-evaluation\"\u003e策略优化器\u003c/a\u003e以收集多智能体的输出，然后对他们进行处理以提高策略：\u003c/p\u003e\n\u003cpre\u003e\u003ccode\u003e# 初始化一个单节点的Ray集群\nray.init()\n\n# 为自定义策略图创建局部实例\nsup, w1, w2 = SupervisorPolicy(), WorkerPolicy(), WorkerPolicy()\n\n# 创建策略优化器 (Ray actor进程会在集群中运行)\nevaluators = []\nfor i in range(16):\n ev = PolicyEvaluator.as_remote().remote(\n env_creator=lambda ctx: ControlEnv(),\n policy_graph={\n\n \u0026quot;supervisor_policy\u0026quot;: (SupervisorPolicy, ...),\n\n \u0026quot;worker_p1\u0026quot;: ..., ...},\n policy_mapping_fn=policy_mapper,\n sample_batch_size=500)\n evaluators.append(ev)\n\nwhile True:\n # Collect experiences in parallel using the policy evaluators\n futures = [ev.sample.remote() for ev in evaluators]\n batch = MultiAgentBatch.concat_samples(ray.get(futures))\n # \u0026gt;\u0026gt;\u0026gt; print(batch)\n # MultiAgentBatch({\n # \u0026quot;supervisor_policy\u0026quot;: SampleBatch({\n # \u0026quot;obs\u0026quot;: [[...], ...], \u0026quot;rewards\u0026quot;: [0, ...], ...\n # }),\n # \u0026quot;worker_p1\u0026quot;: SampleBatch(...),\n\n # \u0026quot;worker_p2\u0026quot;: SampleBatch(...),\n # })\n your_optimize_func(sup, w1, w2, batch) # Custom policy optimization\n # Broadcast new weights and repeat\n for ev in evaluators:\n ev.set_weights.remote({\n \u0026quot;supervisor_policy\u0026quot;: sup.get_weights(),\n \u0026quot;worker_p1\u0026quot;: w1.get_weights(),\n \u0026quot;worker_p2\u0026quot;: w2.get_weights(),\n })\n\u003c/code\u003e\u003c/pre\u003e\n\u003cp\u003e总之，RLib提供了多个层级的API，旨在提高其可定制性。在最高层级，这里提供了几个简单的“开箱即用”的训练过程，但用户也可以从核心的多智能体抽象对象中选择使用自定义的算法和训练策略。这里有一些可以直接运行的脚本供使用： \u003ca href=\"https://github.com/ray-project/ray/blob/master/python/ray/rllib/examples/multiagent_cartpole.py\"\u003emultiagent_cartpole.py\u003c/a\u003e, \u003ca href=\"https://github.com/ray-project/ray/blob/master/python/ray/rllib/examples/multiagent_two_trainers.py\"\u003emultiagent_two_trainers.py\u003c/a\u003e.\u003c/p\u003e\n\u003ch2\u003e性能表现\u003c/h2\u003e\n\u003cp\u003eRLlib旨在扩展到大型集群以及多智能体模式，同时也提供类似向量化这种针对单核心效率的优化。这允许在小型机器上高效地使用多智能体API。\u003c/p\u003e\n\u003cp\u003e为了说明这些优化方法的重要性，下图分析了单核心策略评估与环境中智能体数量的关系。在这个基准测试中，观测值是小浮点向量，策略是小型16*16的全连接网络。每个智能体被随机分配给10个这样的策略网络。RLib在每个环境中的10000个智能体上管理超过70k actions/s/core（此时Python的计算开销就变成了瓶颈）。当向量化功能关闭的时候，经验累积的速度降低了40倍：\u003c/p\u003e\n\u003cp\u003e\u003cimg src=\"https://static.geekbang.org/infoq/5c08a7b9835bf.png\" alt=\"image\" /\u003e\u003c/p\u003e\n\u003cp\u003eRISELab还评估了在环境中使用多个不同策略网络的更具挑战性的情况。在这里，仍然可以利用向量化将多个TensorFlow调用融合为一个，从而获得更稳定的单核性能，下图是不同策略的数量从1扩展到50的评估结果：\u003c/p\u003e\n\u003cp\u003e\u003cimg src=\"https://static.geekbang.org/infoq/5c08a7b9f0e23.png\" alt=\"image\" /\u003e\u003c/p\u003e\n\u003ch2\u003e结论\u003c/h2\u003e\n\u003cp\u003e这篇博文介绍了一个快速，通用的多智能体强化学习框架。\u003c/p\u003e\n\u003cp\u003eRISELab目前正与\u003ca href=\"https://bair.berkeley.edu/\"\u003eBAIR\u003c/a\u003e，Berkeley \u003ca href=\"https://flow-project.github.io/team.html\"\u003eFLow team\u003c/a\u003e和行业的早期用户合作，以进一步改进RLlib。\u003c/p\u003e\n\u003cp\u003e快尝试使用’pip install ray [rllib]'快速安装RLib，并运行你自己的测试用例吧。\u003c/p\u003e\n\u003cp\u003e有关RLlib和多代理支持的文档，请访问\u003ca href=\"https://rllib.io\"\u003ehttps://rllib.io\u003c/a\u003e。\u003c/p\u003e\n\u003cp\u003e查看英文原文：\u003ca href=\"https://rise.cs.berkeley.edu/blog/scaling-multi-agent-rl-with-rllib/\"\u003eAn Open Source Tool for Scaling Multi-Agent Reinforcement Learning\u003c/a\u003e\u003c/p\u003e\n\u003cp\u003e\u003ca href=\"http://t.cn/E28YBT9\"\u003e\u003cimg src=\"https://static.geekbang.org/infoq/5bfb929ec522e.png\" alt=\"image\" /\u003e\u003c/a\u003e\u003c/p\u003e\n

顶层设计：支持单元化、灰度化的应用架构
一、顶层目标业务连续性：任何单元故障不影响整体弹性伸缩：根据业务流量横向扩展灵活灰度：任何发布都可逐步平滑上线成本可控：单元化带来的资源冗余最小二、核心理念设计目标核心理念单元化垂直拆分，分而治之，地域/业务维度隔离灰度化流量切分，功能开关，逐步发布三、设计步骤Step1.顶层架构分层设计1.接入层（Gateway/APIGateway）支持单元路由与灰度路由负载均衡+灰度规则（按用户ID、流量比
Ubuntu/Linux 配置 locale iBlackAngel Linux linux ubuntu 数据库
文章目录Ubuntu/Linux配置locale1概述2locale2.1locale规则命令规则环境变量优先级2.2查看当前locale设置2.3查看当前系统所有可用的locale2.4安装中文locale语言环境/字符集2.5安装locales包2.6使用locale-gen命令生成语言支持2.7设置当前默认字符集3持久化3.1全局设置3.2用户级设置3.3使用update-locale进行配
LabVIEW 虚实通信实验平台 LabVIEW开发 LabVIEW开发案例 labview LabVIEW开发案例
为解决通信原理课程理论与实践脱节问题，设计了基于LabVIEW与通用硬件的虚实结合实验平台。该平台融合虚拟仿真与硬件实操，支持在线实验、数据传输及远程交互，可高效支撑通信原理教学中的仿真验证与实际信号收发实验。应用场景主要用于电子类专业通信原理课程实验教学：虚拟仿真：学生可通过平台完成基础信号生成、幅度调制、解调等仿真实验，直观观察信号波形变化；硬件实操：结合硬件设备开展FM信号收发、信道干扰测试
【Python】dateutil库宅男很神经 python 开发语言
第一章：dateutil时间，在计算机系统中扮演着核心角色。从日志记录、事件调度到金融交易、科学模拟，无处不在。Python的标准库datetime模块提供了处理日期和时间的基本能力。然而，在面对真实世界的复杂性和多样性时，datetime的功能常常显得捉襟见肘。例如，它难以直接解析各种非标准格式的日期字符串，无法进行灵活的相对时间计算（如“下个月的第三个星期二”），也缺乏对循环事件的强大支持。正
VideoPrism模型论文速读：一种用于视频理解的基础视觉编码器
1.引言论文介绍了VideoPrism，这是一个通用视频编码器，能够在多种视频理解任务中实现最先进的性能。VideoPrism的目标是通过单一冻结模型处理不同的视频理解任务，包括分类、定位、检索、字幕生成和问答。VideoPrism在预训练过程中使用了大规模的视频-文本对数据和带有噪声平行文本的视频片段。预训练方法在掩码自动编码基础上进行了改进，通过全局-局部蒸馏语义视频嵌入和令牌洗牌方案，使Vi
把批评当做信息对待执古之道_能御今之有
真理喜欢批评，因为经过批评，真理就会取胜。每个人都觉得自己是对的，因此会对别人的否定意见产生本能的抵抗。这是人类的一种天性，能够克服这一天性的人，都是值得尊重的。当我们做完一件事情之后，多少都会得到别人的评价。支持或者否定，对于支持，我们尚且容易接受，可对于批评，就有些喉头哽咽了。如果长期受到批评，会对我们的自信心造成很大打击，非常不利于我们的身心健康。那么，我们该如何对待批评性的语言呢？两步即可
做一个情感主播的条件，谈谈我的看法糖葫芦很甜
要成为一名优秀的情感主播，不仅需要具备一定的天赋与热情，更需要在多个方面持续努力与精进。5星公会，免费加入，一对一指导扶持↓微信在文章底部。情感主播的核心在于“情感”二字，因此，拥有深厚的同理心是首要条件。这要求主播能够敏锐地感知听众的情绪波动，无论是喜悦、悲伤还是迷茫，都能迅速建立情感连接，让听众感受到被理解和支持。同时，主播还需具备良好的情感表达技巧，能够用温暖而真挚的语言触动人心，激发听众的
分布式任务调度xxl-Job leese233 java
xxl-Job简介针对分布式任务调度的需求，市场上出现了很多的产品：1）TBSchedule：淘宝推出的一款非常优秀的高性能分布式调度框架，目前被应用于阿里、京东、支付宝、国美等很多互联网企业的流程调度系统中。但是已经多年未更新，文档缺失严重，缺少维护。2）XXL-Job：大众点评的分布式任务调度平台，是一个轻量级分布式任务调度平台,其核心设计目标是开发迅速、学习简单、轻量级、易扩展。现已开放源代
Claude-Code-Communication：构建高效Agent通信流程
Claude-Code-Communication：构建高效Agent通信流程项目介绍Claude-Code-Communication是一个基于tmux的多Agent通信演示系统。它通过模拟一个层次化的指令传递流程，让我们可以直观地理解和体验Leader（领导者）、Boss（老板）和Workers（员工）之间的协作模式。该系统不仅提供了一个命令行的交互界面，还支持一键部署和运行，非常适合作为分布
日更挑战第4天-稍有进展的一天我就不信昵称不能改
项目告一段落了，应该会有两三天的喘息时间，可以支持一下前线的兄弟们，然后再填充些弹药。就是这天热得喘不过气，今年公司效益不好，不知道还能不能有高温饮料发。饮料水果不发也行，给办公室装个空调吧。没有空调也行，中央空调修一修吧。不然我实名举报我公司!德鲁纳酒店看到第六集，基本确定具灿星是侍卫的今生。可是前女友是怎么回事？如果前女友是公主的今生，那不应该像个感情骗子一样借灿星钱不还，还厚脸皮地认为灿星依
信而泰×DeepSeek：AI推理引擎驱动网络智能诊断迈向 “自愈”时代
DeepSeek-R1：强大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基础技术研究有限公司开发的新一代AI大模型。其核心优势在于强大的推理引擎能力，融合了自然语言处理（NLP）、深度学习、大规模数据分析等前沿技术。DeepSeek-R1具备卓越的逻辑推理、多模态分析（文本/图像/语音）和实时交互能力，能够高效处理代码生成、复杂问题求解、跨模态学习等高阶任务。凭借其开源、高效、多模态
A316-HF-DAC-V1：专业USB HiFi音频解码器评估板技术解析 Phaten XMOS模组评估板音视频嵌入式硬件 XMOS 模组解码器评估板
引言随着高解析度音频的普及，对高品质音频解码设备的需求日益增长。本文将介绍一款专为USBHiFi音频解码器设计的专业评估板——A316-HF-DAC-V1，这是一款基于XMOSXU316技术的高性能音频解码评估平台。产品概述A316-HF-DAC-V1是一款专业的USBHiFi音频解码器评估板，采用A316-1926-V1XU316模组设计。该评估板支持多种音频输入方式，包括USB、光纤、同轴以及
A316-HF-I2S-V1：USB TO I2S HiFi音频转换器评估板技术解析 Phaten XMOS模组评估板音视频嵌入式硬件 XMOS 模组 USB声卡智能硬件
引言随着高解析度音频应用的不断发展，USB与I2S之间的高品质音频转换需求日益增长。本文将介绍一款专为USBTOI2S音频转换设计的评估板——A316-HF-I2S-V1，这是一款基于XMOSXU316技术的专业音频接口转换平台。产品概述A316-HF-I2S-V1是一款专为USBTOI2SHiFi音频转换器设计的评估板，采用A316-Mini-V1模组设计。该评估板支持USB音频输入，并提供I2
web前端进阶之Javascript设计模式面向对象篇 jia林
前言：在此说明Javascript设计模式所讲内容和知识点来自双越老师（wangEditor富文本开源作者）的视频，内容通俗易懂，受益匪浅，结合自己的学习心得整理成笔记，与大家分享，愿在前端的道路上越走越远.....从“写好代码”到“设计代码”的过程，不仅是技术的提升，更是编程思维的提升，而这其中最关键的就是设计模式，是否理解并掌握设计模式，也是衡量程序员能力的标准之一。学习前提使用过jquery
《佛畏系统》书评：“心流”：最高级的幸福感 9078ffed29c9
你曾经有没有这样的经历？当你在看一部喜欢的书时，可以连续看六七个小时，中间不觉得饿、不觉得累、也不觉得困，反而越看越着迷，被书里的内容深深地吸引着，当你回过神来的时候，发现已经从起床看到了傍晚。或者，当你看一部电影的时候，有那么一刻完全被剧情所吸引，彻底忘了自己，等回过神来才突然发现电影已演完、而自己其实早就很饿或者很想上厕所了。这种美妙又神奇的感觉，用一个概念解释叫作“心流”。那究竟什么是心流呢
时序数据库IoTDB好不好？时序数据说时序数据库数据库 iotdb 物联网开源
时序数据库IoTDB（InternetofThingsDatabase）是专为物联网场景设计的一款开源时序数据库系统，由清华大学团队开发并贡献给Apache基金会。经过多年发展，IoTDB已经在工业物联网、车联网、能源电力等多个领域得到广泛应用。那么IoTDB究竟好不好？下面我将从几个核心优势来分析。一、专为物联网优化的存储架构分层存储设计：IoTDB采用"内存缓冲区+磁盘文件+分布式存储"的分层
2021-3-24回忆录超超姐
重要的三件事：1《羊皮卷启示录》的阅读2房树人读心术特训营的集体分析3姑姑生病住院，做力所能及的支持第二卷《羊皮卷启示录》是在妈妈不烦的直播里，被主播口里津津乐道推荐的一本书。因为主播说读了这本书第一遍，你只觉得它很励志，但坚持读半年后，你会收获不一样的自己。因为无论从心智还是思维上，它都给人以启发和思考。所以我在微信读书上找到了这本书，并购买了纸质版的，我想通过对这本书的阅读，启发心智，成长自己
Zookeeper 在 Kafka 中的作用详解：分布式协调服务的核心价值 lxb_不卑不亢消息队列 MQ 进阶实战分布式 zookeeper kafka rocketmq
摘要ApacheKafka是一个高吞吐、分布式的流处理平台，广泛应用于大数据和实时系统中。而ApacheZookeeper，则是Kafka背后不可或缺的“隐形英雄”。本文将深入剖析Zookeeper在Kafka架构中的核心作用，帮助开发者全面理解其在分布式协调、元数据管理、故障恢复等方面的关键地位。一、Zookeeper简介Zookeeper是一个开源的分布式协调服务，最初由Hadoop生态发展而
直击人性邹俊美
美哈哈2021-03-05晴日精进日更60天打10分洪涛教练犇犇商学院导师家庭资产配置规划师企业商业模式设计师个人品牌策划人从事财商教育培训十年以上人性的三大弱点：贪懒占便宜迎合人性三大弱点，设计产品，可赚智商税如何让自己健谈为了买一个赠品，买一个产品，赠品比产品贵，利用人性弱点，商家获利设计商业模式运用人性中的贪、懒、占便宜迎合人性的缺点，变现的关键极致利他，建立反人性机制金刚智慧，利他，去支持
Day9: OpenCV学习（一）—— 图像基础
系列文章目录上一篇：Day8：Python工程化——模块、包文章目录系列文章目录前言一、安装和导入1.安装二、图像认识1.图像2.图像分类三、基础图像操作1.图像读取2.图像显示3.图像裁剪4.图形尺寸修改5.图像保存6.图像绘制7.视频捕获即显示总结前言OpenCV（OpenSourceComputerVisionLibrary）是一个开源的计算机视觉和机器学习软件库。由一系列C++类和函数构成
STM32F103 串口通信 one_kun stm32 嵌入式硬件单片机
串口通信串口通信是嵌入式里非常常见的通信，不论是STM32还是其它的什么单片机或者任何其它支持串口通信的设备通信时只需要把通信一方的RX与通信另一方的TX，以及一方的TX与另一方的RX相连接就可以进行双向通信。在串口通信里，接好线并配置好串口的初始化之后就可以直接发送数据了，但是为了通信的可靠传输，通信双方往往会采用约定好的通信协议，这个协议可以自定义，也可以直接套用一些经过实践检验的、广为使用的
我很笨，但我很爱很爱你（27） Betty_L_Vivian
小琴和宝宝都回来了，家里热闹多了。家里的各个角落都充满着孩子的笑声、哭声，有大人逗孩子开心的笑声，厨房里有锅碗瓢盆的交响曲。家里有笑声，有互相关心，有互相支持，也有互相理解，这样的家充满爱心，有活力，更有希望。小琴的身体恢复得差不多了，家里的活多少也能干一点，所以公公婆婆开始照顾店里的生意，张强也开始去单位上班。开始新一轮的忙活，家里有小宝宝，生活就有奔头了。小琴的身体不如从前，患过肺结核，还有这
FMC 子卡：2 通道 16bit 12G DA 播放 F_white 视频与图像采集处理雷达系统半实物仿真数据中心
FMC132是一款2通道12GSPS采样率16位DA播放FMC子卡模块，该板卡为FMC+标准，符合VITA57.4规范，可以作为一个理想的IO模块耦合至FPGA前端，8通道的JESD204B接口通FMC+连接器连接至FPGA的高速串行端口GTH。板卡支持板上可编程采样时钟和外部参考时钟，多片板卡还可以通过触发（输入/输出）信号进行输出同步，该板卡2路模拟信号输出通过50Ω特征阻抗的SSMC射频连接
【RS】GEE(Python)：大规模分析与导出数据
在前面的章节中，我们探讨了如何在GoogleEarthEngine(GEE)上进行数据加载、处理、分析和可视化。现在，我们将进一步扩展，探索如何处理大规模的数据集和执行复杂的分析任务。通过GEE的云计算能力，用户可以在全球范围内执行大规模的时空分析，并高效地将处理结果导出为所需的格式。大规模分析的基本原则在GEE中，大规模分析是通过ImageCollection和FeatureCollection
Swift 初见（一） bearIT
Swift是一种安全，快速和互动的编程语言。它是第一个既满足工业标准又像脚本语言一样充满表现力和趣味的系统编程语言。它支持代码预览（playgrounds）Swift通过采用现代编程模式来避免大量常见编程错误：变量始终在使用前初始化。检查数组索引超出范围的错误。检查整数是否溢出。可选值确保明确处理nil值。内存被自动管理。错误处理允许从意外故障控制恢复。使用let来声明常量，使用var来声明变量。
2023年2月3日五福觉察日记琨姐坤学院智慧家庭陪伴老师
坤学院会长天性识别五福觉察日记姓名：李琨所在团队：4团颜色偏好：绿色1.我今天颜色偏好上发掘自己的优势故事（五大模式）思维模式：春文问我这次不是团长了，什么心情，什么感受，会不舒服吗？我想了想说，没有，内心很平静，因为通过前三次带团，自己已经获得非常大的成长和提升，也更加清晰这一次训练目标是静下心来，用心训练一对一陪伴儿赋能对话，支持团队长和所有小伙伴拿到想要的目标。知止而后能定，定而后能静，思维
基于定制开发开源AI智能名片S2B2C商城小程序源码的搜索框个性化推荐机制研究
摘要：本文聚焦于定制开发开源AI智能名片S2B2C商城小程序源码场景下的搜索框个性化推荐机制。通过分析搜索框作为信息流槽位的产品形态特性，结合开源AI大模型与S2B2C模式的技术融合优势，提出基于用户强兴趣/即时兴趣的动态推荐策略。研究揭示了定制化开发在破解传统搜索框静态局限中的关键作用，并通过实证案例验证了该机制对提升用户转化率与平台GMV的显著效果，为新零售场景下的智能推荐系统设计提供了理论依
蒙牛社交电商的升级路径研究：基于开源链动2+1模式、AI智能名片与S2B2C商城小程序源码的融合创新
摘要：本文以蒙牛社交电商为研究对象，探讨传统微商向健康管理型社交电商平台升级的核心路径。通过分析蒙牛推出的慢燃、凝纯、益SHOW等大健康产品矩阵，结合开源链动2+1模式的裂变机制、AI智能名片的精准推荐能力及S2B2C商城小程序源码的供应链整合优势，揭示其如何通过技术赋能实现用户增长、供应链优化与用户体验升级。实证表明，该模式使蒙牛社交电商用户规模增长320%，私域客单价提升65%，为传统企业数字
ANSYS 2025 R1软件下载及安装教程|附安装文件仰望天空—永强嵌入式硬件硬件工程智能硬件硬件架构数学建模
软件名称：ANSYS2.软件版本：2025R13.软件大小：52.2GB4.安装环境：win10/win11（64位）下载通道:夸克网盘链接:https://pan.quark.cn/s/ce34e3269bd4更多免费软件，游戏等点这里软件介绍ANSYS是一款由ANSYS,Inc.开发的工程仿真软件，广泛应用于结构、流体、电磁、热分析和多物理场耦合等领域。它支持有限元分析（FEA）、计算流体力学
@PostConstruct 注解机器滴小白 java中的常见注解 java 开发语言
@PostConstruct注解用于标记一个方法，该方法需要在依赖注入完成后执行，以完成任何初始化操作。此方法必须在类投入使用之前被调用。所有支持依赖注入的类都必须支持此注解。即使类没有请求任何资源注入，也必须调用标注了@PostConstruct的方法。一个类上只能有一个方法被标注此注解。（翻译自官方解释）一、作用@PostConstruct注解的主要作用是：在依赖注入完成后执行初始化逻辑：比如
web前段跨域nginx代理配置刘正强 nginx cms Web
nginx代理配置可参考server部分 server { listen 80; server_name localhost;
spring学习笔记 caoyong spring
一、概述 a>、核心技术 : IOC与AOP b>、开发为什么需要面向接口而不是实现接口降低一个组件与整个系统的藕合程度，当该组件不满足系统需求时，可以很容易的将该组件从系统中替换掉，而不会对整个系统产生大的影响 c>、面向接口编口编程的难点在于如何对接口进行初始化,(使用工厂设计模式)
Eclipse打开workspace提示工作空间不可用 0624chenhong eclipse
做项目的时候，难免会用到整个团队的代码，或者上一任同事创建的workspace， 1.电脑切换账号后，Eclipse打开时，会提示Eclipse对应的目录锁定，无法访问，根据提示，找到对应目录，G:\eclipse\configuration\org.eclipse.osgi\.manager，其中文件.fileTableLock提示被锁定。解决办法，删掉.fileTableLock文件，重
Javascript 面向对面写法的必要性？一炮送你回车库 JavaScript
现在Javascript面向对象的方式来写页面很流行，什么纯javascript的mvc框架都出来了：ember 这是javascript层的mvc框架哦,不是j2ee的mvc框架我想说的是，javascript本来就不是一门面向对象的语言，用它写出来的面向对象的程序，本身就有些别扭，很多人提到js的面向对象首先提的是：复用性。那么我请问你写的js里有多少是可以复用的，用fu
js array对象的迭代方法换个号韩国红果果 array
1.forEach 该方法接受一个函数作为参数，对数组中的每个元素使用该函数 return 语句失效 function square(num) { print(num, num * num); } var nums = [1,2,3,4,5,6,7,8,9,10]; nums.forEach(square); 2.every 该方法接受一个返回值为布尔类型
对Hibernate缓存机制的理解归来朝歌 session 一级缓存对象持久化
在hibernate中session一级缓存机制中，有这么一种情况：问题描述：我需要new一个对象，对它的几个字段赋值，但是有一些属性并没有进行赋值，然后调用 session.save()方法，在提交事务后，会出现这样的情况： 1：在数据库中有默认属性的字段的值为空 2：既然是持久化对象，为什么在最后对象拿不到默认属性的值？通过调试后解决方案如下：对于问题一，如你在数据库里设置了
WebService调用错误合集 darkranger webservice
Java.Lang.NoClassDefFoundError: Org/Apache/Commons/Discovery/Tools/DiscoverSingleton 调用接口出错，一个简单的WebService import org.apache.axis.client.Call;import org.apache.axis.client.Service; 首先必不可
JSP和Servlet的中文乱码处理 aijuans Java Web
JSP和Servlet的中文乱码处理前几天学习了JSP和Servlet中有关中文乱码的一些问题，写成了博客，今天进行更新一下。应该是可以解决日常的乱码问题了。现在作以下总结希望对需要的人有所帮助。我也是刚学，所以有不足之处希望谅解。一、表单提交时出现乱码：在进行表单提交的时候，经常提交一些中文，自然就避免不了出现中文乱码的情况，对于表单来说有两种提交方式：get和post提交方式。所以
面试经典六问 atongyeye 工作面试
题记：因为我不善沟通，所以在面试中经常碰壁，看了网上太多面试宝典，基本上不太靠谱。只好自己总结，并试着根据最近工作情况完成个人答案。以备不时之需。以下是人事了解应聘者情况的最典型的六个问题： 1 简单自我介绍关于这个问题，主要为了弄清两件事，一是了解应聘者的背景，二是应聘者将这些背景信息组织成合适语言的能力。我的回答：(针对技术面试回答，如果是人事面试，可以就掌
contentResolver.query()参数详解百合不是茶 android query()详解
收藏csdn的博客,介绍的比较详细,新手值得一看 1.获取联系人姓名一个简单的例子，这个函数获取设备上所有的联系人ID和联系人NAME。 [java] view plain copy public void fetchAllContacts() {
ora-00054:resource busy and acquire with nowait specified解决方法 bijian1013 oracle 数据库 kill nowait
当某个数据库用户在数据库中插入、更新、删除一个表的数据，或者增加一个表的主键时或者表的索引时，常常会出现ora-00054:resource busy and acquire with nowait specified这样的错误。主要是因为有事务正在执行（或者事务已经被锁），所有导致执行不成功。 1.下面的语句
web 开发乱码征客丶 spring Web
以下前端都是 utf-8 字符集编码一、后台接收 1.1、 get 请求乱码 get 请求中，请求参数在请求头中；乱码解决方法： a、通过在web 服务器中配置编码格式：tomcat 中，在 Connector 中添加URIEncoding="UTF-8"； 1.2、post 请求乱码 post 请求中，请求参数分两部份， 1.2.1、url？参数，
【Spark十六】： Spark SQL第二部分数据源和注册表的几种方式 bit1129 spark
Spark SQL数据源和表的Schema case class apply schema parquet json JSON数据源准备源数据 {"name":"Jack", "age": 12, "addr":{"city":"beijing&
JVM学习之:调优总结 -Xms -Xmx -Xmn -Xss BlueSkator -Xss -Xmn -Xms -Xmx
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx355
jqGrid 各种参数详解(转帖) BreakingBad jqGrid
jqGrid 各种参数详解分类：源代码分享个人随笔请勿参考解决开发问题 2012-05-09 20:29 84282人阅读评论(22) 收藏举报 jquery 服务器 parameters function ajax string
读《研磨设计模式》-代码笔记-代理模式-Proxy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.lang.reflect.InvocationHandler; import java.lang.reflect.Method; import java.lang.reflect.Proxy; /* * 下面
应用升级iOS8中遇到的一些问题 chenhbc ios8 升级iOS8
1、很奇怪的问题，登录界面，有一个判断，如果不存在某个值，则跳转到设置界面，ios8之前的系统都可以正常跳转，iOS8中代码已经执行到下一个界面了，但界面并没有跳转过去，而且这个值如果设置过的话，也是可以正常跳转过去的，这个问题纠结了两天多，之前的判断我是在 -(void)viewWillAppear:(BOOL)animated 中写的，最终的解决办法是把判断写在 -(void
工作流与自组织的关系？ comsci 设计模式工作
目前的工作流系统中的节点及其相互之间的连接是事先根据管理的实际需要而绘制好的，这种固定的模式在实际的运用中会受到很多限制，特别是节点之间的依存关系是固定的，节点的处理不考虑到流程整体的运行情况，细节和整体间的关系是脱节的，那么我们提出一个新的观点，一个流程是否可以通过节点的自组织运动来自动生成呢？这种流程有什么实际意义呢？这里有篇论文，摘要是：“针对网格中的服务
Oracle11.2新特性之INSERT提示IGNORE_ROW_ON_DUPKEY_INDEX daizj oracle
insert提示IGNORE_ROW_ON_DUPKEY_INDEX 转自：http://space.itpub.net/18922393/viewspace-752123 在 insert into tablea ...select * from tableb中，如果存在唯一约束，会导致整个insert操作失败。使用IGNORE_ROW_ON_DUPKEY_INDEX提示，会忽略唯一
二叉树:堆 dieslrae 二叉树
这里说的堆其实是一个完全二叉树,每个节点都不小于自己的子节点,不要跟jvm的堆搞混了.由于是完全二叉树,可以用数组来构建.用数组构建树的规则很简单: 一个节点的父节点下标为: (当前下标 - 1)/2 一个节点的左节点下标为: 当前下标 * 2 + 1 &
C语言学习八结构体 dcj3sjt126com c
为什么需要结构体，看代码 # include <stdio.h> struct Student //定义一个学生类型，里面有age, score, sex, 然后可以定义这个类型的变量 { int age; float score; char sex; } int main(void) { struct Student st = {80, 66.6,
centos安装golang dcj3sjt126com centos
#在国内镜像下载二进制包 wget -c http://www.golangtc.com/static/go/go1.4.1.linux-amd64.tar.gz tar -C /usr/local -xzf go1.4.1.linux-amd64.tar.gz #把golang的bin目录加入全局环境变量 cat >>/etc/profile<
10.性能优化-监控-MySQL慢查询 frank1234 性能优化 MySQL慢查询
1.记录慢查询配置 show variables where variable_name like 'slow%' ; --查看默认日志路径查询结果：--不用的机器可能不同 slow_query_log_file=/var/lib/mysql/centos-slow.log 修改mysqld配置文件：/usr /my.cnf[一般在/etc/my.cnf，本机在/user/my.cn
Java父类取得子类类名 happyqing java this 父类子类类名
在继承关系中，不管父类还是子类，这些类里面的this都代表了最终new出来的那个类的实例对象，所以在父类中你可以用this获取到子类的信息！ package com.urthinker.module.test; import org.junit.Test; abstract class BaseDao<T> { public void
Spring3.2新注解@ControllerAdvice jinnianshilongnian @Controller
@ControllerAdvice，是spring3.2提供的新注解，从名字上可以看出大体意思是控制器增强。让我们先看看@ControllerAdvice的实现： @Target(ElementType.TYPE) @Retention(RetentionPolicy.RUNTIME) @Documented @Component public @interface Co
Java spring mvc多数据源配置 liuxihope spring
转自：http://www.itpub.net/thread-1906608-1-1.html 1、首先配置两个数据库 <bean id="dataSourceA" class="org.apache.commons.dbcp.BasicDataSource" destroy-method="close&quo
第12章 Ajax（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BW / Universe Mappings blueoxygen BO
BW Element OLAP Universe Element Cube Dimension Class Charateristic A class with dimension and detail objects (Detail objects for key and desription) Hi
Java开发熟手该当心的11个错误 tomcat_oracle java 多线程工作单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
推行国产操作系统的优劣 yananay windows linux 国产操作系统
最近刮起了一股风，就是去“国外货”。从应用程序开始，到基础的系统，数据库，现在已经刮到操作系统了。原因就是“棱镜计划”，使我们终于认识到了国外货的危害，开始重视起了信息安全。操作系统是计算机的灵魂。既然是灵魂，为了信息安全，那我们就自然要使用和推行国货。可是，一味地推行，是否就一定正确呢？先说说信息安全。其实从很早以来大家就在讨论信息安全。很多年以前，就据传某世界级的网络设备制造商生产的交

伯克利开源工具库RLib现已支持大规模多智能体强化学习

你可能感兴趣的:(伯克利开源工具库RLib现已支持大规模多智能体强化学习)