CoreJT

分布式强化学习 | (1) RLlib:一个分布式强化学习系统的凝练

原文地址

本文是对RLlib Paper《RLlib: Abstractions for Distributed Reinforcement Learning》的中文翻译，转载自知乎用户Trinkle。

RLlib文档

文章目录

- - 摘要
  - 1. 引言
  - - 1.1 强化学习训练的计算模式不规则性
    - 1.2 对分布式强化学习算法进行逻辑中控
  - 2. 分层并行任务模型
  - - 2.1 和已有的分布式机器学习抽象模式的关系
    - 2.2 使用 Ray 来实现分层控制
  - 3. 强化学习的抽象模式
  - - 3.1 策略计算图的定义
    - 3.2 策略评估器
    - 3.3 策略优化器
    - 3.4 RLlib 抽象模式的完备性和普适性
  - 4. 框架性能
  - - 4.1 单计算节点性能
    - 4.2 分布式性能
  - 5. 评估测试
  - 6. 相关工作
  - 7. 结论

摘要

强化学习算法涉及到高度不规则的计算模式的深度嵌套，每个模式通常都可以进行分布式计算。我们提出采用自顶向下分层控制的分布式强化学习算法，从而更好地采用并行计算资源调度来完成这些任务。在RLlib，一个可拓展的强化学习软件平台中，我们展示了我们所提出理论的好处：它能够让一系列的强化学习算法达到高性能、可拓展和大量代码重用这些特性。RLlib是开源项目Ray的一部分。

1. 引言

并行计算和符号微分是最近深度学习成功的基石。如今有各种各样的深度学习框架(Pytorch、Tensorflow等)被开发出来，研究者们可以在这些框架中设计神经网络快速迭代创新，加速大规模训练过程。

虽然强化学习界在深度学习的系统和抽象方面取得了很大的进步，但在直接针对强化学习的系统和抽象设计方面的进展相对较少。尽管如此，强化学习中的许多挑战都源于对学习和仿真的规模化需求，同时也需要整合快速增长的算法和模型。因此设计这么一个系统是很有必要的。

在没有单一的主导计算模式（例如张量代数）或基本组成规则（例如符号微分）的情况下，强化学习算法的设计与实现通常非常麻烦，它要求强化学习研究人员直接设计复杂嵌套并行程序。与深度学习框架中的典型运算符不同，各个组件可能需要跨集群并行、利用深度学习框架实现的神经网络、递归调用其他组件、与其他接口进行交互，其中许多部分的异构性和分布式性质对实现它们的并行版本提出了不小的挑战，而上层算法也正在迅速发展，也在不同级别上提出了并行性的更高要求。最后，这些算法模块还需要处理不同层级、甚至跨物理设备的并行。

强化学习算法框架在近些年来被不断开发。尽管其中一些具有高度可拓展性，但很少能实现大规模组件的组合，很大程度上是由于这些库使用的许多框架都依赖于长时间运行的程序副本之间的通信来进行分布式执行。例如 MPI，分布式 TensorFlow 和参数服务器等原型。这些原型不会将并行性和资源需求封装在单个组件中，因此重用这些分布式组件需要在程序中插入适当的控制点。这是一个十分繁琐且容易出错的过程。缺少可用的封装会阻碍代码重用，并导致数学上复杂且高度随机的算法的重新实现容易出错。更糟糕的是，在分布式环境中，重新实现一个新的强化学习算法通常还必须重新实现分布式通信和执行的大部分内容。

我们认为通过组合和重用现有模块与算法实现来构建可拓展的强化学习算法对于该领域快速发展和进步至关重要。我们注意到实现强化学习平台的困难之处在于可伸缩性和可组合性，而这两种特性不能通过单线程库轻松实现。为此，我们主张围绕逻辑集中式程序控制（逻辑中控）和并行封装的原理构造分布式强化学习组件。我们根据这些原则构建了RLlib，结果不仅能够实现各种最新的强化学习算法，而且还拥有了可用于轻松组成新算法的可拓展单元。

1.1 强化学习训练的计算模式不规则性

目前的强化学习算法在其创建的计算模式中是高度不规则的，如表A-1所示，突破了如今流行的分布式框架所支持的计算模型的界限。这种不规则发生在如下几个层面：

根据算法的不同，任务的持续时间和资源需求也有数量级的差异；例如A3C的更新可能需要几毫秒，但其他算法如PPO需要更大粒度时间颗粒。
通信模式各异，从同步到异步的梯度优化，再到在高通量的异策略学习算法（如 Ape-X 和 IMPALA）中拥有多种类型的异步任务，通信模式各不相同。
基于模型的混合算法（表A-2）、强化学习或深度学习训练相结合的超参数调优、或是在单一算法中结合无导数优化和基于梯度的优化等方式产生嵌套计算。
强化学习算法经常需要维护和更新大量的状态，包括策略参数、重放缓冲区，甚至还有外部模拟器等。

因此，开发人员只能使用大杂烩的框架来实现他们的算法，包括参数服务器、类 MPI 框架中的集体通信基元、任务队列等。对于更复杂的算法，常见的做法是构建自定义的分布式系统，在这个系统中，进程之间独立计算和协调，没有中央控制（图 A-2(a)）。虽然这种方法可以实现较高的性能，但开发和评估的成本很大，不仅因为需要实现和调试分布式程序，而且因为这些算法的组成进一步使其实现复杂化（图 A-3）。此外，如今现有的计算框架（如 Spark、MPI）通常是假
设有规律的计算模式，当子任务的持续时间、资源需求或嵌套不同时，这些计算框架会有性能损失。

1.2 对分布式强化学习算法进行逻辑中控

我们希望一个单一的编程模型能够满足强化学习算法训练的所有要求。这可以在不放弃结构化计算的高级框架的情况下实现。对于每个分布式强化学习算法，我们可以写出一个等效的算法，表现出逻辑上集中的程序控制（图 A-2(b)）。也就是说，不用让独立执行进程（图 A-2(a) 中的 A、B、C、D）相互协调（例如，通过 RPC、共享内存、参数服务器或集体通信），而是一个单一的驱动程序（图 A-2(b) 和 A-2© 中的 D）可以将算法的子任务委托给其他进程并行执行。在这种工作模式中，工作进程 A、B、C 被动地保持状态（如策略或仿真器状态），但在被 D 调用之前不执行任何计算，为了支持嵌套计算，我们提出用分层委托控制模型（图 A-2©）来扩展集中控制模型，允许工作进程（如 B、C）在执行任务时进一步将自己的工作（如仿真、梯度计算）委托给自己的子工作进程。

在这样一个逻辑上集中的分层控制模型的基础上搭建强化学习框架，有如下几个重要优势：首先，等效算法在实际应用中往往更容易实现，因为分布式控制逻辑完全封装在一个进程中，而不是多个进程同时执行。其次，将算法组件分离成不同的子程序（例如，做卷积运算、计算梯度与某些策略的目标函数的梯度），可以在不同的执行模式下实现代码的重用。有不同资源需求的子任务（CPU 任务或者 GPU 任务）可以放在不同的机器上，从而能够降低计算成本，我们将在
第 A.5 章中展示这一点。最后，在这个模型中编写的分布式算法可以相互之间无缝嵌套，满足了并行性封装原则。

逻辑中控模型可以有很高的性能，我们提出的分层委托控制模型更是如此。这是因为进程之间的大部分数据传输（图 A-2 中的蓝色箭头）都发生在驱动带外，没有遇到任何驱动中心瓶颈。事实上，许多高度可扩展的分布式系统在设计中都利用集中控制。像 TensorFlow 这样的框架也实现了将张量计算逻辑上的集中调度到可用的物理设备上，即使需求只有单个可微分的张量图。我们的工作能够将这一原则扩展到更广泛的机器学习系统设计理念中。

本文的贡献主要有如下三点：

我们为强化学习训练提出了一个通用且模块化的分层编程模型（章节2）
. 我们描述了 RLlib，一个高度可扩展的强化学习算法库，以及如何在我们的代码库上面快速构建一系列强化学习算法（章节3）
我们讨论了这一框架的性能（章节 4），并表明 RLlib 在各种强化学习算法中和众多框架相比达到或超过了最优性能（章节 5）。

2. 分层并行任务模型

如图 A-3 所示，如果使用 MPI 或者分布式 Tensorflow 之类的框架作为底层来设计并行化写强化学习算法代码的时候，需要对每个算法的适配进行定制化代码修改。这限制了新的分布式强化学习算法的快速开发。尽管图 A-3 中的示例很简单，但例如 HyperBand、PBT 等需要长时间运行的、精细的超参数调整的算法越来越需要对培训进行细粒度的控制。

我们建议在基于任务的灵活编程模型（例如 Ray）的基础上，通过分层控制和逻辑中控来构建强化学习算法库。基于任务的系统允许在细粒度的基础上，在子进程上异步调度和执行子例程，并在进程之间检索或传递结果。

2.1 和已有的分布式机器学习抽象模式的关系

诸如参数服务器和集体通信操作之类的抽象模式尽管通常是为分布式控制制定的，但也可以在逻辑中控模型中使用：比如 RLlib 在其某些策略优化器中使用全局规约或者参数服务器等模式 (图 A-4)，我们将在第 A.5 章中评估它们的性能。

2.2 使用 Ray 来实现分层控制

其实在一台机器上就可以简单地使用线程池和共享内存来实现所提出的编程模型，但是如果需要的话，基础框架也可以扩展到更大的集群。我们选择在Ray 框架之上构建 RLlib，该框架允许将 Python 任务在大型集群中分布式执行。Ray 的分布式调度程序很适合分层控制模型，因为可以在 Ray 中实现嵌套计算，而没有中央任务调度瓶颈。

为了实现逻辑中控模型，首先必须要有一种机制来启动新进程并安排新任务。Ray 使用 Ray actor 满足了这一要求：Ray actor 是可以在集群中创建并接受远程函数调用的 Python 类，并且这些 actor 允许在函数调用中反过来启动更多的actor 并安排任务，这也满足了我们对层次调度的需求。

为了提高性能，Ray 提供了诸如聚合和广播之类的标准通信原语，并通过共享内存对象存储来实现大型数据对象的零复制共享，如第 5 章所示。我们将在第 4 章中进一步讨论框架性能。

3. 强化学习的抽象模式

要利用 RLlib 进行分布式执行算法，必须声明它们的策略、经验后处理器和目标函数，这些可以在任何深度学习框架中指定，包括 TensorFlow 和PyTorch。RLlib 提供了策略评估器和策略优化器，用于实现分布式策略评估和策略训练。

3.1 策略计算图的定义

此处介绍 RLlib 的抽象模式。用户指定一个策略模型，将当前观测值 $o_t$ 和（可选）RNN 的隐藏状态 $h_t$ 映射到一个动作 $a_t$ 和下一个 RNN 状态 $h_{t+1}$ 。任何用户定义的值 $y^i_t$ （例如，值预测、TD 误差）也可以返回：

大多数算法也会指定一个轨迹后处理函数，它可以将一批数据 $X_{t,K}$ 进行变换，其中是时刻的一个元组 $\{(o_t,h_t,a_t,h_{t+1},y^1_t,...,y^N_t,r_t,o_{t+1})\}$ .此处 $r_t$ 和 $o_{t+1}$ 表示时刻采取行动 $a_t$ 之后所获得的奖励和新的观测状态。后处理函数使用的典型例子有优势函数估计（GAE）和事后经验回放（HER）。为了支持多智能体环境，使用该函数处理不同的个智能体的数据也是可以的：

基于梯度的算法会定义一个目标函数，使用梯度下降法来改进策略和其他网络：

最后，用户还可以指定任意数量的在训练过程中根据需要调用的辅助函数 $u_i$ ,比如返回训练统计数据，更新目标网络，或者调整学习率控制器：

在 RLlib 实现中，这些算法函数在策略图类中定义，方法如下：

abstract class rllib.PolicyGraph:
	def act(self, obs, h): action, h, y*
	def postprocess(self, batch, b*): batch
	def gradients(self, batch): grads
	def get_weights
	def set_weights
	def u*(self, args*)

3.2 策略评估器

为了收集与环境交互的数据，RLlib 提供了一个叫做 PolicyEvaluator的类，封装了一个策略图和环境，并且支持 sample() 获取其中随机采样的数据。策略评价器实例可以作为 Ray actor，并在计算集群中复制以实现并行化。举个例子，可以考虑一个最小的 TensorFlow 策略梯度方法实现，它扩展了rllib.TFPolicyGraph 模板：

class PolicyGradient(TFPolicyGraph):
	def __init__(self, obs_space, act_space):
		self.obs, self.advantages = ...
		pi = FullyConnectedNetwork(self.obs)
		dist = rllib.action_dist(act_space, pi)
		self.act = dist.sample()
		self.loss = -tf.reduce_mean(
		dist.logp(self.act) * self.advantages)
	def postprocess(self, batch):
		return rllib.compute_advantages(batch)

根据该策略图定义，用户可以创建多个策略评估器副本 ev，并在每个副本上调用 ev.sample.remote()，从环境中并行收集经验。RLlib 支持 OpenAI Gym、用户定义的环境，也支持批处理的模拟器（如 ELF）：

evaluators = [rllib.PolicyEvaluator.remote(
env=SomeEnv, graph=PolicyGradient) for _ in range(10)]
print(ray.get([ev.sample.remote() for ev in evaluators]))

3.3 策略优化器

RLlib 将算法的实现分为与算法相关的策略计算图和与算法无关的策略优化器两个部分。策略优化器负责分布式采样、参数更新和管理重放缓冲区等性能关键任务。为了分布式计算，优化器在一组策略评估器副本上运行。

用户可以选择一个策略优化器，并通过引用现有的评价器来创建它。异步优化器使用评价器行为体在多个 CPU 上并行计算梯度（图 A-4©）。每个optimizer.step() 都会运行一轮远程任务来改进模型。在两次该函数被调用之间，还可以直接查询策略图副本，如打印出训练统计数据：

optimizer = rllib.AsyncPolicyOptimizer(
	graph=PolicyGradient, workers=evaluators)
while True:
	optimizer.step()
	print(optimizer.foreach_policy(lambda p: p.get_train_stats()))

策略优化器将众所周知的梯度下降优化器扩展到强化学习领域。一个典型的梯度下降化器实现了 $step(L(\theta),X,\theta)->\theta_{opt}$ . RLlib 的策略优化器在此基础上更进一步，在本地策略图和一组远程评估器副本上操作，即， $step(G,ev_1,...,ev_n,\theta)->\theta_{opt}$ , 将强化学习的采样阶段作也为优化的一部分（即在策略评估器上调用sample() 函数以产生新的仿真数据）。

将策略优化器如此抽象具有以下优点：通过将执行策略与策略优化函数定义分开，各种不同的优化器可以被替换进来，以利用不同的硬件和算法特性，却不需要改变算法的其余部分。策略图类封装了与深度学习框架的交互，使得用户可以避免将分布式系统代码与数值计算混合在一起，并使优化器的实现能够被在不同的深度学习框架中改进和重用。

如图 A-4 所示，通过利用集中控制，策略优化器简洁地抽象了强化学习算法优化中的多种选择：同步与异步，全局规约与参数服务器，以及使用 GPU 与 CPU的选择。RLlib 的策略优化器提供了与优化的参数服务器算法（图 A-5(a)）和基于 MPI 的实现（第 5 章）相当的性能。这种优化器在逻辑中控模型中很容易被实现，因为每个策略优化器对它所属的分布式计算进程有完全的控制权。

3.4 RLlib 抽象模式的完备性和普适性

我们通过以 RLlib 中的 API 形式化表 A-2 中列出的算法来证明 RLlib 中的抽象方法的完备性。在合适的情况下，我们还会描述该算法在 RLlib 中的具体实现。

DQN 算法族：DQN 算法族使用 $y^1$ 存储 TD 误差，在 $\rho_{\theta}$ 中实现 n 步奖励值
的计算，优化 Q 值的目标函数在中很容易实现。目标神经网络的更新在 $u^1$ 中实现，设置探索权重参数 $\epsilon$ 在 $u^2$ 中实现。

DQN 算法实现：为了支持经验回放，RLlib 中的 DQN 使用了一个策略优化器，将收集的样本保存在嵌入式回放缓冲区中。用户可以选择使用异步优化器（图 A-4©）。在优化器优化步骤之间，通过调用 $u^1$ 函数来更新目标网络。

Ape-X 算法实现：Ape-X 是 DQN 的一个变种，它利用分布式体经验优先化来扩展到数百个内核。为了适应我们的 DQN 实现，我们创建了具有分布式值的策略评估器，并编写了一个约 200 行的高吞吐量策略优化器，使用 Ray 的原语在各个 Ray actor 的重放缓冲区之间进行流水线采样和数据传输。我们的实现几乎线性地扩展到 256 个工作进程同时采样约每秒 16 万环境帧（图 A-5(b)），在一个V100 GPU 上，优化器可以计算梯度的速度为每秒约 8500 张输入大小为 80×80×4的图像。

策略梯度 / 异策略梯度：实现这些算法可以将预测的价值函数在 $y^1$ 中存储，在 $\rho_{\theta}$ 中实现优势估计函数，并将 actor 和 critic 的目标函数优化部分写在中。

PPO 算法实现：由于 PPO 的目标函数允许对样本数据进行多次 SGD 传递，所以当有足够的 GPU 内存时，RLlib 选择一个 GPU 策略优化器（图 A-4(b)），将数据引脚到本地 GPU 内存中。在每次迭代中，优化器从评估器副本中收集样本，在本地执行多 GPU 优化，然后广播新的模型权重。

A3C 算法实现：RLlib 的 A3C 可以使用异步（图 A-4©）或分片参数服务器（图 A-4(d)）策略优化器。这些优化器从策略评价器中收集梯度，随后更新的一系列副本。

DDPG 算法实现：RLlib 的 DDPG 使用与 DQN 相同的经验重放策略优化器。包括 actor 和 critic 的目标函数。用户也可以选择使用 Ape-X 策略优化器来优化DDPG 算法。

基于模型/混合：基于模型的强化学习算法扩展了 $\pi_{\theta}(o_t,h_t)$ ，根据模型的推演
进行决策，这部分也可以使用 Ray 进行并行化。为了更新它们的环境模型，可以将模型优化的目标函数写在中，也可以将模型单独训练，即使用 Ray 原语做到并行，并通过 $u^1$ 函数定期更新其权重。

多智能体：策略评估器可以在同一环境中同时运行多个策略为每个智能体产生批量的经验。许多多智能体强化学习算法使用一个中心化的价值函数，可以通过 $rho_{\theta}$ 整理来自多个智能体的经验来支持。

进化策略（ES）：是一种无导数优化方法，可以通过非梯度策略优化器实现。

进化策略算法实现：由于进化策略是一种无导数优化算法，因此可以很好地扩展到具有数千台 CPU 的集群。我们只做了一些微小改动，就能将进化策略的单线程实现移植到 RLlib 上，并通过行为体聚合树进一步扩展（图 A-8(a)）。这表明分层控制模型既灵活又容易适应不同算法。

PPO-ES 实验：我们研究了一种混合算法，在 ES 优化步骤的内循环中运行PPO 更新，该算法对 PPO 模型进行随机扰动。该算法的实现只花了大约 50 行代码，不需要改变 PPO，显示了并行性封装的价值。在我们所做的实验中，在Walker2d-v1 任务上 PPO-ES 收敛得比 PPO 更快，获得奖励也更高。一个类似的A3C-ES 实现以少于原先 30% 的时间解决了 PongDeterministic-v4。

AlphaGo：我们用 Ray 和 RLlib 的抽象组合来描述 AlphaGo Zero 算法的可扩展实现方法。

对多个分布式组件进行逻辑中控：AlphaGo Zero 使用了多个分布式组件：模型优化器、自我对弈评估器、候选模型评估器和共享重放缓冲区。这些组件可以在顶层 AlphaGo 策略优化器下作为 Ray actor 进行管理。每个优化器进行单步优化的时候都会在 Ray actor 状态上循环处理新的结果，在 Ray actor之间路由数据并启动新的 Ray actor 实例。
共享重放缓冲区：AlphaGo Zero 将来自于自我对弈评估器的经验存储在共享重放缓冲区中。这需要将对局结果路由到共享缓冲区，通过将结果对象的引用从一个 actor 传递到另一个 actor 即可以轻松完成。
最佳策略模型：AlphaGo Zero 会追踪当前的最佳策略模型，并只用该模型的自我对弈数据填充其重放缓冲区。候选模型必须达到 ⩾ 55% 的胜率才能取代最佳模型。实现这一点相当于在主循环中增加了一个 if 模块。
蒙特卡洛树搜索（MCTS）：MCTS 可以作为策略图的子程序来处理，也可以选择使用 Ray 进行并行化。

HyperBand 和 PBT 算法：Ray 实现了超参数搜索算法的分布式实现，如HyperBand 和 PBT 算法。只需为每个 RLlib 中的算法增加大约 15 行代码，我们能够使用上述算法来评估 RLlib 中的算法。我们注意到，这些算法在使用分布式控制模型时，由于需要修改现有的代码来插入协调点，因此这些算法的集成难度还挺大（图 A-3）。RLlib 使用短运行任务就避免了这个问题，因为在任务之间可以很容易做出控制决策。

4. 框架性能

在本章节中，我们将讨论 Ray 的属性和其他对 RLlib 至关重要的优化。

4.1 单计算节点性能

有状态的计算：任务可以通过 Ray actor 与其他任务共享可变状态。这对于在第三方模拟器或神经网络权重等有状态对象上操作和突变的任务来说至关重要。

共享内存对象存储：强化学习算法涉及到共享大量数据（例如采样和神经网络权重）。Ray 通过允许数据对象在worker之间直接传递数据对象来高效地支持这一点。在 Ray 中，同一台机器上的子任务也可以通过共享内存读取数据对象，而不需要复制额外数据。

向量化：RLlib 可以批处理策略评估，提高硬件利用率（图 A-7），支持批处理环境，并在行为体之间以标准数组格式高效传递经验数据。

4.2 分布式性能

轻量级任务：Ray 中的远程调用如果是在同一机器上，那么开销在 200μs 左右。当机器资源饱和时，任务会溢出到其他节点，延迟增加到 1ms 左右。这使得并行算法可以无缝地扩展到多台机器，同时保留了单节点的高吞吐量。

嵌套并行化：通过组合分布式组件构建强化学习算法会产生多级嵌套并行调用，如图 A-1所示。由于各个组件所做的决策可能会影响到下游的调用，因此调用图也必须是原生动态的。Ray 允许任何 Python 函数或类方法作为轻量级任务远程调用，例如，func.remote() 会远程执行 func 函数，并立即返回一个占位符结果，该结果以后可以被检索或传递给其他任务。

资源管理：Ray 允许远程调用指定资源需求，并利用资源感知调度器来保护组件的性能。如果缺失这个功能，分布式组件可能会不适当地分配资源，从而导致算法运行效率低下甚至失败。

故障容错和滞后缓解：故障事件在规模化运行时会变得十分棘手。RLlib 利用了 Ray 的内置容错机制，利用可抢先的云计算实例降低了成本。同样，滞留者会显著影响分布式的规模化的算法。RLlib 支持通过 ray.wait() 的通用方式缓解影响。例如，在 PPO 中，我们用这种策略删除最慢任务，但代价是有一定的采样偏差。

数据压缩：RLlib 使用 LZ4 算法对传输数据进行压缩。对于图像而言，LZ4在压缩率为 1GB/s 每 CPU 核心的情况下，减少了至少一个数量级以上的网络流量和内存占用。

5. 评估测试

采样效率：策略评估是所有强化学习算法的重要组成部分。在图 A-7 中，我们对从测评略评估器采样进程收集样本的可扩展性进行了基准测试。为了避免瓶颈，我们使用四个中间行为体进行聚合。Pendulum-CPU 在运行一个小的 64×64全连接的网络作为策略时，速度达到每秒超过 150 万个动作操作数。Pong-GPU在 DQN 卷积架构上采样速度接近 20 万每秒。

大规模测试：我们使用 Redis、OpenMPI 和分布式 TensorFlow 评估了 RLlib在 ES、PPO 和 A3C 三种算法上的性能，并与专门为这些算法构建的专用系统进行了比较。所有实验中都使用了相同的超参数。我们使用 TensorFlow 为所评估的RLlib 算法定义了神经网络。

RLlib 的 ES 实现在 Humanoid-v1 任务上的扩展性很好，如图 A-8 所示。使用AWS m4.16xl CPU 实例中 8192 个内核，我们在 3.7 分钟达到了 6000 的累计奖励，比已公布的最佳结果还要快一倍。对于 PPO 算法，我们在相同的 Humanoid-v1 任务上进行评估。从一个 p2.16xl 的 GPU 实例开始，然后添加 m4.16xl 的 GPU 实例进行拓展测试。这种具有成本效益的本地策略优化器要显著优于已有的 MPI 方案（表 A-3），图 A-8 也同样展示了这一点。

我们在 x1.16xl 机器上运行 RLlib 的 A3C 算法，使用异步策略优化器在 12 分钟内解决了 PongDeterministic-v4 任务，使用共享 param-server 优化器在 9 分钟内解决了PongDeterministic-v4 任务，性能与调优后的基线相匹配。

多 GPU：为了更好地理解 RLlib 在 PPO 实验中的优势，我们在一个 p2.16xl实例上进行了基准测试，比较了 RLlib 的本地多 GPU 策略优化器和表 A-3中的全局规约策略优化器。事实上，不同的策略在不同条件下表现更好，这表明策略优化器是一个有用的抽象。

6. 相关工作

在本工作之前有许多强化学习库，它们通常通过创建一个长期运行的程序副本进行扩展，每个副本都参与协调整个分布式计算，因此它们不能很好地推广到复杂的体系结构。RLlib 使用带有短期任务的分层控制模型来让每个组件控制其自己的分布式执行，从而使更高级别的抽象（例如策略优化器）可用于组成和扩展强化学习算法。

除了强化学习之外，学术界还进行了很多努力来探索不同深度学习框架之间的组成和整合。诸如 ONNX，NNVM 和 Gluon 这些框架定位于不同硬件与不同框架的模型部署，并提供了跨库的优化。现有深度学习框架也为强化学习算法中出现的基于梯度的优化模块提供支持。

7. 结论

RLlib 是一个强化学习的开源框架，它利用细粒度的嵌套并行机制在各种强化学习任务中实现了最优性能。它既提供了标准强化学习算法的集合，又提供了可扩展的接口，以方便地编写新的强化学习算法。

你可能感兴趣的:(分布式强化学习算法)

分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
php 高并发下日志量巨大，如何高效采集、存储、分析贵哥的编程之路(热爱分享为后来者) PHP语言经典程序100题 php 开发语言
1.问题背景高并发系统每秒产生大量日志（如访问日志、错误日志、业务日志等）。单机写入、存储、分析能力有限，容易成为瓶颈。需要支持实时采集、分布式存储、快速检索与分析。2.主流架构方案一、分布式日志采集架构[应用服务器(PHP等)]|v[日志采集Agent（如Filebeat、Fluentd、Logstash）]|v[消息队列/缓冲（如Kafka、Redis、RabbitMQ）]|v[日志存储（如E
RocketMQ 之死信队列 firepation RocketMQ rocketmq
在分布式消息系统中，消息的可靠传递和处理至关重要。然而，由于各种原因（如消息处理失败、消费超时等），一些消息可能无法被正常消费。这些无法被消费的消息如果不加以处理，会影响系统的稳定性和数据一致性。为了解决这一问题，RocketMQ提供了死信队列（DeadLetterQueue，DLQ）机制。本文将深入探讨RocketMQ的死信队列，包括其实现原理、应用场景以及使用示例。什么是死信队列？死信队列是一
ZooKeeper架构及应用场景详解走过冬季学习笔记 zookeeper 架构分布式
ZooKeeper是一个开源的分布式协调服务，由Apache软件基金会维护。它旨在为分布式应用提供高性能、高可用、强一致性的基础服务，解决分布式系统中常见的协调难题（如配置管理、命名服务、分布式锁、服务发现、领导者选举等）。核心软件架构ZooKeeper的架构设计围绕其核心目标（协调）而优化，主要包含以下关键组件：集群模式(Ensemble):ZooKeeper通常部署为集群（称为ensemble
zookeeper etcd区别 sun007700 zookeeper etcd 分布式
ZooKeeper与etcd的核心区别体现在设计理念、数据模型、一致性协议及适用场景等方面。‌ZooKeeper基于ZAB协议实现分布式协调，采用树形数据结构和临时节点特性，适合传统分布式系统；而etcd基于Raft协议，以高性能键值对存储为核心，专为云原生场景优化，是Kubernetes等容器编排系统的默认存储组件。‌‌1‌‌2‌架构与设计目标差异‌‌ZooKeeper‌。‌设计定位‌:专注于分
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
分布式选举算法＜一＞ Bully算法
分布式选举算法详解：Bully算法引言在分布式系统中，节点故障是不可避免的。当主节点（Leader）发生故障时，系统需要快速选举出新的主节点来保证服务的连续性。Bully算法是一种经典的分布式选举算法，以其简单高效的特点被广泛应用于各种分布式系统中。什么是Bully算法？Bully算法是一种基于优先级的分布式选举算法。每个节点都有一个唯一的ID，ID值越大的节点优先级越高。当主节点故障时，优先级最
全面探索Kafka：架构、应用与流处理
Kafka：企业级消息系统与流处理平台的深度解析ApacheKafka作为分布式流处理平台，广泛应用于大数据处理和实时分析领域。本文将基于其官方文档，详细探讨Kafka的核心功能、应用场景以及如何进行有效管理。背景简介Kafka作为高吞吐量的消息系统，支持企业级的发布-订阅模式。它能够处理大量实时数据，并支持高并发读写操作。本文将依据Kafka官方文档的内容，逐层深入，从入门到高级应用，帮助读者全
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
Python爬虫实战：基于最新技术的定时签到系统开发全解析 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言人工智能自动化知识图谱
摘要本文详细介绍了如何使用Python开发一个功能完善的定时签到爬虫系统。文章从爬虫基础知识讲起，逐步深入到高级技巧，包括异步请求处理、浏览器自动化、验证码破解、分布式架构等最新技术。我们将通过一个完整的定时签到项目案例，展示如何构建一个稳定、高效且具有良好扩展性的爬虫系统。文中提供了大量可运行的代码示例，涵盖requests、aiohttp、selenium、playwright等多种技术方案，
【Kafka专栏 13】Kafka的消息确认机制：不是所有的“收到”都叫“确认”！
作者名称：夏之以寒作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：夏之以寒-kafka专栏专栏介绍：本专栏旨在以浅显易懂的方式介绍Kafka的基本概念、核心组件和使用场景，一步步构建起消息队列和流处理的知识体系，无论是对分布式系统感兴趣，还是准备在大数据领域迈出第一步，本专栏都提供所需的一切资源、指导，以及相关面试题，立刻免费订阅，开启Kafka学习之旅！
web3中的ipfs 财神爷首席大弟子 web3 去中心化区块链
什么是web3：是基于区块链技术的分布式网络，主要目标是建立一个去中心化与信任化的互联网去中心化以及是信任化区块链：将所有的交易记录和什么护具存储在分布式网络中，每一个node都有完整的数据副本任何一个node修改都需要得到其他节点的认可，确保数据的真实性和和可信度web3有一些关键技术和标准，例如以太坊，IPFS，ENS，ERC标准等以太坊：以太币是一个开源的有智能合约功能的公共区块链平台，通过
使用ceph-ansible部署分布式存储Ceph-octopus版本降世神童云计算技术专栏分布式 ceph ansible
使用ceph-ansible部署分布式存储Ceph-octopus版本1.Ceph基础概念及部署方式1.1.Ceph基本概念1.2.Ceph部署方式2.系统初始化配置3.Ceph集群部署3.1.Ansible安装与配置3.2.ceph-ansible安装与配置3.2.1.下载ceph-ansible3.2.2.安装ceph-ansible依赖3.2.3.修改ceph配置文件3.3.开始部署ceph
2024年运维最新分布式存储ceph osd 常用操作_ceph查看osd对应硬盘(1)，2024年最新Linux运维编程基础教程 2401_83944328 程序员运维分布式 ceph
最全的Linux教程，Linux从入门到精通======================linux从入门到精通(第2版)Linux系统移植Linux驱动开发入门与实战LINUX系统移植第2版Linux开源网络全栈详解从DPDK到OpenFlow第一份《Linux从入门到精通》466页====================内容简介====本书是获得了很多读者好评的Linux经典畅销书**《Linu
【赵渝强老师】基于PostgreSQL的分布式数据库：Citus
由于PostgreSQL具有强大的功能和良好的可扩展性，因此基于PostgreSQL很容易就可以实现分布式架构。Citus便是具体的一种实现方式。它以扩展的插件形式与PostgreSQL进行集成，且独立于PostgreSQL内核，部署也比较简单。Citus是现在非常流行的基于PostgreSQL的分布式解决方案。一、Citus基础下面是百度百科中对分布式数据库的定义：分布式数据库系统通常使用较小的
使用HarmonyOS 5和CodeGenie辅助工具开发鸿蒙运动健康类应用的项目总结哼唧唧_ CodeGenie 运动健康 Harmony OS5 harmonyos 华为
一、项目背景与目标随着鸿蒙生态在穿戴设备、智能家居领域的快速扩展，我团队基于HarmonyOS5操作系统，开发了一款面向运动健康场景的智能应用——“Harmony健康伴侣”。项目采用华为官方推出的智能编程助手CodeGenie进行辅助开发，旨在验证CodeGenie在提升鸿蒙应用开发效率与质量方面的实际效果。二、核心功能实现该应用深度融合HarmonyOS分布式能力，支持跨设备无缝协同，主要功能包
万物智联时代启航：鸿蒙OS重塑全场景开发新生态黑巧克力可减脂鸿蒙开发鸿蒙系统
目录HarmonyOS简介：分布式操作系统，开启万物智联新时代HarmonyOS发展历程：从破局到引领核心特性：分布式技术三支柱应用场景：全场景覆盖的鸿蒙生态什么选择鸿蒙开发？技术红利与市场蓝海结语：拥抱鸿蒙，赢在万物智联起点HarmonyOS简介：分布式操作系统，开启万物智联新时代什么是鸿蒙？HarmonyOS（鸿蒙操作系统）是华为自主研发的面向全场景的分布式操作系统，其核心使命是打破设备孤岛，
redis锁java实现 brave_zhao redis java 数据库
以下是几种常见的Redis分布式锁的Java实现方式：1.基于SETNX命令的实现SETNX命令（对应Java中的setIfAbsent方法）是实现Redis分布式锁的基础。以下是实现代码：importredis.clients.jedis.Jedis;publicclassRedisLock{privateJedisjedis;publicRedisLock(Jedisjedis){this.j
服务实现99.99%高可用的核心措施
在分布式系统中，高可用性（HA）是衡量服务可靠性的核心指标。99.99%的可用性意味着系统每年的停机时间不超过约52.6分钟，这对金融交易、电信服务等关键业务至关重要。一、冗余设计与故障转移原理：通过冗余部署消除单点故障，确保部分节点故障时服务仍可用。故障转移机制自动将流量切换至健康节点，缩短服务中断时间。Java服务实现：集群部署：使用SpringCloudAlibaba或Dubbo构建微服务集
分布式事务解决方案总结：本地消息异步确认、可靠消息最终一致性、最大努力通知码到三十五面试攻关分布式 spring cloud spring boot
❃博主首页：「码到三十五」，同名公众号:「码到三十五」☠博主专栏：♝博主的话：搬的每块砖，皆为峰峦之基；公众号搜索「码到三十五」关注这个爱发技术干货的coder，一起筑基分布式系统中事务是一个重要挑战，先从从实现原理、技术细节、适用场景三个维度，对三种主流分布式事务解决方案进行简单总结。一、本地消息异步确认方案实现原理该方案通过「本地事务+消息表」机制实现最终一致性，核心思想是将业务操作与消息发送
SkyWalking实现微服务链路追踪的埋点方案 MenzilBiz 服务器运维微服务 skywalking
SkyWalking实现微服务链路追踪的埋点方案一、SkyWalking简介SkyWalking是一款开源的APM(应用性能监控)系统，特别为微服务、云原生架构和容器化(Docker/Kubernetes)应用而设计。它主要功能包括分布式追踪、服务网格遥测分析、指标聚合和可视化等。SkyWalking支持多种语言（Java、Go、Python等）和协议（HTTP、gRPC等），能够提供端到端的调用
谈谈这两年来，HCIE数通认证通过率不升反降？博睿谷IT99_ 华为职业规划职场发展
粉丝灵魂发问："不是说技术越成熟通过率越高吗？为啥2025年考HCIE数通比前两年还难？"数据来说真话：2023年全球平均通过率约50%→2025年骤降至20%-30%一、通过率不升反降的三大硬核原因1.考试内容迭代速度碾压考生学习速度（1）技术栈暴增1）新增SDN控制器（iMasterNCE）配置2）强制考察Python网络自动化脚本（NetConf/YANG模型实战）3）强化SRv6、IPv6
从面试懵逼到通透掌握：分布式锁原理全解（附Redisson与Redlock机制剖析）爱骑行的Coder 数据库 redis java基础面试分布式 java redis 后端
从面试懵逼到通透掌握：分布式锁原理全解（附Redisson与Redlock机制剖)你是不是也有这样的经历？简历上写着“精通Java，精通Redis，熟悉高并发场景”，结果一面下来，分布式锁怎么实现？Redisson是怎么加锁的？看门狗机制了解吗？锁丢失你知道怎么解决吗？全程“啊能能”，频频磕巴。本文不整虚的，带你从0到1，一步步真正搞懂分布式锁的原理与落地实践，面试高频，架构核心，不能不会。一、什
医疗金融预测与语音识别中的模型优化及可解释性技术突破智能计算研究中心其他
内容概要随着人工智能技术的纵深发展，模型优化与可解释性技术正在重塑医疗诊断、金融预测及语音识别领域的应用范式。在医疗领域，基于自适应学习的动态参数调整机制，结合迁移学习的跨场景知识复用，显著提升了疾病筛查模型的泛化能力；而金融预测场景中，联邦学习框架通过分布式数据协作，在保障隐私安全的前提下，实现了风险预测模型的多维度优化。语音识别领域则依托边缘计算架构，将模型压缩技术与实时推理引擎结合，有效解决
专题：2025云计算与AI技术研究趋势报告|附200+份报告PDF、原数据表汇总下载
原文链接：https://tecdat.cn/?p=42935关键词：2025,云计算，AI技术，市场趋势，深度学习，公有云，研究报告云计算和AI技术正以肉眼可见的速度重塑商业世界。过去十年，全球云服务收入激增8倍，中国云计算市场规模突破6000亿元，而深度学习算法的应用量更是暴涨400倍。这些数字背后，是企业从“自建机房”到“云原生开发”的转型，是AI从“实验室”走向“产业级应用”的跨越。本报告
稀土-高分子复合材料：新一代功能材料的突破 DeepCeLa 稀土稀土科技磷酸镧
稀土元素（镧系及钪、钇）凭借其特殊的4f电子构型，在高分子材料改性中展现出独特价值。通过配位键合、物理掺杂或纳米复合等技术，稀土与聚合物基体结合可显著提升材料综合性能，并赋予多种特殊功能。一、核心优势稳定性升级：稀土离子（如Ce³⁺/Ce⁴⁺）通过捕获自由基和紫外光子，使材料热分解温度提升30-50℃，紫外耐受性提高5-8倍，适用于极端环境下的工程塑料。力学强化：稀土配合物可诱导聚合物结晶度提升，
强化学习之 DQN、Double DQN、PPO JNU freshman 强化学习强化学习
文章目录通俗理解DQNDoubleDQNPPO结合公式理解通俗理解DQN一个简单的比喻和分步解释来理解DQN（DeepQ-Network，深度Q网络），就像教小朋友学打游戏一样：先理解基础概念：Q学习（Q-Learning）想象你在教一只小狗玩电子游戏（比如打砖块）。小狗每做一个动作（比如“向左移动”或“发射球”），游戏会给出一个奖励（比如得分增加）或惩罚（比如球掉了）。小狗的目标是通过不断尝试，
Spring Boot 在后端领域的微服务负载均衡实践 AI大模型应用实战 spring boot 微服务负载均衡 ai
SpringBoot在后端领域的微服务负载均衡实践关键词：SpringBoot、微服务、负载均衡、Ribbon、服务发现、高可用、分布式系统摘要：本文深入探讨了SpringBoot在微服务架构中实现负载均衡的实践方法。我们将从基础概念出发，详细分析负载均衡的核心原理，介绍SpringCloud生态中的关键组件（如Ribbon、Eureka等），并通过完整的代码示例展示如何在实际项目中实现高效的负载
Kafka系列之：安装具有安全认证的kafka-2.8.2分布式集群快乐骑行^_^ 大数据 Kafka系列安全认证 kafka-2.8.2 分布式集群
Kafka系列之：安装具有安全认证的kafka-2.8.2分布式集群一、下载Zookeeper3.7.1和Kafka2.8.2二、解压Zookeeper3.7.1和Kafka2.8.2三、安装Zookeeper3.7.1详细步骤1.修改zookeeper配置文件2.创建zookeeper数据目录3.zookeeper创建myid4.设置zookeeper访问kafka认证5.拷贝zookeeper
如何通过YashanDB做到企业数据的透明化管理数据库
在当前数字化转型的背景下，企业面临的数据管理挑战愈发复杂，尤其是数据的透明化管理显得尤为重要。企业往往需要对海量数据进行实时分析和决策支持，而现有的传统管理方式难以满足高效和透明化的需求。YashanDB作为一款高效的分布式数据库，提供了多种支持透明化管理的特性，通过其独特的体系架构和技术手段，能够帮助企业实现数据的透明化管理。YashanDB的体系架构与透明化管理部署架构YashanDB支持多种
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。