李远路

spark写出分布式的训练算法_RLlib：一个分布式强化学习系统的凝练

毕业设计需要完整翻译一篇文献（没啥好综述的），找来找去还是决定翻译RLlib的paper "RLlib: Abstractions for Distributed Reinforcement Learning"

中文翻译PDF版链接，感觉比知乎这样排版要好多了：

PDF版ml.cs.tsinghua.edu.cn

arXiv原文：https://arxiv.org/pdf/1712.09381.pdf

可能有些地方翻译不准，比如名词错误之类的，可以随时指出

摘要

强化学习算法涉及到高度不规则的计算模式的深度嵌套，每个模式通常都表现出分布式计算的机会。我们提出采用自顶向下分层控制的分布式强化学习算法，从而更好地采用并行计算资源调度来完成这些任务。在RLlib，一个可拓展的强化学习软件平台中，我们展示了我们所提出理论的好处：它能够让一系列的强化学习算法达到高性能、可拓展和大量代码重用这些特性。RLlib是开源项目Ray的一部分，文档位于 https://docs.ray.io/en/master/rllib.html。

引言

并行计算和符号微分是最近深度学习成功的基石。如今有各种各样的深度学习框架被开发出来，研究者们可以在这些框架中设计神经网络快速迭代创新，并能够在该领域的进步所需的规模上加速训练。

虽然强化学习界在深度学习的系统和抽象方面取得了很大的进步，但在直接针对强化学习的系统和抽象设计方面的进展相对较少。尽管如此，强化学习中的许多挑战都源于对学习和仿真的规模化需求，同时也需要整合快速增长的算法和模型。因此设计这么一个系统是很有必要的。

在没有单一的主导计算模式（例如张量代数）或基本组成规则（例如符号微分）的情况下，强化学习算法的设计与实现通常非常麻烦，它要求强化学习研究人员直接设计复杂嵌套并行程序。与深度学习框架中的典型运算符不同，各个组件可能需要跨集群并行、利用深度学习框架实现的神经网络、递归调用其他组件、与其他接口进行交互，其中许多部分的异构性和分布式性质对实现它们的并行版本提出了不小的挑战，而上层算法也正在迅速发展，也在不同级别上提出了并行性的更高要求。最后，这些算法模块还需要处理不同层级、甚至跨物理设备的并行。

图A-1：和深度学习相比，深度强化学习具有着不同层级的并行和不一样的计算模式。表A-1呈现了更详细的说明。

强化学习算法框架在近些年来被不断开发。尽管其中一些具有高度可拓展性，但很少能实现大规模组件的组合，很大程度上是由于这些库使用的许多框架都依赖于长时间运行的程序副本之间的通信来进行分布式执行。例如 MPI，分布式 TensorFlow 和参数服务器等原型。这些原型不会将并行性和资源需求封装在单个组件中，因此重用这些分布式组件需要在程序中插入适当的控制点。这是一个十分繁琐且容易出错的过程。缺少可用的封装会阻碍代码重用，并导致数学上复杂且高度随机的算法的重新实现容易出错。更糟糕的是，在分布式环境中，重新实现一个新的强化学习算法通常还必须重新实现分布式通信和执行的大部分内容。

我们认为通过组合和重用现有模块与算法实现来构建可拓展的强化学习算法对于该领域快速发展和进步至关重要。我们注意到实现强化学习平台的困难之处在于可伸缩性和可组合性，而这两种特性不能通过单线程库轻松实现。为此，我们主张围绕逻辑集中式程序控制（逻辑中控）和并行封装的原理构造分布式强化学习组件。我们根据这些原则构建了RLlib，结果不仅能够实现各种最新的强化学习算法，而且还拥有了可用于轻松组成新算法的可拓展单元。

spark写出分布式的训练算法_RLlib：一个分布式强化学习系统的凝练_第2张图片

图A-2：目前大多数强化学习算法都是以完全分布式的方式编写的 (a)。我们提出了一种分层控制模型 (c)，它扩展了 (b)，支持强化学习中的嵌套和超参数调优工作，简化和统一了用于实现的编程模型。

强化学习训练的计算模式不规则性

spark写出分布式的训练算法_RLlib：一个分布式强化学习系统的凝练_第3张图片

表 A-1：不同强化学习算法，计算需求量跨度大。

目前的强化学习算法在其创建的计算模式中是高度不规则的，如表A-1所示，突破了如今流行的分布式框架所支持的计算模型的界限。这种不规则发生在如下几个层面：

根据算法的不同，任务的持续时间和资源需求也有数量级的差异；例如A3C的更新可能需要几毫秒，但其他算法如PPO需要更大粒度时间颗粒。
通信模式各异，从同步到异步的梯度优化，再到在高通量的异策略学习算法（如Ape-X和IMPALA）中拥有多种类型的异步任务，通信模式各不相同。
基于模型的混合算法（表A-2）、强化学习或深度学习训练相结合的超参数调优、或是在单一算法中结合无导数优化和基于梯度的优化等方式产生嵌套计算。
强化学习算法经常需要维护和更新大量的状态，包括策略参数、重放缓冲区，甚至还有外部模拟器等。

因此，开发人员只能使用大杂烩的框架来实现他们的算法，包括参数服务器、类MPI框架中的集体通信基元、任务队列等。对于更复杂的算法，常见的做法是构建自定义的分布式系统，在这个系统中，进程之间独立计算和协调，没有中央控制（图A-2(a)）。虽然这种方法可以实现较高的性能，但开发和评估的成本很大，不仅因为需要实现和调试分布式程序，而且因为这些算法的组成进一步使其实现复杂化（图A-3）。此外，今天的计算框架（如Spark、MPI）通常是假设有规律的计算模式，当子任务的持续时间、资源需求或嵌套不同时，这些计算框架会有性能损失。

对分布式强化学习算法进行逻辑中控

我们希望一个单一的编程模型能够满足强化学习算法训练的所有要求。这可以在不放弃结构化计算的高级框架的情况下实现。对于每个分布式强化学习算法，我们可以写出一个等效的算法，表现出逻辑上集中的程序控制（图A-2(b)）。也就是说，不用让独立执行进程（图A-2(a) 中的A、B、C、D）相互协调（例如，通过RPC、共享内存、参数服务器或集体通信），而是一个单一的驱动程序（图A-2(b) 和A-2(c) 中的D）可以将算法的子任务委托给其他进程并行执行。在这种工作模式中，工作进程A、B、C被动地保持状态（如策略或仿真器状态），但在被D调用之前不执行任何计算，为了支持嵌套计算，我们提出用分层委托控制模型（图A-2(c)）来扩展集中控制模型，允许工作进程（如B、C）在执行任务时进一步将自己的工作（如仿真、梯度计算）委托给自己的子工作进程。

在这样一个逻辑上集中的分层控制模型的基础上搭建强化学习框架，有如下几个重要优势：首先，等效算法在实际应用中往往更容易实现，因为分布式控制逻辑完全封装在一个进程中，而不是多个进程同时执行。其次，将算法组件分离成不同的子程序（例如，做卷积运算、计算梯度与某些策略的目标函数的梯度），可以在不同的执行模式下实现代码的重用。有不同资源需求的子任务（CPU任务或者GPU任务）可以放在不同的机器上，从而能够降低计算成本，我们将在评估测试章节中展示这一点。最后，在这个模型中编写的分布式算法可以相互之间无缝嵌套，满足了并行性封装原则。

逻辑中控模型可以有很高的性能，我们提出的分层委托控制模型更是如此。这是因为进程之间的大部分数据传输（图A-2中的蓝色箭头）都发生在驱动带外，没有遇到任何驱动中心瓶颈。事实上，许多高度可扩展的分布式系统在设计中都利用集中控制。像TensorFlow这样的框架也实现了将张量计算逻辑上的集中调度到可用的物理设备上，即使需求只有单个可微分的张量图。我们的工作能够将这一原则扩展到更广泛的机器学习系统设计理念中。

本文的贡献主要有如下三点：

我们为强化学习训练提出了一个通用且模块化的分层编程模型
我们描述了RLlib，一个高度可扩展的强化学习算法库，以及如何在我们的代码库上面快速构建一系列强化学习算法
我们讨论了这一框架的性能，并表明RLlib在各种强化学习算法中和众多框架相比达到或超过了最优性能

分层并行任务模型

spark写出分布式的训练算法_RLlib：一个分布式强化学习系统的凝练_第4张图片

图A-3：将分布式超参数搜索与分布式计算的函数组合在一起，会涉及到复杂的嵌套并行计算模式。如果使用MPI (a)，必须从头开始编写一个新程序，将所有元素混合在一起。使用分层控制 (b)，组件可以保持不变，并且可以作为远程任务简单地调用。

如图A-3所示，如果使用 MPI 或者分布式 Tensorflow 之类的框架作为底层来设计并行化写强化学习算法代码的时候，需要对每个算法的适配进行定制化代码修改。这限制了新的分布式强化学习算法的快速开发。尽管图A-3中的示例很简单，但例如HyperBand、PBT等需要长时间运行的、精细的超参数调整的算法越来越需要对培训进行细粒度的控制。

我们建议在基于任务的灵活编程模型（例如Ray）的基础上，通过分层控制和逻辑中控来构建强化学习算法库。基于任务的系统允许在细粒度的基础上，在子进程上异步调度和执行子例程，并在进程之间检索或传递结果。

和已有的分布式机器学习抽象模式的关系

诸如参数服务器和集体通信操作之类的抽象模式尽管通常是为分布式控制制定的，但也可以在逻辑中控模型中使用：比如RLlib在其某些策略优化器中使用全局规约或者参数服务器等模式 (图A-4)，我们将在评估测试章节中评估它们的性能。

使用Ray来实现分层控制

其实在一台机器上就可以简单地使用线程池和共享内存来实现所提出的编程模型，但是如果需要的话，基础框架也可以扩展到更大的集群。

我们选择在Ray框架之上构建RLlib，该框架允许将Python任务在大型集群中分布式执行。Ray的分布式调度程序很适合分层控制模型，因为可以在Ray中实现嵌套计算，而没有中央任务调度瓶颈。

为了实现逻辑中控模型，首先必须要有一种机制来启动新进程并安排新任务。 Ray使用Ray actor满足了这一要求：Ray actor是可以在集群中创建并接受远程函数调用的Python类，并且这些actor允许在函数调用中反过来启动更多的actor并安排任务，这也满足了我们对层次调度的需求。

为了提高性能，Ray提供了诸如聚合和广播之类的标准通信原语，并通过共享内存对象存储来实现大型数据对象的零复制共享，如评估测试章节中所示。我们将在框架性能章节中进一步讨论框架性能。

强化学习的抽象模式

要利用RLlib进行分布式执行算法，必须声明它们的策略

、经验后处理器

和目标函数

，这些可以在任何深度学习框架中指定，包括TensorFlow和PyTorch。RLlib提供了策略评估器和策略优化器，用于实现分布式策略评估和策略训练。

策略计算图的定义

此处介绍RLlib的抽象模式。用户指定一个策略模型

，将当前观测值

和（可选）RNN 的隐藏状态

映射到一个动作

和下一个RNN状态

。任何用户定义的值

（例如，值预测、TD误差）也可以返回：

大多数算法也会指定一个轨迹后处理函数

，它可以将一批数据

进行变换，其中

是一个时刻

的元组

。此处

和

表示

时刻采取行动

之后所获得的奖励和新的观测状态。后处理函数使用的典型例子有优势函数估计（GAE）和事后经验回放（HER）。为了支持多智能体环境，使用该函数处理不同的

个智能体的数据也是可以的：

基于梯度的算法会定义一个目标函数

，使用梯度下降法来改进策略和其他网络：

最后，用户还可以指定任意数量的在训练过程中根据需要调用的辅助函数

，比如返回训练统计数据

，更新目标网络，或者调整学习率控制器：

在RLlib实现中，这些算法函数在策略图类中定义，方法如下：

abstract class rllib.PolicyGraph:
    def act(self, obs, h): action, h, y*
    def postprocess(self, batch, b*): batch
    def gradients(self, batch): grads
    def get_weights
    def set_weights
    def u*(self, args*)

策略评估器

为了收集与环境交互的数据，RLlib提供了一个叫做 PolicyEvaluator 的类，封装了一个策略图和环境，并且支持 sample() 获取其中随机采样的数据。策略评价器实例可以作为Ray actor，并在计算集群中复制以实现并行化。举个例子，可以考虑一个最小的TensorFlow策略梯度方法实现，它扩展了 rllib.TFPolicyGraph 模板：

class PolicyGradient(TFPolicyGraph):
    def __init__(self, obs_space, act_space):
        self.obs, self.advantages = ...
        pi = FullyConnectedNetwork(self.obs)
        dist = rllib.action_dist(act_space, pi)
        self.act = dist.sample()
        self.loss = -tf.reduce_mean(
            dist.logp(self.act) * self.advantages)
    def postprocess(self, batch):
        return rllib.compute_advantages(batch)

根据该策略图定义，用户可以创建多个策略评估器副本 ev，并在每个副本上调用ev.sample.remote()，从环境中并行收集经验。RLlib支持OpenAI Gym、用户定义的环境，也支持批处理的模拟器（如ELF）：

evaluators = [rllib.PolicyEvaluator.remote(
    env=SomeEnv, graph=PolicyGradient) for _ in range(10)]
print(ray.get([ev.sample.remote() for ev in evaluators]))

策略优化器

RLlib将算法的实现分为与算法相关的策略计算图和与算法无关的策略优化器两个部分。策略优化器负责分布式采样、参数更新和管理重放缓冲区等性能关键任务。为了分布式计算，优化器在一组策略评估器副本上运行。

用户可以选择一个策略优化器，并通过引用现有的评价器来创建它。异步优化器使用评价器行为体在多个CPU上并行计算梯度（图A-4(c)）。每个 optimizer.step() 都会运行一轮远程任务来改进模型。在两次该函数被调用之间，还可以直接查询策略图副本，如打印出训练统计数据：

optimizer = rllib.AsyncPolicyOptimizer(
    graph=PolicyGradient, workers=evaluators)
while True:
    optimizer.step()
    print(optimizer.foreach_policy(
        lambda p: p.get_train_stats()))

策略优化器将众所周知的梯度下降优化器扩展到强化学习领域。一个典型的梯度下降化器实现了

。RLlib的策略优化器在此基础上更进一步，在本地策略图

和一组远程评估器副本上操作，即，

，将强化学习的采样阶段作也为优化的一部分（即在策略评估器上调用

sample() 函数以产生新的仿真数据）。

将策略优化器如此抽象具有以下优点：通过将执行策略与策略优化函数定义分开，各种不同的优化器可以被替换进来，以利用不同的硬件和算法特性，却不需要改变算法的其余部分。策略图类封装了与深度学习框架的交互，使得用户可以避免将分布式系统代码与数值计算混合在一起，并使优化器的实现能够被在不同的深度学习框架中改进和重用。

（update：感谢Harry提醒，All reduce翻译作全局规约）

spark写出分布式的训练算法_RLlib：一个分布式强化学习系统的凝练_第5张图片

图A-4：四种RLlib策略优化器步骤方法的伪代码。每次调用优化函数时，都在本地策略图和远程评估程序副本阵列上运行。图中用橙色高亮Ray的远程执行调用，用蓝色高亮Ray的其他调用。 apply 是更新权重的简写。此处省略迷你批处理代码和辅助函数。 RLlib中的参数服务器优化器还实现了流水线模式

如图A-4所示，通过利用集中控制，策略优化器简洁地抽象了强化学习算法优化中的多种选择：同步与异步，全局规约与参数服务器，以及使用GPU与CPU的选择。RLlib的策略优化器提供了与优化的参数服务器算法（图A-5(a)）和基于MPI的实现（评估测试章）相当的性能。这种优化器在逻辑中控模型中很容易被实现，因为每个策略优化器对它所属的分布式计算进程有完全的控制权。

spark写出分布式的训练算法_RLlib：一个分布式强化学习系统的凝练_第6张图片

图A-5：RLlib的集中控制的策略优化器与专有系统实现性能相匹配或超过其实现。RLlib的参数服务器优化器使用8个分片，与类似条件下测试的分布式TensorFlow实现相比十分具有竞争力。RLlib的Ape-X策略优化器在256个工作进程、跳跃帧数为4的情况下可扩展到16万帧每秒，远远超过了参考吞吐量4.5万帧每秒

RLlib抽象模式的完备性和普适性

spark写出分布式的训练算法_RLlib：一个分布式强化学习系统的凝练_第7张图片

表A-2：RLlib的策略优化器和评价器在逻辑中控模型中捕获了常见的组件（评估、回放、梯度优化器），并利用Ray的分层任务模型支持其他分布式组件。

我们通过以RLlib中的API形式化表A-2中列出的算法来证明RLlib中的抽象方法的完备性。在合适的情况下，我们还会描述该算法在RLlib中的具体实现。

DQN算法族：DQN算法族使用

存储 TD 误差，在

中实现 n 步奖励值的计算，优化Q值的目标函数在

中很容易实现。目标神经网络的更新在

中实现，设置探索权重参数

在

中实现。

DQN算法实现：为了支持经验回放，RLlib中的DQN使用了一个策略优化器，将收集的样本保存在嵌入式回放缓冲区中。用户可以选择使用异步优化器（图A-4(c)）。在优化器优化步骤之间，通过调用

函数来更新目标网络。

Ape-X算法实现：Ape-X是DQN的一个变种，它利用分布式体经验优先化来扩展到数百个内核。为了适应我们的DQN实现，我们创建了具有分布式

值的策略评估器，并编写了一个约200行的高吞吐量策略优化器，使用Ray的原语在各个Ray actor的重放缓冲区之间进行流水线采样和数据传输。我们的实现几乎线性地扩展到256个工作进程同时采样约每秒16万环境帧（图A-5(b)），在一个V100 GPU上，优化器可以计算梯度的速度为每秒约8500张输入大小为80×80×4的图像。

策略梯度 / 异策略梯度：实现这些算法可以将预测的价值函数在

中存储，在

中实现优势估计函数，并将actor和critic的目标函数优化部分写在

中。

PPO算法实现：由于PPO的目标函数允许对样本数据进行多次SGD传递，所以当有足够的GPU内存时，RLlib选择一个GPU策略优化器（图A-4(b)），将数据引脚到本地GPU内存中。在每次迭代中，优化器从评估器副本中收集样本，在本地执行多GPU优化，然后广播新的模型权重。

A3C算法实现：RLlib的A3C可以使用异步（图A-4(c)）或分片参数服务器（图A-4(d)）策略优化器。这些优化器从策略评价器中收集梯度，随后更新

的一系列副本。

DDPG算法实现：RLlib的DDPG使用与DQN相同的经验重放策略优化器。

包括actor和critic的目标函数。用户也可以选择使用Ape-X策略优化器来优化DDPG算法。

基于模型/混合：基于模型的强化学习算法扩展了

，根据模型的推演进行决策，这部分也可以使用Ray进行并行化。为了更新它们的环境模型，可以将模型优化的目标函数写在

中，也可以将模型单独训练，即使用Ray原语做到并行，并通过

函数定期更新其权重。

多智能体：策略评估器可以在同一环境中同时运行多个策略为每个智能体产生批量的经验。许多多智能体强化学习算法使用一个中心化的价值函数，可以通过

整理来自多个智能体的经验来支持。

进化策略（ES）：是一种无导数优化方法，可以通过非梯度策略优化器实现。

进化策略算法实现：由于进化策略是一种无导数优化算法，因此可以很好地扩展到具有数千台CPU的集群。我们只做了一些微小改动，就能将进化策略的单线程实现移植到RLlib上，并通过行为体聚合树进一步扩展（图A-8(a)）。这表明分层控制模型既灵活又容易适应不同算法。

PPO-ES实验：我们研究了一种混合算法，在ES优化步骤的内循环中运行PPO更新，该算法对PPO模型进行随机扰动。该算法的实现只花了大约50行代码，不需要改变PPO，显示了并行性封装的价值。在我们所做的实验中，在Walker2d-v1任务上PPO-ES收敛得比PPO更快，获得奖励也更高。一个类似的A3C-ES实现以少于原先30%的时间解决了PongDeterministic-v4。

AlphaGo：我们用Ray和RLlib的抽象组合来描述AlphaGo Zero算法的可扩展实现方法。

对多个分布式组件进行逻辑中控：AlphaGo Zero使用了多个分布式组件：模型优化器、自我对弈评估器、候选模型评估器和共享重放缓冲区。这些组件可以在顶层AlphaGo策略优化器下作为Ray actor进行管理。每个优化器进行单步优化的时候都会在Ray actor状态上循环处理新的结果，在Ray actor之间路由数据并启动新的Ray actor实例。
共享重放缓冲区：AlphaGo Zero将来自于自我对弈评估器的经验存储在共享重放缓冲区中。这需要将对局结果路由到共享缓冲区，通过将结果对象的引用从一个actor传递到另一个actor即可以轻松完成。
最佳策略模型：AlphaGo Zero会追踪当前的最佳策略模型，并只用该模型的自我对弈数据填充其重放缓冲区。候选模型必须达到
的胜率才能取代最佳模型。实现这一点相当于在主循环中增加了一个 if 模块。
蒙特卡洛树搜索（MCTS）：MCTS可以作为策略图的子程序来处理，也可以选择使用Ray进行并行化。

HyperBand和PBT算法：Ray实现了超参数搜索算法的分布式实现，如HyperBand和PBT算法。只需为每个RLlib中的算法增加大约15行代码，我们能够使用上述算法来评估RLlib中的算法。我们注意到，这些算法在使用分布式控制模型时，由于需要修改现有的代码来插入协调点，因此这些算法的集成难度还挺大（图A-3）。RLlib使用短运行任务就避免了这个问题，因为在任务之间可以很容易做出控制决策。

spark写出分布式的训练算法_RLlib：一个分布式强化学习系统的凝练_第8张图片

图A-6：在RLlib的分层控制模型中，复杂的强化学习架构很容易被实现。这里蓝线表示数据传输，橙线表示轻量开销方法调用。每个 train() 函数的调用包含了各个组件之间的一系列远程调用。

框架性能

在本章节中，我们将讨论Ray的属性和其他对RLlib至关重要的优化。

单计算节点性能

有状态的计算：任务可以通过Ray actor与其他任务共享可变状态。这对于在第三方模拟器或神经网络权重等有状态对象上操作和突变的任务来说至关重要。

共享内存对象存储：强化学习算法涉及到共享大量数据（例如采样和神经网络权重）。Ray通过允许数据对象在工人之间直接传递数据对象来高效地支持这一点。在Ray中，同一台机器上的子任务也可以通过共享内存读取数据对象，而不需要复制额外数据。

向量化：RLlib可以批处理策略评估，提高硬件利用率（图A-7），支持批处理环境，并在行为体之间以标准数组格式高效传递经验数据。

分布式性能

轻量级任务：Ray中的远程调用如果是在同一机器上，那么开销在200μs左右。当机器资源饱和时，任务会溢出到其他节点，延迟增加到1ms左右。这使得并行算法可以无缝地扩展到多台机器，同时保留了单节点的高吞吐量。

嵌套并行化：通过组合分布式组件构建强化学习算法会产生多级嵌套并行调用，如图A-1所示。由于各个组件所做的决策可能会影响到下游的调用，因此调用图也必须是原生动态的。Ray允许任何Python函数或类方法作为轻量级任务远程调用，例如，func.remote() 会远程执行 func 函数，并立即返回一个占位符结果，该结果以后可以被检索或传递给其他任务。

资源管理：Ray允许远程调用指定资源需求，并利用资源感知调度器来保护组件的性能。如果缺失这个功能，分布式组件可能会不适当地分配资源，从而导致算法运行效率低下甚至失败。

故障容错和滞后缓解：故障事件在规模化运行时会变得十分棘手。RLlib利用了Ray的内置容错机制，利用可抢先的云计算实例降低了成本。同样，滞留者会显著影响分布式的规模化的算法。RLlib支持通过 ray.wait() 的通用方式缓解影响。例如，在 PPO 中，我们用这种策略删除最慢任务，但代价是有一定的采样偏差。

数据压缩：RLlib使用LZ4算法对传输数据进行压缩。对于图像而言，LZ4在压缩率为1GB/s每CPU核心的情况下，减少了至少一个数量级以上的网络流量和内存占用。

评估测试

采样效率：策略评估是所有强化学习算法的重要组成部分。在图A-7中，我们对从测评略评估器采样进程收集样本的可扩展性进行了基准测试。为了避免瓶颈，我们使用四个中间行为体进行聚合。Pendulum-CPU在运行一个小的64×64全连接的网络作为策略时，速度达到每秒超过150万个动作操作数。Pong-GPU在DQN卷积架构上采样速度接近20万每秒。

大规模测试：我们使用Redis、OpenMPI和分布式TensorFlow评估了RLlib在ES、PPO和A3C三种算法上的性能，并与专门为这些算法构建的专用系统进行了比较。所有实验中都使用了相同的超参数。我们使用TensorFlow为所评估的RLlib算法定义了神经网络。

RLlib的ES实现在Humanoid-v1任务上的扩展性很好，如图A-8所示。使用 AWS m4.16xl CPU 实例中8192个内核，我们在3.7分钟达到了6000的累计奖励，比已公布的最佳结果还要快一倍。对于PPO算法，我们在相同的Humanoid-v1任务上进行评估。从一个 p2.16xl 的GPU实例开始，然后添加m4.16xl的GPU实例进行拓展测试。这种具有成本效益的本地策略优化器要显著优于已有的MPI方案（表A-3），图A-8也同样展示了这一点。

我们在x1.16xl机器上运行RLlib的A3C算法，使用异步策略优化器在12分钟内解决了PongDeterministic-v4任务，使用共享param-server优化器在9分钟内解决了PongDeterministic-v4任务，性能与调优后的基线相匹配。

多GPU：为了更好地理解RLlib在PPO实验中的优势，我们在一个p2.16xl实例上进行了基准测试，比较了RLlib的本地多GPU策略优化器和表A-3中的全局规约策略优化器。事实上，不同的策略在不同条件下表现更好，这表明策略优化器是一个有用的抽象。

spark写出分布式的训练算法_RLlib：一个分布式强化学习系统的凝练_第9张图片

表A-3：一个专门的多GPU策略优化器在数据可以完全装入GPU内存时，表现优于全局规约。这个实验是针对有64个评估进程的PPO进行的。PPO批处理量为320k，SGD批处理量为32k，我们在每个PPO批处理量中使用了20次SGD。

spark写出分布式的训练算法_RLlib：一个分布式强化学习系统的凝练_第10张图片

图A-7：策略评估的吞吐量从1到128核几乎呈线性扩展。GPU上的PongNoFrameskip-v4每秒操作数从2400到约20万，CPU上的Pendulum-v0每秒操作数从1.5万到150万。我们使用单个p3.16xl AWS实例进行1-16个CPU核心上的评估，和4个p3.16xl实例的集群进行32-128个CPU核心的评估，将Ray actor均匀地分布在每台机器上

spark写出分布式的训练算法_RLlib：一个分布式强化学习系统的凝练_第11张图片

图A-8：在Humanoid-v1任务上达到6000的奖励所需的时间。RLlib实现的ES和PPO的性能优于已有实现。

结论

RLlib是一个强化学习的开源框架，它利用细粒度的嵌套并行机制在各种强化学习任务中实现了最优性能。它既提供了标准强化学习算法的集合，又提供了可扩展的接口，以方便地编写新的强化学习算法。

书面翻译对应的原文索引

[1] Eric Liang, Richard Liaw, Robert Nishihara, Philipp Moritz, Roy Fox, Ken Goldberg, Joseph Gonzalez, Michael I. Jordan, and Ion Stoica. Rllib: Abstractions for distributed reinforcement learning. In Proceedings of the 35th International Conference on Machine Learning, ICML 2018, Stockholmsmässan, Stockholm, Sweden, July 10-15, 2018, pages 3059–3068, 2018. URL http://proceedings.mlr.press/v80/liang18b.html.

打个广告

目前最好用的大规模强化学习算法训练库是什么？www.zhihu.com

spark写出分布式的训练算法_RLlib：一个分布式强化学习系统的凝练_第12张图片

你可能感兴趣的:(spark写出分布式的训练算法)

斤斤计较的婚姻到底有多难？白心之岂必有为
很多人私聊我会问到在哪个人群当中斤斤计较的人最多？我都会回答他，一般婚姻出现问题的斤斤计较的人士会非常多，以我多年经验，在婚姻落的一塌糊涂的人当中，斤斤计较的人数占比在20～30%以上，也就是说10个婚姻出现问题的斤斤计较的人有2-3个有多不减。在婚姻出问题当中，有大量的心理不平衡的、尖酸刻薄的怨妇。在婚姻中仅斤斤计较有两种类型：第一种是物质上的，另一种是精神上的。在物质与精神上抠门已经严重的影响
情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
芦花鞋一四许叶晗
又是在一个寒冷的夏日里，青铜和葵花决定今天一起去卖芦花鞋，奶奶亲手给他们做了一碗热乎乎的粥对他们说:“就靠你们两挣生活费了这碗粥赶紧趁热喝了吧！”于是青铜和葵花喝完了奶奶给她们做的粥，就准备去镇上卖卢花鞋，这回青铜和葵花穿着新的芦花鞋来到了镇上。青铜这回看到了很多人都在卖，用手势表达对葵花说:“这回有好多人在抢我们生意呢！我们必须得吆喝起来。”葵花点了点头。可是谁知他们也大声的叫，卖芦花喽！卖芦花
QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
关于沟通这件事，项目经理不需要每次都面对面进行流程大师兄
很多项目经理都会遇到这样的问题，项目中由于事情太多，根本没有足够的时间去召开会议，那在这种情况下如何去有效地管理项目中的利益相关者？当然，不建议电子邮件也不需要开会的话，建议可以采取下面几种方式来形成有效的沟通，这几种方式可以帮助你努力的通过各种办法来保持和各方面的联系。项目经理首先要问自己几个问题，项目中哪些利益相关者是必须要进行沟通的？可以列出项目中所有的利益相关者清单，同时也整理出项目中哪些
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
铭刻于星（四十二）随风至
69夜晚，绍敏同学做完功课后，看了眼房外，没听到动静才敢从书包的夹层里拿出那个心形纸团。折痕压得很深，都有些旧了，想来是已经写好很久了。绍敏同学慢慢地、轻轻地捏开折叠处，待到全部拆开后，又反复抚平纸张，然后仔细地一字字默看。只是开头的三个字是第一次看到，让她心漏跳了几拍。“亲爱的绍敏：从四年级的时候，我就喜欢你了，但是我一直不敢说，怕影响你学习。六年级的时候听说有人跟你表白，你接受了，我很难过，但
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说造命者说
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说我叫吴起，生于公元前440年的战国初期，正是群雄并起、天下纷争不断的时候。后人说我是军事家、政治家、改革家，是兵家代表人物。评价我一生历仕鲁、魏、楚三国，通晓兵家、法家、儒家三家思想，在内政军事上都有极高的成就。周安王二十一年（公元前381年），因变法得罪守旧贵族，被人乱箭射死。我出生在卫国一个“家累万金”的富有家庭，从年轻时候起就不甘平凡
2020-01-25 晴岚85
郑海燕坚持分享590天2020.1.24在生活中只存在两个问题。一个问题是：你知道想要达成的目标是什么，但却不知道如何才能达成；另一个问题是：你不知道你的目标是什么。前一个是行动的问题，后一个是结果的问题。通过制定具体的下一步行动，可以解决不知道如何开始行动的问题。而通过去想象结果，对结果做预估，可以解决找不着目标的问题。对于所有吸引我们注意力，想要完成的任务，你可以先想象一下，预期的结果究竟是什
随笔 | 仙一般的灵气海思沧海
仙岛今天，我看了你全部，似乎已经进入你的世界我不知道，这是否是梦幻，还是你仙一般的灵气吸引了我也许每一个人都要有一份属于自己的追求，这样才能够符合人生的梦想，生活才能够充满着阳光与快乐我不知道，我为什么会这样的感叹，是在感叹自己的人生，还是感叹自己一直没有孜孜不倦的追求只感觉虚度了光阴，每天活在自己的梦中，活在一个不真实的世界是在逃避自己，还是在逃避周围的一切有时候我嘲笑自己，嘲笑自己如此的虚无，
想家爆米花机
也许不同于大家对家乡的思念，我对家乡甚至是疯狂的不舍。还未踏出车站就感觉到幸福，我享受这里的夕阳、这里的浓烈柴火味、这里每一口家常菜。我是宅女，我贪恋家的安逸。刚刚踏出大学校门，初出茅庐，无法适应每年只能国庆和春节回家。我焦虑、失眠、无端发脾气，是无法适应工作的节奏，是无法接受我将一步步离开家乡的事实。我不想承认自己胸无大志，选择再次踏上征程。图片发自App
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
OC语言多界面传值五大方式 Magnetic_h ios ui 学习 objective-c 开发语言
前言在完成暑假仿写项目时，遇到了许多需要用到多界面传值的地方，这篇博客来总结一下比较常用的五种多界面传值的方式。属性传值属性传值一般用前一个界面向后一个界面传值，简单地说就是通过访问后一个视图控制器的属性来为它赋值，通过这个属性来做到从前一个界面向后一个界面传值。首先在后一个界面中定义属性@interfaceBViewController:UIViewController@propertyNSSt
一百九十四章. 自相矛盾巨木擎天
唉！就这么一夜，林子感觉就像过了很多天似的，先是回了阳间家里，遇到了那么多不可思议的事情儿。特别是小伙伴们，第二次与自己见面时，僵硬的表情和恐怖的气氛，让自己如坐针毡，打从心眼里难受！还有东子，他现在还好吗？有没有被人欺负？护城河里的小鱼小虾们，还都在吗？水不会真的干枯了吧？那对相亲相爱漂亮的太平鸟儿，还好吧！春天了，到了做窝、下蛋、喂养小鸟宝宝的时候了，希望它们都能够平安啊！虽然没有看见家人，也
UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
地推话术，如何应对地推过程中家长的拒绝校师学
相信校长们在做地推的时候经常遇到这种情况：市场专员反馈家长不接单，咨询师反馈难以邀约这些家长上门，校区地推疲软，招生难。为什么？仅从地推层面分析，一方面因为家长受到的信息轰炸越来越多，对信息越来越“免疫”；而另一方面地推人员的专业能力和营销话术没有提高，无法应对家长的拒绝，对有意向的家长也不知如何跟进，眼睁睁看着家长走远；对于家长的疑问，更不知道如何有技巧地回答，机会白白流失。由于回答没技巧和专业
谢谢你们，爱你们！鹿游儿
昨天家人去泡温泉，二个孩子也带着去，出发前一晚，匆匆下班，赶回家和孩子一起收拾。饭后，我拿出笔和本子（上次去澳门时做手帐的本子）写下了1\2\3\4\5\6\7\8\9,让后让小壹去思考，带什么出发去旅游呢？她在对应的数字旁边画上了，泳衣、泳圈、肖恩、内衣内裤、tapuy、拖鞋……画完后，就让她自己对着这个本子，将要带的，一一带上，没想到这次带的书还是这本《便便工厂》(晚上姑婆发照片过来，妹妹累得
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
小丽成长记（四十三）玲玲54321
小丽发现，即使她好不容易调整好自己的心态下一秒总会有不确定的伤脑筋的事出现，一个接一个的问题，人生就没有停下的时候，小问题不断出现。不过她今天看的书，她接受了人生就是不确定的，厉害的人就是不断创造确定性，在Ta的领域比别人多的确定性就能让自己脱颖而出，显示价值从而获得的比别人多的利益。正是这样的原因，因为从前修炼自己太少，使得她现在在人生道路上打怪起来困难重重，她似乎永远摆脱不了那种无力感，有种习
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
Cell Insight | 单细胞测序技术又一新发现，可用于HIV-1和Mtb共感染个体诊断尐尐呅
结核病是艾滋病合并其他疾病中导致患者死亡的主要原因。其中结核病由结核分枝杆菌（Mycobacteriumtuberculosis,Mtb）感染引起，获得性免疫缺陷综合症（艾滋病）由人免疫缺陷病毒（Humanimmunodeficiencyvirustype1,HIV-1）感染引起。国家感染性疾病临床医学研究中心/深圳市第三人民医院张国良团队携手深圳华大生命科学研究院吴靓团队，共同研究得出单细胞测序
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
瑶池防线谜影梦蝶
冥华虽然逃过了影梦的军队，但他是一个忠臣，他选择上报战况。败给影梦后成逃兵，高层亡尔还活着，七重天失守......随便一条，即可处死冥华。冥华自然是知道以仙界高层的习性此信一发自己必死无疑，但他还选择上报实情，因为责任。同样此信送到仙宫后，知道此事的人，大多数人都认定冥华要完了，所以上到仙界高层，下到扫大街的，包括冥华自己，全都准备好迎接冥华之死。如果仙界现在还属于两方之争的话，冥华必死无疑。然而
爬山后遗症璃绛
爬山，攀登，一步一步走向制高点，是一种挑战。成功抵达是一种无法言语的快乐，在山顶吹吹风，看看风景，这是从未有过的体验。然而，爬山一时爽，下山腿打颤，颠簸的路，一路向下走，腿部力量不够，走起来抖到不行，停不下来了！第二天必定腿疼，浑身酸痛，坐立难安！
ztree异步加载 3213213333332132 JavaScript Ajax json Web ztree
相信新手用ztree的时候,对异步加载会有些困惑，我开始的时候也是看了API花了些时间才搞定了异步加载，在这里分享给大家。我后台代码生成的是json格式的数据，数据大家按各自的需求生成，这里只给出前端的代码。设置setting，这里只关注async属性的配置 var setting = { //异步加载配置
thirft rpc 具体调用流程 BlueSkator 中间件 rpc thrift
Thrift调用过程中，Thrift客户端和服务器之间主要用到传输层类、协议层类和处理类三个主要的核心类，这三个类的相互协作共同完成rpc的整个调用过程。在调用过程中将按照以下顺序进行协同工作：（1）将客户端程序调用的函数名和参数传递给协议层（TProtocol），协议
异或运算推导, 交换数据 dcj3sjt126com PHP 异或 ^
/* * 5 0101 * 9 1010 * * 5 ^ 5 * 0101 * 0101 * ----- * 0000 * 得出第一个规律: 相同的数进行异或, 结果是0 * * 9 ^ 5 ^ 6 * 1010 * 0101 * ---- * 1111 * * 1111 * 0110 * ---- * 1001
事件源对象周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
MySql配置及相关命令 g21121 mysql
MySQL安装完毕后我们需要对它进行一些设置及性能优化，主要包括字符集设置，启动设置，连接优化，表优化，分区优化等等。一修改MySQL密码及用户
[简单]poi删除excel 2007超链接 53873039oycg Excel
采用解析sheet.xml方式删除超链接，缺点是要打开文件2次,代码如下: public void removeExcel2007AllHyperLink(String filePath) throws Exception { OPCPackage ocPkg = OPCPac
Struts2添加 open flash chart 云端月影
准备以下开源项目： 1. Struts 2.1.6 2. Open Flash Chart 2 Version 2 Lug Wyrm Charmer (28th, July 2009) 3. jofc2，这东西不知道是没做好还是什么意思，好像和ofc2不怎么匹配，最好下源码，有什么问题直接改。 4. log4j 用eclipse新建动态网站，取名OFC2Demo，将Struts2 l
spring包详解 aijuans spring
下载的spring包中文件及各种包众多，在项目中往往只有部分是我们必须的，如果不清楚什么时候需要什么包的话，看看下面就知道了。 aspectj目录下是在Spring框架下使用aspectj的源代码和测试程序文件。Aspectj是java最早的提供AOP的应用框架。 dist 目录下是Spring 的发布包，关于发布包下面会详细进行说明。 docs&nb
网站推广之seo概念 antonyup_2006 算法 Web 应用服务器搜索引擎 Google
持续开发一年多的b2c网站终于在08年10月23日上线了。作为开发人员的我在修改bug的同时，准备了解下网站的推广分析策略。所谓网站推广，目的在于让尽可能多的潜在用户了解并访问网站，通过网站获得有关产品和服务等信息，为最终形成购买决策提供支持。网站推广策略有很多，seo，email，adv
单例模式,sql注入,序列百合不是茶单例模式序列 sql注入预编译
序列在前面写过有关的博客,也有过总结,但是今天在做一个JDBC操作数据库的相关内容时需要使用序列创建一个自增长的字段居然不会了,所以将序列写在本篇的前面 1,序列是一个保存数据连续的增长的一种方式; 序列的创建; CREATE SEQUENCE seq_pro 2 INCREMENT BY 1 -- 每次加几个 3
Mockito单元测试实例 bijian1013 单元测试 mockito
Mockito单元测试实例： public class SettingServiceTest { private List<PersonDTO> personList = new ArrayList<PersonDTO>(); @InjectMocks private SettingPojoService settin
精通Oracle10编程SQL(9)使用游标 bijian1013 oracle 数据库 plsql
/* *使用游标 */ --显示游标 --在显式游标中使用FETCH...INTO语句 DECLARE CURSOR emp_cursor is select ename,sal from emp where deptno=1; v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; begin ope
【Java语言】动态代理 bit1129 java语言
JDK接口动态代理 JDK自带的动态代理通过动态的根据接口生成字节码(实现接口的一个具体类)的方式，为接口的实现类提供代理。被代理的对象和代理对象通过InvocationHandler建立关联 package com.tom; import com.tom.model.User; import com.tom.service.IUserService;
Java通信之URL通信基础白糖_ java jdk webservice 网络协议 ITeye
java对网络通信以及提供了比较全面的jdk支持，java.net包能让程序员直接在程序中实现网络通信。在技术日新月异的现在，我们能通过很多方式实现数据通信，比如webservice、url通信、socket通信等等，今天简单介绍下URL通信。学习准备：建议首先学习java的IO基础知识 URL是统一资源定位器的简写，URL可以访问Internet和www，可以通过url
博弈Java讲义 - Java线程同步 (1) boyitech java 多线程同步锁
在并发编程中经常会碰到多个执行线程共享资源的问题。例如多个线程同时读写文件，共用数据库连接，全局的计数器等。如果不处理好多线程之间的同步问题很容易引起状态不一致或者其他的错误。同步不仅可以阻止一个线程看到对象处于不一致的状态，它还可以保证进入同步方法或者块的每个线程，都看到由同一锁保护的之前所有的修改结果。处理同步的关键就是要正确的识别临界条件（cri
java-给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 bylijinnan java
public class DeleteExtraSpace { /** * 题目：给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 * 方法1.用已有的String类的trim和replaceAll方法 * 方法2.全部用正则表达式，这个我不熟 * 方法3.“重新发明轮子”，从头遍历一次 */ public static v
An error has occurred.See the log file错误解决！ Kai_Ge MyEclipse
今天早上打开MyEclipse时，自动关闭！弹出An error has occurred.See the log file错误提示！很郁闷昨天启动和关闭还好着！！！打开几次依然报此错误，确定不是眼花了！打开日志文件！找到当日错误文件内容： --------------------------------------------------------------------------
[矿业与工业]修建一个空间矿床开采站要多少钱? comsci
地球上的钛金属矿藏已经接近枯竭........... 我们在冥王星的一颗卫星上面发现一些具有开采价值的矿床..... 那么,现在要编制一个预算,提交给财政部门..
解析Google Map Routes dai_lm google api
为了获得从A点到B点的路劲，经常会使用Google提供的API，例如 [url] http://maps.googleapis.com/maps/api/directions/json?origin=40.7144,-74.0060&destination=47.6063,-122.3204&sensor=false [/url] 从返回的结果上，大致可以了解应该怎么走，但
SQL还有多少“理所应当”？ datamachine sql
转贴存档，原帖地址：http://blog.chinaunix.net/uid-29242841-id-3968998.html、http://blog.chinaunix.net/uid-29242841-id-3971046.html！ ------------------------------------华丽的分割线--------------------------------
Yii使用Ajax验证时，如何设置某些字段不需要验证 dcj3sjt126com Ajax yii
经常像你注册页面,你可能非常希望只需要Ajax去验证用户名和Email,而不需要使用Ajax再去验证密码,默认如果你使用Yii 内置的ajax验证Form,例如: $form=$this->beginWidget('CActiveForm', array( 'id'=>'usuario-form',&
使用git同步网站代码 dcj3sjt126com crontab git
转自:http://ued.ctrip.com/blog/?p=3646?tn=gongxinjun.com 管理一网站，最开始使用的虚拟空间，采用提供商支持的ftp上传网站文件，后换用vps，vps可以自己搭建ftp的，但是懒得搞，直接使用scp传输文件到服务器，现在需要更新文件到服务器，使用scp真的很烦。发现本人就职的公司，采用的git+rsync的方式来管理、同步代码，遂
sql基本操作蕃薯耀 sql sql基本操作 sql常用操作
sql基本操作 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:30:33 星期一 &
Spring4+Hibernate4+Atomikos3.3多数据源事务管理 hanqunfeng Hibernate4
Spring3+后不再对JTOM提供支持，所以可以改用Atomikos管理多数据源事务。Spring2.5+Hibernate3+JTOM参考：http://hanqunfeng.iteye.com/blog/1554251Atomikos官网网站：http://www.atomikos.com/ 一.pom.xml <dependency> <
jquery中两个值得注意的方法one()和trigger()方法 jackyrong trigger
在jquery中，有两个值得注意但容易忽视的方法，分别是one()方法和trigger()方法,这是从国内作者<<jquery权威指南》一书中看到不错的介绍 1） one方法 one方法的功能是让所选定的元素绑定一个仅触发一次的处理函数，格式为 one(type,${data},fn) &nb
拿工资不仅仅是让你写代码的 lampcy 工作面试咨询
这是我对团队每个新进员工说的第一件事情。这句话的意思是，我并不关心你是如何快速完成任务的，哪怕代码很差，只要它像救生艇通气门一样管用就行。这句话也是我最喜欢的座右铭之一。这个说法其实很合理：我们的工作是思考客户提出的问题，然后制定解决方案。思考第一，代码第二，公司请我们的最终目的不是写代码，而是想出解决方案。话粗理不粗。付你薪水不是让你来思考的，也不是让你来写代码的，你的目的是交付产品
架构师之对象操作----------对象的效率复制和判断是否全为空 nannan408 架构师
1.前言。如题。 2.代码。 (1)对象的复制，比spring的beanCopier在大并发下效率要高，利用net.sf.cglib.beans.BeanCopier Src src=new Src(); BeanCopier beanCopier = BeanCopier.create(Src.class, Des.class, false);
ajax 被缓存的解决方案 Rainbow702 JavaScript jquery Ajax cache 缓存
使用jquery的ajax来发送请求进行局部刷新画面，各位可能都做过。今天碰到一个奇怪的现象，就是，同一个ajax请求，在chrome中，不论发送多少次，都可以发送至服务器端，而不会被缓存。但是，换成在IE下的时候，发现，同一个ajax请求，会发生被缓存的情况，只有第一次才会被发送至服务器端，之后的不会再被发送。郁闷。解决方法如下： ① 直接使用 JQuery提供的 “cache”参数，
修改date.toLocaleString()的警告 tntxia String
我们在写程序的时候，经常要查看时间，所以我们经常会用到date.toLocaleString()，但是date.toLocaleString()是一个过时的API，代替的方法如下： package com.tntxia.htmlmaker.util; import java.text.SimpleDateFormat; import java.util.
项目完成后的小总结 xiaomiya js 总结项目
项目完成了，突然想做个总结但是有点无从下手了。做之前对于客户端给的接口很模式。然而定义好了格式要求就如此的愉快了。先说说项目主要实现的功能吧 1，按键精灵 2，获取行情数据 3，各种input输入条件判断 4，发送数据（有json格式和string格式） 5，获取预警条件列表和预警结果列表， 6，排序， 7，预警结果分页获取 8，导出文件（excel，text等） 9，修