墨绿色的摆渡人

论文笔记（十六）：Learning to Walk in Minutes Using Massively Parallel Deep Reinforcement Learning

Learning to Walk in Minutes Using Massively Parallel Deep Reinforcement Learning

文章概括
摘要
1 介绍
2 大规模并行强化学习
- 2.1 仿真吞吐量
- 2.2 DRL算法
- - 2.2.1 超参数的修改
  - 2.2.2 重置处理
3 任务描述
- 3.1 以游戏为灵感的课程
- 3.2 观察、行动和奖励
- 3.3 模拟到现实的补充
4. 结果
- 4.1 大规模并行化的影响
- 4.2 Simulation
- 4.3 模拟到真实的转移
5. 结论
A 附件
- A.1 仿真吞吐量分析
- - A.1.1 时间步长
  - A.1.2 联系处理
- A.2 超时引导的影响
- A.3 奖励条款
- A.4 PPO超参数
- A.5 观察中的噪音水平

Parallel Deep Reinforcement Learning)

文章概括

作者：Nikita Rudin，David Hoeller，Philipp Reist and Marco Hutter
来源：5th Annual Conference on Robot Learning，CoRL2021
原文：https://openreview.net/forum?id=wK2fDDJ5VcF
代码、数据和视频：
系列文章目录：
上一篇：
论文笔记（十五）：Deep Convolutional Likelihood Particle Filter for Visual Tracking
下一篇：

摘要

在这项工作中，我们提出并研究了一种训练设置，通过在单个工作站的GPU上使用大规模并行性，实现了现实世界机器人任务的快速策略生成。我们分析和讨论了大规模并行系统中不同训练算法组件对最终策略性能和训练时间的影响。此外，我们提出了一个新的游戏启发的课程，它很适合与成千上万的模拟机器人并行训练。我们通过训练四足机器人ANYmal在具有挑战性的地形上行走来评估这种方法。并行方法允许在四分钟内对平坦的地形进行训练，而对不平坦的地形进行训练则需要20分钟。与以前的工作相比，这代表了多个数量级的速度提升。最后，我们将这些策略转移到真实的机器人上，以验证该方法。我们开源了我们的训练代码，以帮助加速在学习腿部运动领域的进一步研究：https://leggedrobotics.github.io/legged_gym/。

关键词： 强化学习，腿机器人，模拟现实

图1：数以千计的机器人在模拟中学习行走。

1 介绍

深度强化学习（DRL）被证明是机器人技术的一个强大工具。诸如腿部运动[1]、操纵[2]和导航[3]等任务，已经用这些新工具解决了，而且研究还在继续，不断增加更多的挑战性任务。训练一个策略所需的数据量随着任务的复杂性而增加。出于这个原因，大多数工作都集中在模拟训练上，然后再转移到真实的机器人上。我们已经达到了这样的程度：用目前的模拟器完全训练一个代理需要多天甚至几周的时间。例如，OpenAI的块状重定向任务的训练时间长达14天，他们的魔方解题策略需要几个月的训练[4]。深度强化学习需要超参数调整以获得合适的解决方案，这需要依次重新运行耗时的训练，这使得问题更加严重。因此，使用这里提出的大规模并行方法减少训练时间有助于提高DRL策略的质量和部署时间，因为训练设置可以在相同的时间范围内更频繁地迭代进行。

在本文中，我们研究了大规模并行对政策性DRL算法的影响，并提出了对标准RL表述和最常用的超参数应如何调整以在高度并行的制度下有效学习的考虑。此外，我们还提出了一种新的游戏启发课程，它能自动将任务难度与策略的性能相适应。所提出的课程体系结构是直接实现的，不需要调整，并且很适合于大规模并行制度。常见的机器人模拟器，如Mujoco[5]、Bullet[6]或Raisim[7]，具有高效的多体动力学实现。然而，它们被开发成只在具有较少并行性的CPU上运行。在这项工作中，我们使用了NVIDIA的Isaac Gym仿真环境[8]，它在GPU上运行仿真和训练，能够并行模拟数千个机器人。

大规模并行训练机制之前已经在分布式系统的背景下进行过探索[4, 9]，该系统由成千上万个CPU组成的网络，每个CPU运行一个单独的模拟实例。并行化是通过在不减少每个代理提供的样本数量的情况下，对不同工作者之间的梯度进行平均来实现的。这导致了每次策略更新的大批量数百万样本，改善了学习的动态性，但没有优化整个训练时间。同时，最近的工作旨在提高模拟吞吐量，减少标准DRL基准任务的训练时间。有人提出了一个将并行仿真与多GPU训练相结合的框架[10]，以实现使用数百个并行代理的快速训练。在视觉导航方面，大批量模拟被用来提高训练吞吐量[11]。此外，GPU加速的物理模拟已被证明可以显著提高人形机器人运行任务的训练时间[12]。一个运行在谷歌TPU上的可微分模拟器也被证明可以大大加速多个任务的训练[13]。我们在[10, 12]的基础上，进一步推动并行化，优化训练算法，并将该方法应用于一个具有挑战性的现实世界的机器人任务。

腿部机器人在非结构化环境中的感知和动态运动是一项要求很高的任务，直到最近，才用复杂的基于模型的方法进行了部分论证[14, 15]。基于学习的方法正在成为一种有希望的替代方法。对于四足动物来说，DRL已经被用来训练对高度不平坦地面的盲目政策[16]（12小时的训练）。通过将学习与优化控制技术相结合，实现了在挑战性地形上的感知运动[17, 18]（82和88小时的训练），最近，一种完全学习的方法在这种环境下显示出了极大的鲁棒性[19]（120小时的训练）。同样地，双足机器人也被训练成在楼梯上盲目行走[20]（训练时间未报告）。通过我们的方法，我们可以在20分钟之内在单个GPU上训练一个感知策略，模拟到现实的复杂性转移到硬件上，这增加了对性能和鲁棒性的要求，并对整个方法提供了明确的验证。在几分钟内训练这样的行为开启了新的令人兴奋的可能性，从自动调整到使用特定环境的扫描进行定制训练。

2 大规模并行强化学习

目前的（政策上的）强化学习算法分为两部分：数据收集和政策更新。政策更新，相当于神经网络的反向传播，很容易在GPU上并行执行。数据收集的并行化就不那么简单了。每个步骤都包括策略推理、模拟、奖励和观察计算。目前流行的管道在CPU上计算模拟和奖励/观察，由于通信瓶颈，GPU不适合进行策略推断。众所周知，PCIe上的数据传输是GPU加速的最薄弱环节，其速度可能比单独的GPU处理时间慢50倍之多[21]。此外，在CPU数据收集的情况下，每次策略更新都必须向GPU发送大量的数据，从而减慢了整个过程。通过使用多个CPU核心并催生许多进程，每个进程为一个代理运行模拟，可以实现有限的并行化。然而，代理的数量很快就会受到内核数量和其他问题的限制，如内存使用。我们通过Isaac Gym的端到端数据收集和政策更新在GPU上探索大规模并行化的潜力，大大减少了数据复制，提高了仿真的吞吐量。

2.1 仿真吞吐量

影响总仿真吞吐量的主要因素是并行仿真的机器人数量。现代GPU可以处理数以万计的并行指令。同样，IsaacGym的PhysX引擎可以在一次模拟中处理数以千计的机器人，而且我们管道的所有其他计算都是矢量的，可以随着机器人数量的增加而有利地扩展。使用单个模拟处理成千上万的机器人会带来一些新的挑战。例如，必须使用单一的通用地形网，而且在每次重置时不能轻易改变。我们通过创建所有地形类型和水平并排的整个网格来规避这个问题。我们通过在网格上的物理移动来改变机器人的地形水平。在补充材料中，我们展示了管道不同部分的计算时间，研究了这些时间是如何随着机器人数量的增加而增加的，并提供了其他技术来优化模拟的吞吐量。

2.2 DRL算法

我们建立在近似策略优化（PPO）算法的定制实现之上[22]。我们的实现被设计为在GPU上执行每一个操作并存储所有的数据。为了有效地从成千上万的机器人中并行学习，我们对算法进行了一些必要的修改，并改变了一些常用的超参数值。

2.2.1 超参数的修改

在诸如PPO这样的政策性算法中，一个固定的政策在进行下一次政策更新之前会收集一定数量的数据。这个批量大小， $B$ ，是成功学习的一个关键超参数。如果数据太少，梯度将过于嘈杂，算法将无法有效学习。数据太多，样本会变得重复，算法无法从中提取更多信息。这些样本代表了浪费的模拟时间，并减缓了整个训练的速度。我们有 $B = n_{robots}n_{steps}$ ，其中 $n_{steps}$ 是每个机器人每次策略更新的步骤数， $n_{robots}$ 是平行模拟的机器人数量。由于我们将 $n_{robots}$ 增加了几个数量级，我们必须选择一个小的 $n_{steps}$ 来保持 $B$ 的合理性，从而优化训练时间，这是一个尚未被广泛探索的政策性强化学习算法的设置。事实证明，我们不能把 $n_{steps}$ 选择得任意低。该算法需要有连贯的时间信息的轨迹来有效地学习。即使在理论上，可以使用单步的信息，但我们发现该算法无法收敛到低于某个阈值的最优解。这可以解释为我们使用了广义优势估计（GAE）[23]，它需要多个时间步骤的奖励才能有效。对于我们的任务，我们发现，当我们提供少于25个连续步骤，相当于0.5秒的模拟时间时，算法就会陷入困境。重要的是要将 $n_{steps}$ 与导致超时和重置的最大情节长度区分开来，我们将其定义为20秒。环境在达到这个最大长度时被重置，而不是在每次迭代之后，这意味着一个情节可以涵盖许多政策更新。这限制了并行训练的机器人总数，因此，禁止我们使用GPU的全部计算能力。

迷你批次的大小代表了批次大小被分割以执行反向传播的块的大小。我们发现，拥有比通常认为的最佳做法大得多的迷你批尺寸对我们的大规模并行使用案例是有益的。我们使用数以万计的样本的迷你批，并观察到它稳定了学习过程而不增加总的训练时间。

2.2.2 重置处理

在训练过程中，每当机器人跌倒时必须重新设置，而且在一段时间后也要让它们继续探索新的轨迹和地形。PPO算法包括一个预测未来折现奖励的无限地平线总和的批评者。重置打破了这个无限水平线的假设，如果不小心处理的话，会导致批评家的性能降低。基于失败或达到目标的重置不是一个问题，因为批评家可以预测它们。然而，基于超时的重置是无法预测的（我们在观察中没有提供插曲时间）。解决方案是区分这两种终止模式，并在超时情况下用预期的未来奖励的无限总和来增加奖励。换句话说，我们用自己的预测来引导批评者的目标。这个解决方案已经在[24]中讨论过了，但有趣的是，这个区别并不是广泛使用的Gym环境接口[25]的一部分，而且被流行的实现，如Stable-Baselines[26]1所忽略了。在调查了多种实现方式后，我们得出结论，这个重要的细节往往被假设为环境永远不会超时，或者只在批量收集的最后一步超时，从而避免了这个细节。在我们的案例中，每批机器人的步骤很少，我们不能做这样的假设，因为一个有意义的情节长度涵盖了许多批的收集。我们修改了标准的Gym接口来检测超时，并实现了引导方案。在补充材料中，我们展示了这个解决方案对总奖励和批评者损失的影响。

图2：用于模拟训练和测试的地形类型。(a) 随机的粗糙地形，变化幅度为0.1米。 (b) 倾斜度为25度的斜坡地形。(c) 宽度为0.3米、高度为0.2米的楼梯。 (d) 高度为±0.2米的随机、不连续的障碍。

3 任务描述

一个四足机器人必须学会在具有挑战性的地形上行走，包括不平坦的表面、斜坡、楼梯和障碍物，同时遵循基点方向和线性速度指令。我们在ANYbotics ANYmal C机器人上进行了大部分的模拟和真实世界的部署实验。然而，在模拟中，我们通过对ANYmal B、带有连接臂的ANYmal C和Unitree A1机器人进行额外的训练策略来证明该方法的广泛适用性。

3.1 以游戏为灵感的课程

这些地形被选为真实世界环境的代表。我们创建了五种程序化生成的地形，如图2所示：平坦、倾斜、随机粗糙、离散障碍物和楼梯。这些地形是边长为8米的方块瓷砖。机器人从地形的中心开始，并被赋予随机的方向和速度指令（在一个事件的持续时间内保持不变），推动他们在地形上行走。斜坡和楼梯被组织成金字塔形，以允许在各个方向上的穿越。

以前的工作表明，使用任务难度的自动课程来学习复杂的运动策略的好处[28, 29, 16]。同样，我们发现，在逐步增加复杂性之前，首先在难度较低的地形上训练策略是非常必要的。我们采用了受[16]启发的解决方案，但用一个新的游戏启发的自动课程来取代粒子过滤器方法。所有的机器人都被分配了一个地形类型和一个代表该地形难度的级别。对于楼梯和随机的障碍物，我们将台阶高度从5厘米逐渐增加到20厘米。如果一个机器人设法走过其地形的边界，它的级别就会提高，在下一次重置时，它将在更困难的地形上开始。

然而，如果在一集结束时，它移动的距离不到目标速度所要求的一半，它的水平就会再次降低。解决了最高级别的机器人被循环到一个随机选择的级别，以增加多样性，避免灾难性的遗忘。这种方法的优点是在适合其性能的难度水平上训练机器人，不需要任何外部调整。它为每种地形类型单独调整难度，并为我们提供关于训练进展的视觉和定量反馈。当机器人达到最后的水平，并且由于回环而均匀地分布在所有的地形上时，我们可以断定它们已经完全学会了解决这个任务。

建议的课程结构很适合大规模并行制度。面对成千上万的机器人，我们可以直接使用它们目前在课程中的进度作为策略的性能分布，而不需要用生成器网络来学习它[30]。此外，我们的方法不需要调整，直接以并行的方式实现，处理成本接近零。我们消除了粒子过滤器方法所需的重新取样和重新生成新地形的计算开销。

图3显示了机器人在训练过程中的两个不同阶段的地形进展。在复杂的地形类型上，机器人需要更多的训练迭代才能达到最高水平。500次迭代后的机器人分布显示，虽然该策略能够穿越斜坡地形和下楼梯，但爬楼梯和穿越障碍需要更多的训练迭代。然而，在1000次迭代之后，机器人已经达到了所有地形类型中最具挑战性的水平，并且分布在整个地图上。我们总共训练了1500次迭代，让策略收敛到最高性能。

图3：4000个机器人在500个（顶部）和1000个（底部）策略更新后，通过自动课程的地形前进。机器人从第一排开始训练（最靠近摄像头），逐步到达更难的地形。

3.2 观察、行动和奖励

该策略接收机器人的本体感觉测量值以及机器人基地周围的地形信息。观察结果包括：基地的线性和角速度，重力矢量的测量，关节位置和速度，策略选择的先前行动，以及最后，从机器人基地周围的网格中抽取的108个地形测量。每个测量值都是从地形表面到机器人底座高度的距离。

总的奖励是九个条款的加权和，详见补充材料。主要条款鼓励机器人遵循命令的速度，同时避免沿其他轴的不想要的基本速度。为了创造一个更平滑、更自然的运动，我们还对关节扭力、关节加速度、关节目标变化和碰撞进行惩罚。与膝盖、小腿或脚与垂直表面之间的接触被认为是碰撞，而与基地的接触被认为是碰撞，并导致复位。最后，我们增加了一个额外的奖励条款，鼓励机器人采取更长的步骤，这将导致更有视觉吸引力的行为。我们为所有的地形训练一个具有相同奖励的单一策略。

这些动作被解释为所需的关节位置，并发送给电机。在那里，一个PD控制器产生电机扭矩。与其他工作[16, 20]相比，奖励函数和动作空间都没有任何与步态相关的元素。

3.3 模拟到现实的补充

为了使训练好的策略适合于从模拟到现实的转换，我们将地面的摩擦力随机化，在观察中加入噪音，并在剧情中随机推送机器人，以教他们采取更稳定的姿态。每个机器人都有一个在[0.5, 1.25]中均匀采样的摩擦系数。机器人的底座在X和Y方向上的加速度为±1米/秒。噪声量是基于在机器人上测得的真实数据，详细情况见补充材料。

ANYmal机器人使用具有相当复杂动力学特性的串联弹性执行器，这很难在仿真中建模。由于这个原因，并遵循以前的工作方法[1]，我们使用一个神经网络来计算关节位置指令的扭矩。然而，我们简化了模型的输入。我们没有将过去的测量值在固定的时间步长上连接起来，并将所有的信息发送给一个标准的前馈网络，而是只将当前的测量值提供给一个LSTM网络。这种设置的一个潜在缺点是，政策没有像以前的工作那样拥有执行器的时间信息。我们试验了各种通过记忆机制为策略提供该信息的方法，但发现这并不能提高最终的性能。

4. 结果

4.1 大规模并行化的影响

在这一节中，我们研究平行机器人的数量对政策的最终性能的影响。为了将总奖励作为一个单一的代表指标，我们必须删除课程，否则一个性能更强的策略会看到其任务难度增加，从而导致总奖励的减少。因此，我们通过减少楼梯和障碍物的最大步长来简化任务，并直接对机器人进行全方位的难度训练。

我们首先设定一个基线， $n_{robots}=20000$ ， $n_{steps}=50$ ，导致批量大小为1M的样本。使用这个非常大的批处理量可以得到最好的策略，但代价是训练时间相对较长。

然后，我们进行实验，在保持批量大小不变的情况下增加机器人的数量。结果，每个机器人每次更新策略的步骤数减少了。在这种情况下，训练时间随着机器人数量的增加而减少，但如果数量太高，策略性能就会下降。我们从128个机器人开始，对应于以前的CPU实现的并行化水平，并将这个数字增加到16384，这接近于我们用Isaac Gym在单个工作站GPU上运行的粗糙地形上所能模拟的最大机器人数量。

在图4中，我们将这些结果与基线进行了比较，这使得我们能够在政策性能和训练时间之间选择最有利的权衡。我们看到两个有趣的效果在起作用。首先，当机器人的数量太多，性能急剧下降，这可以解释为每个机器人的时间范围变得太小。正如预期的那样，随着批量大小的增加，整体奖励会更高，时间范围的影响也会转移，这意味着我们可以在看到下降之前使用更多机器人。另一方面，在某个阈值以下，我们看到使用较少的机器人，性能会缓慢下降。我们认为这是因为每个机器人有很多步骤的样本非常相似，因为它们之间的时间步长相对较小。这意味着，对于相同数量的样本，数据的多样性较少。换句话说，在机器人数量较少的情况下，我们进一步远离了样本是独立和相同分布的标准假设，这似乎对训练过程有明显的影响。在训练时间方面，我们看到在4000个机器人之前几乎是线性扩展，之后仿真吞吐量的收益就会放缓。因此，我们可以得出结论，增加机器人的数量对最终性能和训练时间都有好处，但这个数量有一个上限，超过这个上限后，政策性算法就不能有效地学习。将批量大小增加到比类似工作中通常使用的值大得多，似乎非常有益。不幸的是，它也会增加训练时间，所以这是一个必须平衡的权衡。从第三幅图中，我们可以得出结论，使用2048到4096个机器人，批量大小为 $\approx 100 k$ 或 $\approx 200 k$ ，为这个特定的任务提供了最佳的权衡。

图4：(a)在不同数量的机器人和3种不同的批次规模下，1500个策略更新后的总奖励的平均值和标准偏差（超过5次运行）。批量大小为100万个样本，20000个机器人的理想情况显示为红色。(b) 相同实验的总训练时间。(c) 奖励对总训练时间的依赖性。颜色代表机器人的数量，而形状显示了批次大小（圆圈：49152，十字：98304，三角形：196608）。图中左上方的点（绿色突出）代表最理想的配置。

图5：在日益复杂的地形上测试政策的成功率。机器人从地形中心开始，得到0.75米/秒的前进速度指令，以及在[-0.1, 0.1]米/秒内随机的侧向速度指令。(a) 爬楼梯、下楼梯和穿越离散障碍的成功率。(b)爬坡和下坡的成功率。

4.2 Simulation

对于我们的模拟和部署实验，我们使用了一个用4096个机器人和98304个批次大小训练的策略，我们在20分钟内训练了1500个策略更新。我们首先测量我们训练的策略在模拟中的性能。为此，我们进行了稳健性和可穿越性测试。对于每一种地形类型，我们命令机器人以高速前进的方式穿越具有代表性难度的地形，并测量成功率。成功被定义为成功穿越地形，同时避免与机器人的基座发生任何接触。图5显示了不同地形的结果。对于楼梯，我们看到0.2米以下的台阶的成功率几乎为100%，这是我们训练的最难的台阶难度，接近我们机器人的运动极限。随机障碍物的要求似乎更高，成功率在稳步下降。我们必须注意，在这种情况下，最大的一步是报告高度的两倍，因为相邻的障碍物可能有正负高度。在斜坡的情况下，我们可以观察到，在25度之后，机器人就不能再攀爬了，但仍能学会以中等的成功率滑下来。

鉴于我们相对简单的奖励和行动空间，该政策可以自由地采取任何步态和行为。有趣的是，它总是收敛于小跑的步态，但在行为中经常会出现一些假象，如拖着腿或不合理的高低基数。在对奖励权重进行调整后，我们可以得到一个尊重我们所有约束条件的策略，并可以转移到物理机器人上。

为了验证该方法的通用性，我们对具有相同设置的多个机器人进行策略训练。我们使用带有固定机械臂的ANYmal C机器人，它增加了大约20%的额外重量，以及ANYmal B机器人，它具有类似的尺寸，但运动学和动力学特性有所改变。在这两种情况下，我们可以在不修改奖励或算法超参数的情况下重新训练一个策略，并获得非常相似的性能。接下来，我们使用Unitree A1机器人，它的尺寸更小，重量低四倍，腿部配置也不同。在这种情况下，我们删除了ANYdrive电机的执行器模型，减少PD增益和扭矩惩罚，并改变默认的关节配置。我们可以训练一个动态策略，即使机器人的尺寸减少，也能学会解决同样的地形。最后，我们将我们的方法应用于Agility机器人公司的双足机器人Cassie。我们发现，鼓励单脚站立的额外奖励对于实现行走的步态是必要的。有了这个额外的奖励，我们就能够在与四足机器人相同的地形上训练该机器人。图6显示了不同的机器人。

4.3 模拟到真实的转移

在物理机器人上，我们的策略是固定的。我们从机器人的传感器中计算出观察结果，将其输入到策略中，并直接将产生的动作作为目标关节位置发送给电机。我们不应用任何额外的过滤或约束满足检查。地形高度的测量是从机器人从激光雷达扫描中建立的高程地图中查询的。

不幸的是，这个高度图远非完美，这导致模拟和现实之间的稳健性下降。我们观察到这些问题主要发生在高速度下，因此将部署在硬件上的策略的最大线速度指令降低到0.6米/秒。该机器人可以上下楼梯，并以动态方式处理障碍物。我们在图7和补充视频中展示了这些实验的样本。为了克服不完善的地形图或状态估计漂移的问题，[19]的作者实施了一个师生设置，即使在恶劣的条件下也能提供出色的稳健性。作为未来工作的一部分，我们计划将这两种方法合并。

5. 结论

在这项工作中，我们证明了一个复杂的现实世界的机器人任务可以在几分钟内用一个政策性的深度强化学习算法进行训练。使用一个端到端的GPU管道，并行模拟了数千个机器人，结合我们提出的课程结构，我们表明，与以前的工作相比，训练时间可以减少多个数量级。我们讨论了对学习算法的多种修改以及有效使用大规模并行机制所需的标准超参数。利用我们的快速训练管道，我们进行了许多训练运行，简化了设置，只保留了基本组件。我们表明，这项任务可以用简单的观察和行动空间以及相对直接的奖励来解决，而不需要鼓励特定的步态或提供运动原形。

这项工作的目的不是为了获得具有最高鲁棒性的绝对最佳表现的政策。对于这个用例，许多其他技术可以被纳入到管道中。我们的目的是表明，用我们的设置可以在创纪录的时间内训练出一个策略，同时在真实的硬件上仍然可以使用。我们希望改变其他研究人员对真实世界应用所需训练时间的看法，并希望我们的工作可以作为未来研究的参考。我们期望许多其他任务能从大规模并行制度中受益。通过减少这些未来机器人任务的训练时间，我们可以大大加快这一领域的发展。

A 附件

图8：（a）一个环境步骤的计算时间。(b) 批量大小为B=98304个样本的学习迭代的总时间。

A.1 仿真吞吐量分析

在图8中，我们显示了一个环境步骤的每个部分的计算时间，以及不同数量的机器人的学习迭代所需的总时间。在图8（a）中，我们观察到模拟是最耗时的步骤，其时间随着机器人数量的增加而慢慢增加。观察和奖励的计算时间是第二慢的步骤，也随着机器人数量的增加而慢慢增加，而策略的推理和执行器网络的计算时间几乎是恒定的。图8（b）显示了收集固定数量的样本和执行策略更新所需的总时间。增加并行机器人的数量会减少所有子部分的总时间，除了学习步骤，这与机器人的数量无关。在图9中，我们检查了训练不同数量的机器人所需的GPU VRAM，无论是否有图形渲染。我们看到，启用渲染后，运行4096个机器人需要9Gb。如果没有图形输出，6Gb就足够了。在平坦的地形上，这些数字分别减少到7Gb和5Gb。

在A.1.1和A.1.2节中，我们描述了用于优化仿真吞吐量的额外技术。

A.1.1 时间步长

仿真的时间步骤需要最大化，以获得最大的吞吐量。对于每个策略步骤，我们以50赫兹的速度运行，我们需要执行多个执行器和模拟器步骤，以获得稳定的模拟。由于这些增加的步骤直接扩大了计算量，我们的目标是尽可能地减少它们。我们发现，我们不能使用小于0.005秒的时间步长，这相当于每个策略步骤有四个仿真步骤。这个限制是由执行器网络（近似于离散时间PD控制器）变得不稳定而不是由仿真本身强加的。

图9：在平坦和粗糙的地形上，不同数量的机器人在训练期间的GPU VRAM使用情况，批量大小为B = 98304个样本。

A.1.2 联系处理

仿真器的很大一部分计算时间都花在了接触检测和处理上。减少潜在的接触对的数量可以增加模拟的吞吐量。我们优化机器人的模型，只保留必要的碰撞体：脚、小腿、膝盖和底座。

地形的分辨率在接触优化中起着重要作用。高度场是一种非常常见的地形表示类型，其中高度被定义在一个统一的网格上。然而它的一个不幸的特性是它不可能得到垂直的表面。为了得到一个近似于垂直台阶的陡峭斜坡，我们需要高分辨率，这就降低了模拟性能。相反，我们将低分辨率的高度场转换为三角形网格，并修正垂直面。

最后，在PhysX（Isaac Gym的物理引擎）中，即使不同机器人之间的接触被忽略了，但仍然可以检测到它们。因此，机器人在地形中的位置影响了计算负荷。将机器人彼此之间的距离拉开是非常有益的。在这里介绍的课程中，我们需要在训练开始时将许多机器人放在一起，但随着训练的进行，它们很快就会分散开。此外，一旦机器人学会了避免碰撞，与底座和膝盖的接触就会减少，昂贵的重置也会减少。我们看到，在训练的最初几分钟和结束时，模拟时间相差2倍

A.2 超时引导的影响

我们分析了2.2.2节中描述的在超时时引导奖励的效果，比较了有无超时处理的总奖励和批评者损失。图10显示了平坦和粗糙地形任务的结果。我们看到，在没有引导的情况下，批评者的损失更高，相应地，总奖励也更低。即使没有这个补充，学习也能成功，但它大大降低了批评者的损失，并使两项任务的总奖励提高了大约10％至20％。

图10：在超时训练中使用和不使用奖励引导时，总奖励和批评者损失的比较。

A.3 奖励条款

A.4 PPO超参数

表3：用于测试策略训练的PPO超参数。(*) 与[9]类似，我们使用基于KL-分歧的自适应学习率，相应的算法在Alg. 1

A.5 观察中的噪音水平

表4：观测值中不同成分的噪声尺度。对于每个元素，噪声值从具有给定规模的均匀分布中取样并添加到观测值中。

你可能感兴趣的:(文章,神经网络,rnn,深度学习)

【linux kernel】devtmpfs文件系统分析 iriczhao 小生聊【linux kernel】linux linux 内核文件系统 devtmpfs c
devtmpfs文件系统分析文章目录devtmpfs文件系统分析一、开篇二、devtmpfs简介三、devtmpfs内核源码分析（2-1）devtmpfs初始化（2-2）devtmpfs_init的调用一、开篇本篇文章主要从linux内核源码的角度分析devtmpfs文件系统。本篇作为分析过程的记录文章，以加深对devtmpfs文件系统的理解！（注）本篇文章所有源码出自linux内核版本：4.19
Redis 的特性、工作机制与性能优化全解（含搭建实战教程）
文章目录二、Redis的核心特性三、Redis的工作机制解析单线程模型（性能为何强大？）数据结构是性能的关键持久化机制（数据如何存下来？）四、Redis性能优化实战1.优化内存使用2.提升并发性能3.使用分片/集群机制4.异步处理五、Redis搭建流程（Linux环境）1.下载与解压2.编译并安装3.修改配置文件（推荐复制一份）4.启动Redis5.客户端连接测试六、Redis运维技巧与监控命令七
[netty5: MessageAggregator & HttpObjectAggregator]-源码解析
在阅读这篇文章前，推荐先阅读[netty5:ByteToMessageCodec&MessageToByteEncoder&ByteToMessageDecoder]-源码分析[netty5:HttpObject]-源码解析100-continue100-continue是HTTP/1.1协议中的一种机制，用于客户端在发送大体积请求体（如文件上传）前，先向服务器发送一个带有Expect:100-c
Typora快速上手Markdown编写 TT-Kun Mine markdown typora
文章目录Markdown编写指南（以Typora为例）==前言：==一、标题快捷键二、段落1、换行/段2、分割线三、文字显示1、字体2、上下角标3、转义\解决解析冲突问题四、列表1、无序列表代码及效果：2、有序列表**代码及效果**：3、任务列表（方框，带勾方框）**代码及效果**五、Quote区块显示六、Code代码显示1、行内代码2、代码块及高亮（1）直接创建高亮代码块（2）设置不在代码块中的
利用反汇编技术将游戏《英雄无敌3》修改为硬盘版安联酋长汇编游戏汇编
最近好不容易找到我最喜欢的游戏《英雄无敌3之埃拉西亚的光复》，可惜是光盘版的，要用虚拟光驱来运行，感觉不爽，网上也找不到免CD补丁，于是决定自己动手。首先感谢这篇文章的作者http://bbs.pediy.com/showthread.php?t=101023是他引领我进入反汇编的大门。这篇文章的第一步，就是找到GetDriveType的调用（GetDriveType就是判断某盘符是光驱、硬盘或网
【推荐算法课程二】推荐算法介绍-深度学习算法盒子6910 运维视角下的广告业务算法推荐算法深度学习运维开发运维人工智能
三、深度学习在推荐系统中的应用3.1深度学习推荐模型的演化关系图3.2AutoRec——单隐层神经网络推荐模型3.2.1AutoRec模型的基本原理AutoRec模型是一个标准的自编码器，它的基本原理是利用协同过滤中的共现矩阵，完成物品向量或者用户向量的自编码。再利用自编码的结果得到用户对物品的预估评分，进而进行推荐排序。什么是自编码器？自编码器是指能够完成数据“自编码”的模型。无论是图像、音频，
构建智能企业知识管理平台：动态知识图谱与语义检索系统 AI天才研究院 Agentic AI 实战 AI大模型企业级应用开发实战 AI人工智能与大数据知识图谱人工智能 ai
构建智能企业知识管理平台：动态知识图谱与语义检索系统关键词：知识管理平台、动态知识图谱、语义检索、知识图谱构建、语义检索算法摘要：本文详细探讨了构建智能企业知识管理平台的核心技术，重点介绍了动态知识图谱和语义检索系统的原理与实现。通过分析知识图谱的构建方法和语义检索算法，结合实际案例，展示了如何利用这些技术提升企业的知识管理水平。文章内容包括背景介绍、核心概念、算法原理、系统架构设计、项目实战以及
DeepFM算法原理及应用场景
DeepFM（DeepFactorizationMachine）是一种结合了因子分解机（FactorizationMachines,FM）和深度神经网络（DNN）的混合模型，主要用于处理高维稀疏数据（如推荐系统中的点击率预测）。其核心思想是同时捕捉低阶（线性）和高阶（非线性）特征交互。1.算法原理模型结构如下：FM部分：负责捕捉低阶特征交互（如一阶和二阶特征组合）。一阶项：线性特征权重。二阶项：通
【AI智能推荐系统】第二篇：深度学习在推荐系统中的架构设计与优化实践 DeepFaye 人工智能深度学习
第二篇：深度学习在推荐系统中的架构设计与优化实践提示语：“从Wide&Deep到Transformer，深度推荐模型如何突破性能瓶颈？本文将揭秘Netflix、淘宝都在用的深度学习推荐架构，手把手教你设计高精度推荐系统！”目录深度学习推荐系统的核心优势主流深度学习推荐架构解析2.1Wide&Deep模型2.2DeepFM与xDeepFM2.3神经协同过滤(NCF)2.4基于Transformer的
Pandas-数据组合赛丽曼 Pandas pandas
文章目录一.concat二.merge三.join(了解)day09一.concat二.merge三.join(了解)
Python设置国内镜像教程 wh3933 python 开发语言
####引言Python是一种广泛使用的高级编程语言，用于各种编程任务，从简单的脚本到复杂的机器学习算法。在安装Python包时，通常需要从Python包索引（PyPI）下载。由于网络原因，直接从PyPI下载可能速度较慢，因此，使用国内的镜像源可以显著提高下载速度。本文将详细介绍如何在Python中设置国内镜像。####文章目的本篇文章旨在指导用户如何将Python的包管理工具`pip`的默认源切
Java+Python智能化Ai云盘[Day2]
OK啊，为了完成学校老师布置的UML作业主播也是开始拿自己的项目开始当成期末大作业来交了。顺道的我也把自己的项目整个的梳理了一通，如果大家最近有UML的大作业要交也可以自取，到时候我把文章word版本直接发到百度网盘上去。里面我只有类图、用例图、活动图、顺序图、状态图。这次也算是一个提前复习了一下项目了把，整个的文档文字都是拿ai去写的，图的话也是我先看了一遍代码，然后给ai说了一遍也算是自己理通
【超分辨率（Super-Resolution）】关于【超分辨率重建】专栏的相关说明，包含专栏简介、专栏亮点、适配人群、相关说明、阅读顺序、超分理解、实现流程、研究方向、论文代码数据集汇总等十小大超分辨率重建（理论+实战科研+应用）超分辨率重建人工智能图像处理深度学习计算机视觉图像超分 pytorch
文章目录专栏简介专栏亮点适配人群相关说明关于答疑环境配置超分理解实现流程文章目录基础知识三个常用的SR框架数据集相关可解释性（论文中的可视化说明）图像超分（ImageSuper-Resolution）经典超分（ClassicalSR）任意尺度超分（Arbitrary-ScaleSR）高效/轻量化超分（Efficient/LightweightSR，ESR）盲超分/真实世界图像超分辨率（Blind/
【图像超分】论文复现：密集残差链接Transformer！DRCT的Pytorch源码复现，跑通超分源码，获得指标、模型复杂度、结果可视化，核心模块拆解与源码对应，注释详细！十小大超分辨率重建（理论+实战科研+应用）pytorch 深度学习超分辨率重建图像处理计算机视觉 python transformer
请先看【专栏介绍文章】：【超分辨率（Super-Resolution）】关于【超分辨率重建】专栏的相关说明，包含专栏简介、专栏亮点、适配人群、相关说明、阅读顺序、超分理解、实现流程、研究方向、论文代码数据集汇总等）完整代码和训练好的模型权重文件下载链接见本文底部，订阅专栏免费获取！本文亮点：跑通DRCT源码，获得与论文一致的PSNR/SSIM、Params、超分可视化结果，修正论文中FLOPs的计
css3:css的3种引入方式 ksw000 css css3 html
css基本知识你好！这是你第一次使用css所需要了解的知识点。如果你想学习如何使用css,可以仔细阅读这篇文章，了解一下css的基本语法知识。CSS的引入方式共有三种：行内样式、内部样式表、外部样式表。一、行内样式使用style属性引入CSS样式。示例：style属性的应用直接在HTML标签中设置的样式实际在写页面时不提倡使用，在测试的时候可以使用。行内样式LeapingAboveTheWater
基于uniapp小程序的诗词学习系统附带文章源码部署视频讲解等
文章目录前言详细视频演示具体实现截图核心技术介绍小程序框架Uniapp前端框架Vue持久层框架MyBaits为什么选择我代码参考数据库参考测试用例参考源码获取前言博主介绍：✌CSDN特邀作者、资深全栈开发程序员，曾在互联网大厂担任高级职位、码云/掘金/华为云/阿里云/InfoQ/StackOverflow/github等平台优质作者、专注于Java、小程序、前端、python等技术领域毕业项目实战
【归纳】C++入门算法模版总结（超级详细！！！）（包括高精度，排序，枚举，二分，搜索，动态规划等）
0.前言本文针对有一定算法基础的选手制作，收录了大部分算法的模板，详细解说可以点进去我提供的链接了解。或者进入我的主页给一点支持！本人也是一名新手，如果这篇文章有不严谨的地方或者不懂的地方可以在评论区留言，我会为你们一一解答的。【归纳】C++入门算法模版总结（包括高精度，排序，枚举，二分，搜索，动态规划等）（超级详细！！！）0.前言1.高精度1.1.单独实现1.1.1.高精度加法1.1.2.高精度
嵌入式入门学习——5了解寄存器如何控制单片机星火嵌入式嵌入式入门学习单片机
0系列文章入口嵌入式入门学习——0快速入门，Let‘sDoIt！1.内容简介武侠的内功和招式之间的关系类似于编程中的技术和计算原理之间的关系。招式是千变万化的，而内功心法则稳定而深厚。内功心法的深度决定了可以学习的招式变术的上限高度。单片机的控制最终是要落实到寄存器上的。使用库函数或者使用高级语言是招式，了解单片机的寄存器则是内功。2.引言练习武功讲究内外兼修，一味学习技巧，而忽略本质的结果就是一
python优先队列使用_python 线程队列PriorityQueue（优先队列）（37）
在线程队列Queue/线程队列LifoQueue文章中分别介绍了先进先出队列Queue和先进后出队列LifoQueue，而今天给大家介绍的是最后一种：优先队列PriorityQueue，对队列中的数据按照优先级排序，那么具体怎么用呢？一.队列Queue分类：1.线程队列Queue—FIFO(先进先出队列)，即哪个数据先存入，取数据的时候先取哪个数据，同生活中的排队买东西；2.线程队列LifoQue
Socket编程——TCP 兰雪簪轩 Linux tcp/ip 网络协议网络
文章目录一、TCP编程基础TCPsocketAPIsocket二、EchoServer对于服务端对于客户端server.hppServer.ccClient.ccCommandExec.hpp一、TCP编程基础TCP协议和UDP协议都属于网络通信协议，TCP协议是面向字节流的，UDP协议是面向数据报，这个特点后面会详谈的。对于现在来说UDP和TCP的区别为：UDP协议不需要连接，即报文一来就立刻进
【深度学习】神经网络剪枝方法的分类烟锁池塘柳0 机器学习与深度学习深度学习神经网络剪枝
神经网络剪枝方法的分类摘要随着深度学习模型，特别是大语言模型（LLM）的参数量爆炸式增长，模型的部署和推理成本变得异常高昂。如何在保持模型性能的同时，降低其计算和存储需求，成为了工业界和学术界的核心议题。神经网络剪枝（Pruning）作为模型压缩的关键技术之一，应运而生。本文将解析剪枝技术的不同分类，深入探讨其原理、优缺点。文章目录神经网络剪枝方法的分类摘要1为什么我们需要剪枝？2分类方法一：剪什
Python 图像分类入门超龄超能程序猿机器学习 python 分类开发语言
一、介绍图像分类作为深度学习的基础任务，旨在将输入图像划分到预定义的类别集合中。在实际的业务中，图像分类技术是比较常用的一种技术技能。例如，在安防监控中，可通过图像分类识别异常行为；在智能交通系统中，实现对交通标志和车辆类型的快速识别等。本文将通过安装包已有数据带你逐步了解使用Python进行图像分类的全过程。二、环境搭建在开始图像分类项目前，需要确保Python环境中安装了必要的库。主要包括：T
初始CNN(卷积神经网络) 超龄超能程序猿机器学习 cnn 人工智能神经网络
卷积神经网络（ConvolutionalNeuralNetwork，简称CNN）作为深度学习的重要分支，在图像识别、目标检测、语义分割等领域大放异彩。无论是手机上的人脸识别解锁，还是自动驾驶汽车对道路和行人的识别，背后都离不开CNN的强大能力一、CNN诞生的背景与意义在CNN出现之前，传统的图像识别方法主要依赖人工提取特征，例如使用SIFT（尺度不变特征变换）、HOG（方向梯度直方图）等算法。这些
（LeetCode）Java 求解最长回文子串南淮北安冲刺大厂之 Java 刷题笔记 leetcode 字符串动态规划 java 算法
文章目录一、题解二、常规理解三、简单理解四、总结一、题解给定一个字符串s，找到s中最长的回文子串。你可以假设s的最大长度为1000。示例1：输入:“babad”输出:“bab”注意:“aba”也是一个有效答案。示例2：输入:“cbbd”输出:“bb”二、常规理解思路就是创建一个二维数组，boolean[][]flag,flag[i][j]表示字符串第i到j是否是回文。边界：字符串长度为1是为TRU
【Qt6.3 基础教程 11】深入探索列表型控件：QListWidget和QComboBox 是阿牛啊 C++编程设计编程语言 qt6.3 开发语言人工智能 qt 数据库
文章目录前言QListWidget：便捷的项目列表主要特性示例：使用QListWidgetQComboBox：下拉选择的高效实现主要特性示例：使用QComboBox结合Model/View架构使用总结前言在任何现代用户界面中，列表是展示项目集合的重要组件。Qt框架提供了多种列表型控件，其中QListWidget和QComboBox是最常用的两种。在本篇博客中，我们将深入了解这两种控件的特点和用法，
深度学习实验：GPU加速，突破性能瓶颈 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
深度学习实验：GPU加速，突破性能瓶颈1.背景介绍随着深度学习模型变得越来越复杂和庞大，传统的CPU已经无法满足训练和推理的计算需求。GPU凭借其强大的并行计算能力和专门为矩阵运算优化的架构，成为了深度学习领域的核心加速器。本文将探讨如何利用GPU加速深度学习实验,突破性能瓶颈,提高模型训练和推理的效率。2.核心概念与联系2.1GPU架构GPU(图形处理器)最初是为了加速图形渲染而设计的,但由于其
linux 信号量sem 使用示例 lxt的knowledge linux 服务器 c语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、信号量是什么？二、代码示例1.posix2.systemV总结前言提示：这里可以添加本文要记录的大概内容：信号量主要用于进程间使用信号量：分为posix和systemV信号量posix信号量：sem_open：打开/创建semsem_close：关闭semsem_unlink：删除smesem_post：P操作+1se
深度学习相关指标工作笔记 Victor Zhong AI 框架深度学习笔记人工智能
这里写目录标题检测指标iou/Ｇou/Ｄiou/ＣiouMSE(MeanSquaredError)(均方误差)(回归问题)交叉熵损失函数(CrossEntropyErrorFunction)(分类问题)检测指标iou/Ｇou/Ｄiou/ＣiouIntersectionoverUnion(IoU)是目标检测里一种重要的评价值交并比令人遗憾的是IoU无法优化无重叠的bboxes如果用IoU作为loss
典型的几种神经网络 Victor Zhong AI 框架神经网络人工智能深度学习
骨干网络CNN(卷积神经网络)RNN(循环神经网络)三级目录CNN(卷积神经网络)包括输入层、隐藏层、输出层：输入层一般为一张图片（w,h,d）,输入层数据一般要做归一化处理;隐藏层包含特有的卷积层（卷积核有权重系数）、池化层（没有权重系数）、全连接层，还有残差块？和Inception模块？。；输出层：RNN(循环神经网络)单向的RNN示意图：三级目录
二、OpenCV的第一个程序
文章目录一、第一个程序：显示图片1.1cv::imread1.2cv::namedWindow1.3cv::imshow二、第二个程序：视频2.1cv::VideoCapture三、加入了滑动条的基本浏览窗口一、第一个程序：显示图片示例：一个简单的加载并显示图像的OpenCV程序#include#include"./opencv2/opencv.hpp"intmain(){cv::Matimage
ztree设置禁用节点 3213213333332132 JavaScript ztree json setDisabledNode Ajax
ztree设置禁用节点的时候注意，当使用ajax后台请求数据,必须要设置为同步获取数据，否者会获取不到节点对象，导致设置禁用没有效果。 $(function(){ showTree(); setDisabledNode(); });
JVM patch by Taobao bookjovi java HotSpot
在网上无意中看到淘宝提交的hotspot patch，共四个，有意思，记录一下。 7050685：jsdbproc64.sh has a typo in the package name 7058036：FieldsAllocationStyle=2 does not work in 32-bit VM 7060619：C1 should respect inline and
将session存储到数据库中 dcj3sjt126com sql PHP session
CREATE TABLE sessions ( id CHAR(32) NOT NULL, data TEXT, last_accessed TIMESTAMP NOT NULL, PRIMARY KEY (id) ); <?php /** * Created by PhpStorm. * User: michaeldu * Date
Vector 171815164 vector
public Vector<CartProduct> delCart(Vector<CartProduct> cart, String id) { for (int i = 0; i < cart.size(); i++) { if (cart.get(i).getId().equals(id)) { cart.remove(i);
各连接池配置参数比较 g21121 连接池
排版真心费劲，大家凑合看下吧，见谅~ Druid DBCP C3P0 Proxool 数据库用户名称 Username Username User 数据库密码 Password Password Password 驱动名
[简单]mybatis insert语句添加动态字段 53873039oycg mybatis
mysql数据库,id自增,配置如下： <insert id="saveTestTb" useGeneratedKeys="true" keyProperty="id" parameterType=&
struts2拦截器配置云端月影 struts2拦截器
struts2拦截器interceptor的三种配置方法方法1. 普通配置法 <struts> <package name="struts2" extends="struts-default"> &
IE中页面不居中，火狐谷歌等正常 aijuans IE中页面不居中
问题是首页在火狐、谷歌、所有IE中正常显示，列表页的页面在火狐谷歌中正常，在IE6、7、8中都不中，觉得可能那个地方设置的让IE系列都不认识，仔细查看后发现，列表页中没写HTML模板部分没有添加DTD定义，就是<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3
String,int,Integer,char 几个类型常见转换 antonyup_2006 html sql .net
如何将字串 String 转换成整数 int? int i = Integer.valueOf(my_str).intValue(); int i=Integer.parseInt(str); 如何将字串 String 转换成Integer ? Integer integer=Integer.valueOf(str); 如何将整数 int 转换成字串 String ? 1.
PL/SQL的游标类型百合不是茶显示游标(静态游标)隐式游标游标的更新和删除 %rowtype ref游标(动态游标)
游标是oracle中的一个结果集,用于存放查询的结果; PL/SQL中游标的声明; 1,声明游标 2,打开游标(默认是关闭的); 3,提取数据 4,关闭游标注意的要点:游标必须声明在declare中,使用open打开游标,fetch取游标中的数据,close关闭游标隐式游标:主要是对DML数据的操作隐
JUnit4中@AfterClass @BeforeClass @after @before的区别对比 bijian1013 JUnit4 单元测试
一.基础知识 JUnit4使用Java5中的注解（annotation），以下是JUnit4常用的几个annotation： @Before：初始化方法对于每一个测试方法都要执行一次（注意与BeforeClass区别，后者是对于所有方法执行一次）@After：释放资源对于每一个测试方法都要执行一次（注意与AfterClass区别，后者是对于所有方法执行一次
精通Oracle10编程SQL(12)开发包 bijian1013 oracle 数据库 plsql
/* *开发包 *包用于逻辑组合相关的PL/SQL类型（例如TABLE类型和RECORD类型）、PL/SQL项（例如游标和游标变量）和PL/SQL子程序（例如过程和函数） */ --包用于逻辑组合相关的PL/SQL类型、项和子程序，它由包规范和包体两部分组成 --建立包规范：包规范实际是包与应用程序之间的接口，它用于定义包的公用组件，包括常量、变量、游标、过程和函数等 --在包规
【EhCache二】ehcache.xml配置详解 bit1129 ehcache.xml
在ehcache官网上找了多次，终于找到ehcache.xml配置元素和属性的含义说明文档了，这个文档包含在ehcache.xml的注释中！ ehcache.xml ： http://ehcache.org/ehcache.xml ehcache.xsd ： http://ehcache.org/ehcache.xsd ehcache配置文件的根元素是ehcahe ehcac
java.lang.ClassNotFoundException: org.springframework.web.context.ContextLoaderL 白糖_ java eclipse spring tomcat Web
今天学习spring+cxf的时候遇到一个问题：在web.xml中配置了spring的上下文监听器： <listener> <listener-class>org.springframework.web.context.ContextLoaderListener</listener-class> </listener> 随后启动
angular.element boyitech AngularJS AngularJS API angular.element
angular.element 描述: 包裹着一部分DOM element或者是HTML字符串，把它作为一个jQuery元素来处理。（类似于jQuery的选择器啦）如果jQuery被引入了，则angular.element就可以看作是jQuery选择器，选择的对象可以使用jQuery的函数；如果jQuery不可用，angular.e
java-给定两个已排序序列，找出共同的元素。 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class CommonItemInTwoSortedArray { /** * 题目：给定两个已排序序列，找出共同的元素。 * 1.定义两个指针分别指向序列的开始。 * 如果指向的两个元素
sftp 异常，有遇到的吗？求解 Chen.H java jcraft auth jsch jschexception
com.jcraft.jsch.JSchException: Auth cancel at com.jcraft.jsch.Session.connect(Session.java:460) at com.jcraft.jsch.Session.connect(Session.java:154) at cn.vivame.util.ftp.SftpServerAccess.connec
[生物智能与人工智能]神经元中的电化学结构代表什么? comsci 人工智能
我这里做一个大胆的猜想,生物神经网络中的神经元中包含着一些化学和类似电路的结构,这些结构通常用来扮演类似我们在拓扑分析系统中的节点嵌入方程一样,使得我们的神经网络产生智能判断的能力,而这些嵌入到节点中的方程同时也扮演着"经验"的角色.... 我们可以尝试一下...在某些神经
通过LAC和CID获取经纬度信息 dai_lm lac cid
方法1：用浏览器打开http://www.minigps.net/cellsearch.html，然后输入lac和cid信息(mcc和mnc可以填0)，如果数据正确就可以获得相应的经纬度方法2：发送HTTP请求到http://www.open-electronics.org/celltrack/cell.php?hex=0&lac=<lac>&cid=&
JAVA的困难分析 datamachine java
前段时间转了一篇SQL的文章（http://datamachine.iteye.com/blog/1971896），文章不复杂，但思想深刻，就顺便思考了一下java的不足，当砖头丢出来，希望引点和田玉。 -----------------------------------------------------------------------------------------
小学5年级英语单词背诵第二课 dcj3sjt126com english word
money 钱 paper 纸 speak 讲，说 tell 告诉 remember 记得，想起 knock 敲，击，打 question 问题 number 数字，号码 learn 学会，学习 street 街道 carry 搬运，携带 send 发送，邮寄，发射 must 必须 light 灯，光线，轻的 front
linux下面没有tree命令 dcj3sjt126com linux
centos p安装 yum -y install tree mac os安装 brew install tree 首先来看tree的用法 tree 中文解释：tree 功能说明：以树状图列出目录的内容。语　　法：tree [-aACdDfFgilnNpqstux][-I <范本样式>][-P <范本样式
Map迭代方式，Map迭代，Map循环蕃薯耀 Map循环 Map迭代 Map迭代方式
Map迭代方式，Map迭代，Map循环 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年
Spring Cache注解+Redis hanqunfeng spring
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redis</artifactId>
Guava中针对集合的 filter和过滤功能 jackyrong filter
在guava库中，自带了过滤器(filter)的功能，可以用来对collection 进行过滤，先看例子： @Test public void whenFilterWithIterables_thenFiltered() { List<String> names = Lists.newArrayList("John"
学习编程那点事 lampcy 编程 android PHP html5
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
架构师之流处理---------bytebuffer的mark,limit和flip nannan408 ByteBuffer
1.前言。如题，limit其实就是可以读取的字节长度的意思，flip是清空的意思，mark是标记的意思。 2.例子. 例子代码: String str = "helloWorld"; ByteBuffer buff = ByteBuffer.wrap(str.getBytes()); Sy
org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1, column 1 Everyday都不同 $转义 el表达式
最近在做Highcharts的过程中，在写js时，出现了以下异常：严重: Servlet.service() for servlet jsp threw exception org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1,
用Java实现发送邮件到163 tntxia java实现
/* 在java版经常看到有人问如何用javamail发送邮件？如何接收邮件？如何访问多个文件夹等。问题零散，而历史的回复早已经淹没在问题的海洋之中。本人之前所做过一个java项目，其中包含有WebMail功能，当初为用java实现而对javamail摸索了一段时间，总算有点收获。看到论坛中的经常有此方面的问题，因此把我的一些经验帖出来，希望对大家有些帮助。此篇仅介绍用
探索实体类存在的真正意义 java小叶檀 POJO
一. 实体类简述实体类其实就是俗称的POJO,这种类一般不实现特殊框架下的接口，在程序中仅作为数据容器用来持久化存储数据用的 POJO（Plain Old Java Objects）简单的Java对象它的一般格式就是 public class A{ private String id; public Str