datamonday

【EAI 019】Eureka: Human-Level Reward Design via Coding LLM

论文标题：Eureka: Human-Level Reward Design via Coding Large Language Models
论文作者：Yecheng Jason Ma, William Liang, Guanzhi Wang, De-An Huang, Osbert Bastani, Dinesh Jayaraman, Yuke Zhu, Linxi Fan, Anima Anandkumar
作者单位：NVIDIA; UPenn; Caltech; UT Austin
论文原文：https://arxiv.org/abs/2310.12931
论文出处：ICLR 2024
论文被引：10（01/05/2024）
项目主页：https://eureka-research.github.io/
论文代码：https://github.com/eureka-research/Eureka，2.4k star

ABSTRACT

大型语言模型（LLM）作为高层次语义规划器，在顺序决策任务中表现出色。然而，如何利用它们来学习复杂的低层次操作任务（如灵巧地转动钢笔），仍然是一个有待解决的问题。我们弥补了这一根本性差距，推出了由 LLMs 驱动的人类级奖励设计算法 EUREKA。EUREKA 利用最先进的 LLM（如 GPT-4）出色的零样本生成，代码编写和上下文改进能力，对奖励代码进行进化优化。由此产生的奖励可用于通过强化学习获得复杂的技能。在没有任何特定任务提示或预定义奖励模板的情况下，EUREKA 生成的奖励函数优于人类设计的专家奖励。在包含 10 种不同机器人形态的 29 种开源 RL 环境中，EUREKA 在 83% 的任务中表现优于人类专家，平均归一化提高了 52%。EUREKA的通用性还使一种新的无梯度上下文学习方法成为可能，即从人类反馈中进行强化学习（RLHF），在不更新模型的情况下，随时结合人类输入来提高生成奖励的质量和安全性。最后，通过在课程学习环境中使用 EUREKA 奖励，我们首次展示了能够表演钢笔旋转技巧的模拟影子手，它能熟练地操纵钢笔以极快的速度转圈。

1 INTRODUCTION

大型语言模型（LLMs）作为机器人任务的高层次语义规划器表现出色，但它们能否用于学习复杂的低层次操作任务，如灵巧地旋转钢笔，仍是一个未决问题。现有的尝试需要大量的领域专业知识来构建任务提示，或者只能学习简单的技能，在实现人类级别的灵巧性方面还存在很大差距。

另一方面，强化学习（RL）在灵巧性以及许多其他领域都取得了令人印象深刻的成果——前提是人类设计者能够精心构建奖励函数，为所需行为准确编码并提供学习信号。由于现实世界中的许多 RL 任务都存在难以学习的稀疏奖励，因此在实践中，提供增量学习信号的奖励塑造是必要的。尽管奖励功能具有根本性的重要性，但众所周知其设计难度很大；最近进行的一项调查发现，92%的受访强化学习研究人员和从业人员表示奖励设计需要手动试错，89%的人表示他们设计的奖励是次优的，会导致非预期行为。

鉴于奖励设计的极端重要性，我们不禁要问，是否有可能利用最先进的编码 LLM（如 GPT-4）来开发一种通用的奖励编程算法？它们在代码编写，零样本生成和上下文学习方面的卓越能力曾使有效的编程Agent成为可能。理想情况下，这种奖励设计算法应具有人类水平的奖励生成能力，可扩展到广泛的任务范围，在没有人类监督的情况下自动完成乏味的试错过程，同时与人类监督兼容，以确保安全性和一致性。

我们介绍了一种由编码 LLMs 驱动的新型奖励设计算法——Agent进化驱动通用奖励工具包（Evolution-driven Universal REward Kit for Agent，EUREKA），其贡献如下：

在 29 种不同的开源 RL 环境中，EUREKA 的奖励设计性能达到了人类水平，这些环境包括 10 种不同的机器人形态，包括四足机器人，四旋翼机器人，双足机器人，机械手以及几种灵巧的手；见图 1。在没有任何特定任务提示或奖励模板的情况下，EUREKA 自主生成的奖励在 83% 的任务中优于人类专家的奖励，并实现了 52% 的平均归一化改进。
解决以前无法通过人工奖励工程实现的灵巧操作任务。我们考虑了钢笔旋转的问题，在这种情况下，一只五指手需要按照预先设定的旋转配置快速旋转钢笔，并尽可能多地旋转几个周期。通过将 EUREKA 与课程学习相结合，我们首次在模拟的拟人影子手上演示了快速旋转笔的操作（见图 1 底部）。
我们采用了一种新的无梯度上下文学习方法，即从人类反馈中进行强化学习（RLHF），这种方法可以根据各种形式的人类输入生成性能更强，与人类更匹配的奖励函数。我们证明，EUREKA 可以从现有的人类奖励函数中获益并加以改进。同样，我们还展示了 EUREKA 利用人类文本反馈来共同引导奖励函数设计的能力，从而捕捉到人类在Agent行为中的细微偏好。

与之前使用 LLMs 辅助奖励设计的 L2R 工作不同，EUREKA 完全没有特定任务提示，奖励模板以及少量示例。在我们的实验中，EUREKA 的表现明显优于 L2R，这得益于它能够生成和完善自由形式，富有表现力的奖励程序。EUREKA 的通用性得益于三个关键的算法设计选择：环境作为背景，进化搜索和奖励反射。

首先，通过将环境源代码作为上下文，EUREKA 可以从主干编码 LLM（GPT-4）中零样本生成可执行的奖励函数。
然后，EUREKA 通过执行进化搜索，在 LLM 上下文窗口内迭代地提出一批候选奖励并完善最有希望的奖励，从而大幅提高奖励质量。这种在上下文中的改进通过奖励反思来实现，奖励反思是基于策略训练统计数据的奖励质量文本总结，可实现自动和有针对性的奖励编辑；EUREKA zero-shot 奖励的示例及其优化过程中积累的各种改进见图 3。为了确保 EUREKA 能够将奖励搜索扩展到最大潜力，EUREKA 在 IsaacGym 上使用 GPU 加速的分布式强化学习来评估中间奖励，这可以提供高达三个数量级的策略学习速度，使 EUREKA 成为一种广泛的算法，可以随着计算量的增加而自然扩展。概况见图 2。

我们致力于开源所有提示，环境和生成的奖励函数，以促进对基于 LLM 的奖励设计的进一步研究。

2 PROBLEM SETTING AND DEFINITIONS

奖励设计的目标是为可能难以直接优化的真实奖励函数（如稀疏奖励）返回一个成型的奖励函数；这个真实奖励函数只能通过设计者的查询来访问。我们首先介绍 Singh 等人的正式定义，然后将其应用到程序合成环境中，我们称之为奖励生成。

定义 2.1 奖励设计问题（RDP）是一个元组 P = ⟨M, R, πM , F ⟩，其中 M = (S, A, T ) 是具有状态空间 S，行动空间 A 和转换函数 T 的世界模型。R 是奖励函数空间；AM (-) ： R → Π 是一种学习算法，可输出一种策略 π : S → ∆(A)，在生成的马尔可夫决策过程（MDP）(M, R)中优化奖励 R∈ R；F : Π → R 是适应度函数，可对任何策略进行标量评估，只能通过策略查询（即使用适应度函数评估策略）获取。在 RDP 中，目标是输出一个奖励函数 R∈ R，从而使优化 R 的策略π := AM ® 获得最高的适应度得分 F (π)。

奖励生成问题。在我们的问题设置中，RDP 中的每个组件都是通过代码指定的。然后，给定一个指定任务的字符串 l，奖励生成问题的目标就是输出一个奖励函数代码 R，使 F (AM ®) 最大化。

3 METHOD

EUREKA 由三个算法组件组成：

1）以环境为背景，实现零样本生成可执行奖励
2）进化搜索，迭代提出并完善候选奖励
3）奖励反射，实现细粒度奖励改进

伪代码见 Algorithm 1。

3.1 ENVIRONMENT AS CONTEXT

奖励设计需要向 LLM 提供环境规范。我们建议直接将原始环境代码（不含奖励代码，如果存在的话）作为上下文提供给 LLM。也就是说，LLM 将从字面上把 M 作为上下文。这样做有两个直观的原因：

首先，编码 LLM 是根据现有编程语言编写的本地代码进行训练的，因此当我们直接允许 LLM 以它们所训练的风格和语法进行编译时，我们应该期望它们的代码生成能力会更强。
其次，更重要的是，环境源代码通常揭示了环境在语义上的含义，以及哪些变量可以并应该用于为指定任务编写奖励函数。

利用这些洞察力，EUREKA 会指示编码 LLM 直接返回可执行的 Python 代码，其中只包含通用奖励设计和格式提示，例如将奖励中的单个组件作为字典输出（原因将在第 3.3 节中说明）。这个过程具有最大的可扩展性，因为根据构造，环境源代码必须存在。详见附录 D。

值得注意的是，仅凭这些最基本的指令，EUREKA 首次尝试就能在不同环境中零样本生成看似合理的奖励。图 3 是 EUREKA 输出的一个示例。如图所示，EUREKA 在提供的环境代码中巧妙地组合了现有的观察变量（如指尖位置），并生成了合格的奖励代码——所有这一切都不需要任何特定环境的提示工程或奖励模板。不过，在第一次尝试时，生成的奖励可能并不总是可执行的，即使是可执行的，就任务适配度量 F 而言，也可能是相当次优的。虽然我们可以通过特定任务的格式和奖励设计提示来改进提示，但这样做并不能扩展到新任务，而且会妨碍我们系统的整体通用性。如何才能有效克服单样本奖励生成的次优性？

3.2 EVOLUTIONARY SEARCH

在本节中，我们将展示进化搜索如何提供一种自然的解决方案，以解决上述执行错误和次优化难题。在每次迭代中，EUREKA 都会对 LLM 的多个独立输出进行采样（图 1 中的第 5 行）。由于各代都是 i.i.d，因此随着采样次数的增加，迭代中所有奖励函数出现错误的概率会呈指数级下降。我们发现，在我们考虑的所有环境中，即使只对少量（16 个）输出进行采样，在第一次迭代中也至少包含一个可执行的奖励代码。

通过提供早期迭代的可执行奖励函数，EUREKA 可执行上下文奖励突变，根据文本反馈从现有奖励函数中提出新的改进奖励函数。考虑到 LLM 的指令跟踪和上下文改进功能，EUREKA 只需将突变运算符指定为文本提示即可实现这一点，该文本提示会根据策略训练的文本摘要（第 3.3 节）建议几种修改现有奖励代码的一般方法。图 3 展示了几种奖励修改的示例。通过突变，新的 EUREKA 迭代会将上一次迭代中表现最好的奖励作为上下文，并从 LLM 中生成 K 个以上的 i.i.d 奖励输出。这种迭代优化一直持续到达到指定的迭代次数。最后，我们会进行多次随机重启，以找到更好的全局解决方案；这是全局优化的标准策略，用于克服糟糕的初始猜测。在我们的所有实验中，EUREKA 对每个环境进行 5 次独立运行，每次运行搜索 5 次迭代，每次迭代 K = 16 个样本。

3.3 REWARD REFLECTION

为了使上下文中的奖励突变有据可依，我们必须能够用语言表达所生成奖励的质量。由于我们可以在生成的策略上查询任务适配度函数 F，因此一个简单的策略就是只提供这个数字分数作为奖励评估。虽然任务适配度函数可以作为整体的基本真实指标，但它本身缺乏信用分配，无法提供有用的信息来说明奖励函数为何有效或无效。为了提供更复杂，更有针对性的奖励诊断，我们建议构建自动反馈，以文本形式总结策略训练动态。具体来说，鉴于 EUREKA 奖励函数被要求在奖励程序中公开其各个组件（如图 3 中的奖励组件），我们在整个训练过程中的中间策略检查点跟踪所有奖励组件的标量值。例如，考虑图 2 中的示例，其中 av 惩罚的快照值在奖励反馈中以列表形式提供。

这种奖励反射程序虽然构建简单，但由于奖励优化的算法依赖性，因此非常重要。也就是说，奖励函数是否有效受 RL 算法特定选择的影响，即使在同一优化器下，由于超参数的差异，相同奖励的表现也可能大相径庭。通过详细说明 RL 算法如何优化单个奖励成分，奖励反思使 EUREKA 能够产生更有针对性的奖励编辑，并合成能更好地与固定 RL 算法协同的奖励函数。

4 EXPERIMENTS

我们对 EUREKA 的各种机器人体现和任务进行了全面评估，测试了其生成奖励函数，解决新任务以及结合各种形式人类输入的能力。除非另有说明，我们使用 GPT-4（gpt-4-0314），作为所有基于 LLM 的奖励设计算法的主干 LLM。

Environments.

我们的环境由 10 个不同的机器人和 29 项任务组成，使用 Isaac Gym 模拟器实现。首先，我们包含了来自 Isaac Gym 的 9 个原始环境，涵盖了从四足机器人，双足机器人，四旋翼机器人，机器人手臂到灵巧双手等多种机器人形态。除了涵盖各种机器人形态外，我们还将双灵巧操作基准 Dexterity 中的全部 20 个任务都纳入了评估范围，从而确保了评估的深度。Dexterity 包含 20 项复杂的双徒手任务，要求一对影子手解决从物体交接到将杯子旋转 180 度等各种复杂的操作技能。对于输入到 EUREKA 的任务描述，我们尽可能使用环境资源库中提供的官方描述。有关所有环境的详细信息，请参见附录 B 了解所有环境的详细信息。值得注意的是，这两个基准都是同时公开发布的，或者说是在 GPT-4 知识截止日期（2021年9月）之后发布的，因此GPT-4 不太可能积累了关于这些任务的大量互联网知识，这使得它们成为评估EUREKA奖励生成能力与可测量的人类工程奖励功能相比的理想测试平台。

4.1 BASELINES

L2R 提出了一种两阶段 LLM 提示解决方案，用于生成模板奖励。对于用自然语言指定的环境和任务，第一个 LLM 会被要求填写一个描述Agent运动的自然语言模板；然后，第二个 LLM 会被要求将这个 “运动描述” 转换成代码，调用一组手动定义的奖励 API 基元，编写一个设置其参数的奖励程序。为了使 L2R 在我们的任务中具有竞争力，我们模仿原始 L2R 模板定义了运动描述模板，并尽可能使用原始人类奖励的各个组成部分来构建 API 奖励原语。需要注意的是，这将使 L2R 更具优势，因为它可以访问原始奖励函数。与 EUREKA 一致，我们在每个环境中进行 5 次独立的 L2R 运行，每次运行生成 16 个奖励样本。详情请参见附录 C 了解更多详情。

Human。这些是我们的基准任务中提供的原始形状奖励函数。由于这些奖励函数是由设计任务的主动强化学习研究人员编写的，因此这些奖励函数代表了专家级人类奖励工程的成果。

Sparse。这些与我们用来评估生成奖励质量的适应度函数 F 相同。与 “人” 一样，这些函数也是由基准提供的。在灵巧任务中，它们是衡量任务成功与否的统一二元指标函数；而在 Isaac 任务中，它们的函数形式则因任务性质而异。参见附录 B。有关所有任务的真实评分标准的描述，请参见附录 B。

4.2 TRAINING DETAILS

Policy Learning。对于每项任务，所有最终奖励函数都使用相同的 RL 算法和相同的超参数集进行优化。Isaac 和 Dexterity 共享一个经过良好微调的 PPO 实现，我们使用该实现和特定任务的 PPO 超参数，不做任何修改。需要注意的是，这些任务超参数的调整是为了使官方的人工奖赏效果更好。对于每种奖励，我们都会运行 5 次独立的 PPO 训练运行，并将策略检查点达到的最大任务指标值的平均值作为奖励的性能进行报告。

Reward Evaluation Metrics。对于 Isaac 任务，由于每项任务的任务指标 F 在语义和规模上各不相同，我们报告了 EUREKA 和 L2R, $\frac{Method-Sparse}{|Human-Sparse|}$ 的人类标准化得分。该指标提供了一个整体衡量标准，用于衡量与人类专家奖励相比，EUREKA 奖励在真实任务指标方面的表现。对于 Dexterity，由于所有任务都使用二元成功函数进行评估，因此直接报告成功率。

4.3 RESULTS

EUREKA outperforms human rewards.

在图 4 中，我们报告了两个基准的综合结果。值得注意的是，EUREKA 在所有 Isaac 任务和 Dexterity 20 个任务中的 15 个任务上的表现都超过了人类水平或与人类水平相当（每个任务的细分见附录 E）。相比之下，L2R 虽然在低维任务（如 CartPole，BallBalance）上表现相当，但在高维任务上却明显落后。尽管 L2R 可以访问一些与 Human 相同的奖励组件，但在初始迭代后，当两种方法的奖励查询次数相同时，L2R 的表现仍然不如 EUREKA。不出所料，L2R 缺乏表达能力严重限制了其性能。相比之下，EUREKA 从零开始生成自由形式的奖赏，不需要任何特定领域的知识，表现要好得多。在附录 E 中，我们用 GPT-3.5 消融了 GPT-4，发现 EUREKA 的性能有所下降，但在大多数 Isaac 任务上仍能达到或超过人类水平，这表明它的一般原理可以很容易地应用于不同质量的LLM编码。

EUREKA consistently improves over time.

在图 5 中，我们展示了每次进化迭代后累积的最佳 EUREKA 奖励的平均性能。此外，我们还研究了EUREKA w.o. Evolution (32 Samples)，它只执行初始奖励生成步骤，采样的奖励函数数量与原始EUREKA的两次迭代相同。在奖励函数预算数量固定的情况下，这种消融有助于研究是执行 EUREKA 进化更有优势，还是只采样更多的首次尝试奖励而不进行迭代改进更有优势。正如我们所看到的，在这两个基准上，EUREKA 奖励都在稳步提高，并最终在性能上超越了人类奖励，尽管最初的表现并不理想。这种持续的改进也不是在第一次迭代中进行更多采样就能取代的，因为在两个基准上，迭代 2 次之后，消融的性能都低于 EUREKA。这些结果共同表明，EUREKA 的新颖进化优化对其最终性能是不可或缺的。

EUREKA generates novel rewards.

我们通过计算所有Isaac任务中EUREKA奖励与人类奖励之间的相关性来评估EUREKA奖励的新颖性。有关此过程的详情，请参阅附录 B。然后，我们在图 6 的散点图上绘制出相关性与人类归一化分数的对比图，其中每个点代表一个任务中的一个 EUREKA 奖励。如图所示，EUREKA 生成的奖励函数几乎都是弱相关的，表现优于人类的奖励函数。此外，通过研究任务的平均相关性（附录 E），我们发现任务越难，EUREKA 奖励的相关性就越低。我们的假设是，对于困难的任务，人类奖励不太可能接近最优，这就为 EUREKA 奖励留下了更多不同和更好的空间。在少数情况下，EUREKA奖励甚至与人类奖励呈负相关，但表现却明显更好，这表明EUREKA可以发现可能与人类直觉相悖的新颖奖励设计原则；我们在附录 F.2 中对这些EUREKA奖励进行了说明。

Reward reflection enables targeted improvement.

为了评估在奖励反馈中构建奖励反射的重要性，我们评估了一种消融方法，即 EUREKA（无奖励反射），它减少了奖励反馈提示，只包括任务指标 F 的快照值。从所有 Isaac 任务的平均值来看，没有奖励反射的 EUREKA 将平均归一化分数降低了 28.6%；在附录 E 中，我们提供了每个任务的详细分解，并观察到在维度更高的任务中，性能下降幅度更大。为了提供定性分析，我们在附录 F.1 中，我们列举了几个例子，其中 EUREKA 利用奖励反射执行了有针对性的奖励编辑。

EUREKA with curriculum learning enables dexterous pen spinning.

最后，我们将研究 EUREKA 能否用于解决真正新颖且具有挑战性的灵巧任务。为此，我们提出了钢笔旋转作为测试平台。这项任务是高度动态的，需要影子手不断旋转钢笔，以尽可能多的周期实现一些预定义的旋转模式。我们考虑采用课程学习的方法，将任务分解为可管理的组件，由 EUREKA 独立解决；类似的方法在其他编码 LLM 应用于决策制定时也取得了成功。具体来说，我们首先指示 EUREKA 生成一个奖励，用于将笔重新定向到随机目标配置上。然后，利用这个预先训练好的策略（Pre-Trained），我们使用 EUREKA 的奖励对其进行微调，以达到笔的旋转配置序列（Fine-Tuned）。为了证明课程学习的重要性，我们还使用 EUREKA 奖励从头开始训练一个基准策略，而不进行第一阶段的预训练（Scratch）。RL 训练曲线如图 7 所示。Eureka 微调能快速调整策略，使笔沿着指定的旋转轴连续旋转多个周期。相比之下，无论是预训练还是从零开始学习的策略，都无法完成哪怕是一个周期的笔旋转。此外，利用这种 EUREKA 微调方法，我们还针对各种不同的旋转配置训练了钢笔旋转策略；所有钢笔旋转视频可在我们的项目网站上观看，实验详情见附录 D1。这些结果表明，EUREKA 适用于高层次策略学习方法，这通常是学习非常复杂的技能所必需的。

4.4 EUREKA FROM HUMAN FEEDBACK

除了自动奖励设计外，EUREKA 还支持一种新的无梯度上下文学习方法，即从人类反馈中进行 RL（RLHF），该方法可随时纳入各种类型的人类输入，以生成性能更佳，与人类更匹配的奖励函数。

EUREKA can improve and benefit from human reward functions.

我们研究了从人类奖励函数初始化开始（这在现实世界的 RL 应用中很常见）是否对 EUREKA 有利。重要的是，加入人类初始化不需要对EUREKA进行任何修改–我们只需将原始人类奖励函数替换为EUREKA第一次迭代的输出即可。为了研究这一点，我们从 Dexterity 中选择了几个任务，这些任务在原始 EUREKA 和人类奖励的相对性能上存在差异。全部结果如图 8 所示。如图所示，无论人类奖励的质量如何，EUREKA 都能改进人类奖励并从中获益，因为在所有任务中，EUREKA（Human Init.）这表明，EUREKA 的情境奖励改进能力在很大程度上与基础奖励的质量无关。此外，EUREKA 即使在人类奖赏高度次优的情况下也能显著提高奖赏质量，这一事实暗示了一个有趣的假设：人类设计师通常了解相关的状态变量，但在使用这些变量设计奖赏方面却不那么精通。这在直觉上是合理的，因为识别应包含在奖励函数中的相关状态变量主要涉及常识推理，而奖励设计则需要 RL 方面的专业知识和经验。这些结果共同证明了 EUREKA 的奖励助手能力，它完美地补充了人类设计者关于有用状态变量的知识，并弥补了他们在如何使用这些变量设计奖励方面的不足。附录 F.3 提供了几个EUREKA（Human Init.）步骤的例子。

Reward reflection via human feedback induces aligned behavior

迄今为止，所有 EUREKA 奖励都是根据固定的黑盒任务适合度函数（black-box task fitness function） F 进行优化的。然而，这一任务指标可能并不完全符合人类的意图。此外，在许多开放式任务中，F 可能一开始就不可用。在这些具有挑战性的场景中，我们建议让人类介入，用语言表达出期望行为和纠正的奖励反映，从而增强 EUREKA 的功能。我们通过教一个仿人 Agent 如何纯粹根据文字奖励反映来运行来研究 EUREKA 的这一能力；在附录 F.4 中，我们展示了人类反馈和EUREKA奖励的确切顺序。然后，我们进行了一项用户研究，要求 20 名陌生用户在随机顺序播放的两个策略推出（policy rollout）视频（一个是经过人类奖励反射训练的视频（EUREKA-HF），另一个是经过原始最佳 EUREKA 奖励训练的视频）中选择自己的偏好；详情见附录 D.3。如表 1 所示，EUREKA-HF Agent受到了绝大多数用户的青睐，它成功地以速度换取了稳定性。在图 9 中，我们展示了每次人类反馈后 Eureka 学习行为的演变。我们确实看到，EUREKA-HF Agent在人类的指导下逐渐获得了更安全，更稳定的步态。在我们的项目网站上，我们提供了每种中间EUREKA-HF策略的视频以及与之相关的EUREKA奖励。

5 RELATED WORK

Reward Design.

奖励工程是强化学习中一个长期存在的难题。最常见的奖励设计方法是人工试错。逆强化学习（Inverse reinforcement learning，IRL）可从演示中推断出奖励函数，但它需要昂贵的专家数据收集，而这些数据可能无法获得，并且会输出不可解释的黑箱奖励函数。之前有几项工作研究了通过进化算法进行自动奖励搜索。这些早期尝试仅限于进化算法的特定任务实现，即只在提供的奖励模板内搜索参数。最近的研究还提出使用预训练的基础模型，为新任务生成奖励函数。大多数这些方法输出的标量奖励缺乏可解释性，自然也不具备即时改进或调整奖励的能力。相比之下，EUREKA 能够熟练地生成自由形式的白盒奖励代码，并有效地在上下文中进行改进。

Code Large Language Models for Decision Making.

最近的工作考虑使用编码 LLMs 为决策和机器人问题生成接地气的结构化程序输出。然而，这些研究大多依赖已知的运动基元来执行机器人动作，不适用于需要低层次技能学习的机器人任务，如灵巧操作。与我们的工作最接近一项工作也在探索使用 LLMs 来辅助奖励设计。不过，他们的方法需要特定领域的任务描述和奖励模板，这需要大量的领域知识，并限制了生成的奖励函数的表达能力。

Evolution with LLMs.

在神经架构搜索，提示工程以及形态设计等方面，最近的研究都在探索如何利用LLMs实施进化算法。我们首次将这一原则应用于奖励设计。与之前的方法不同，EUREKA 不需要人类提供初始候选者或小样本提示。此外，EUREKA 还引入了新颖的奖励反射机制，使奖励突变（reward mutation）更具针对性和有效性。

6 CONCLUSION

我们介绍了一种通用奖励设计算法 EUREKA，它由编码大型语言模型和上下文进化搜索驱动。在没有任何特定任务提示工程或人工干预的情况下，EUREKA 可在各种机器人和任务上实现人类水平的奖励生成。EUREKA在学习灵巧性方面具有独特优势，首次采用课程学习方法解决了灵巧的转笔问题。最后，EUREKA 采用无梯度方法从人类反馈中进行强化学习，随时将人类奖励初始化和文本反馈纳入其中，以更好地指导奖励生成。EUREKA的多功能性和显著的性能提升表明，将大型语言模型与进化算法相结合的简单原理是一种通用的，可扩展的奖励设计方法，这种见解可能普遍适用于困难的，开放式的搜索问题。

Appendix

A FULL PROMPTS

在本节中，我们提供所有 EUREKA 提示。在高层次上，EUREKA 仅指导奖励设计的通用指导以及模拟器特定的代码格式化提示。

B ENVIRONMENT DETAILS

C BASELINE DETAILS

D EUREKA DETAILS

E ADDITIONAL RESULTS

F EUREKA REWARD EXAMPLES

你可能感兴趣的:(具身智能（Embodied,AI）,人工智能,具身智能,机器人,强化学习,奖励函数设计,GPT-4,LLM)

guava loadingCache代码示例 IM 胡鹏飞 Java 工具类介绍
publicclassTest2{publicstaticvoidmain(String[]args)throwsException{LoadingCachecache=CacheBuilder.newBuilder()//设置并发级别为8，并发级别是指可以同时写缓存的线程数.concurrencyLevel(8)//设置缓存容器的初始容量为10.initialCapacity(10)//设置缓存
C++11堆操作深度解析：std::is_heap与std::is_heap_until原理解析与实践
文章目录堆结构基础与函数接口堆的核心性质函数签名与核心接口std::is_heapstd::is_heap_until实现原理深度剖析std::is_heap的验证逻辑std::is_heap_until的定位策略算法优化细节代码实践与案例分析基础用法演示自定义比较器实现最小堆检查边缘情况处理性能分析与实际应用时间复杂度对比典型应用场景与手动实现的对比注意事项与最佳实践迭代器要求比较器设计C++标
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
发票合并工具小朋的软件园前端 javascript java html 服务器
"发票合并工具"是一款专为高效整理票据设计的实用工具，支持将来自不同渠道的发票文件（如PDF文档、各类图片格式）快速整合为排版规范的PDF文件，尤其适用于财务报销场景下的批量票据处理需求。核心功能亮点多格式兼容：无缝导入PDF文件及常见图片格式（.png/.jpg/.jpeg/.bmp），适配多来源发票整合需求。智能布局配置：提供灵活的页面布局选项（每页2/3/4张发票），其中"2合1"模式针对报
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element(
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以添加戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！intmain(){vectormyvec{3,
【LeetCode 热题 100】24. 两两交换链表中的节点——（解法一）迭代+哨兵 xumistore LeetCode leetcode 链表算法 java
Problem:24.两两交换链表中的节点题目：给你一个链表，两两交换其中相邻的节点，并返回交换后链表的头节点。你必须在不修改节点内部的值的情况下完成本题（即，只能进行节点交换）。文章目录整体思路完整代码时空复杂度时间复杂度：O(N)空间复杂度：O(1)整体思路这段代码旨在解决一个经典的链表操作问题：两两交换链表中的节点(SwapNodesinPairs)。问题要求将链表中每两个相邻的节点进行交换
基于定制开发开源AI智能名片S2B2C商城小程序的社群游戏定制策略研究说私域人工智能小程序游戏
摘要：本文聚焦社群游戏定制领域，深入探讨以社群文化和用户偏好为导向的定制策略。通过分析互动游戏活动、社群文化塑造等关键要素，结合定制开发开源AI智能名片S2B2C商城小程序的技术特性，提出针对性游戏定制方案。研究旨在提升社群用户参与度与游戏体验，为社群游戏发展提供理论支持与实践指导。关键词：社群游戏定制；定制开发开源AI智能名片S2B2C商城小程序；社群文化；用户偏好一、引言在数字化社交蓬勃发展的
全面触摸屏输入法设计与实现长野君
本文还有配套的精品资源，点击获取简介：触摸屏输入法是针对触摸设备优化的文字输入方案，包括虚拟键盘、手写、语音识别和手势等多种输入方式。本方案通过提供主程序文件、用户手册、界面截图、示例图、说明文本和音效文件，旨在为用户提供一个完整的、多样的文字输入体验。开发者通过持续优化算法和用户界面，使用户在无物理键盘环境下也能高效准确地进行文字输入。1.触摸屏输入法概述简介在现代信息技术飞速发展的今天，触摸屏
前端项目架构设计要领
1.架构设计的核心目标在设计前端项目架构时，核心目标是模块化、可维护、可扩展、可测试，以及开发效率的最大化。这些目标可以通过以下几个方面来实现：组件化：将UI功能封装为可复用的组件。模块化：将业务逻辑分解为独立的模块或服务。自动化构建与部署：实现自动化构建、测试和部署流程，减少人为操作的错误。代码规范化与检查：确保团队协作时，代码风格和质量一致。2.项目目录结构设计一个清晰合理的目录结构对大型项目
精通Canvas：15款时钟特效代码实现指南烟幕缭绕
本文还有配套的精品资源，点击获取简介：HTML5的Canvas是一个用于绘制矢量图形的API，通过JavaScript实现动态效果。本项目集合了15种不同的时钟特效代码，帮助开发者通过学习绘制圆形、线条、时间更新、旋转、颜色样式设置及动画效果等概念，深化对Canvas的理解和应用。项目中的CSS文件负责时钟的样式设定，而JS文件则包含实现各种特效的逻辑，通过不同的函数或类处理时间更新和动画绘制，提
高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
ARM嵌入式可编程控制器技术开发拉勾科研工作室 arm开发
PLC自动化设计|毕业设计指导|工业自动化解决方案✨专业领域：PLC程序设计与调试工业自动化控制系统HMI人机界面开发工业传感器应用电气控制系统设计工业网络通信擅长工具：西门子S7系列PLC编程三菱/欧姆龙PLC应用触摸屏界面设计电气CAD制图工业现场总线技术自动化设备调试主要内容：PLC控制系统设计工业自动化方案规划电气原理图绘制控制程序编写与调试毕业论文指导毕业设计题目与程序设计✅具体问题可以
Android ViewBinding 使用与封装教程积跬步DEV Android 开发实战大全 android
AndroidViewBinding使用与封装教程：一、ViewBinding是什么？核心功能：为每个XML布局文件自动生成一个绑定类（如ActivityMainBinding），直接暴露所有带ID的视图引用。优点：避免繁琐的findViewById()，类型安全且编译时检查。对比DataBinding：ViewBinding仅处理视图引用，无数据绑定功能。DataBinding支持双向数据绑定，
理解TCP连接中的进程阻塞与CPU调度机制 109702008 编程 #C语言网络 tcp/ip 网络人工智能
引言在计算机网络通信中，TCP连接的建立是一个经典的三次握手过程。当用户调用connect()函数发起连接时，内核会发送SYN报文并等待对方的SYN-ACK响应。此时，调用进程通常会进入阻塞状态，暂停执行直至连接成功或超时。这一机制看似简单，但其背后的内核实现却涉及进程调度、等待队列管理和CPU资源分配等复杂操作。本文将深入探讨阻塞状态的实现原理，并解析CPU在进程阻塞期间的行为。一、进程阻塞的实
基于链家网的二手房数据采集清洗与可视化分析 Mint_Datazzh 项目 selenium 网络爬虫
个人学习内容笔记，仅供参考。项目链接：https://gitee.com/rongwu651/lianjia原文链接：基于链家网的二手房数据采集清洗与可视化分析–笔墨云烟研究内容该课题的主要目的是通过将二手房网站上的存量与已销售房源，构建一个二手房市场行情情况与房源特点的可视化平台。该平台通过HTML架构和Echarts完成可视化的搭建。因此，该课题的主要研究内容就是如何利用相关技术设计并实现这样
Java大厂面试实录：谢飞机的电商场景技术问答（Spring Cloud、MyBatis、Redis、Kafka、AI等）
Java大厂面试实录：谢飞机的电商场景技术问答（SpringCloud、MyBatis、Redis、Kafka、AI等）本文模拟知名互联网大厂Java后端岗位面试流程，以电商业务为主线，由严肃面试官与“水货”程序员谢飞机展开有趣的对话，涵盖SpringCloud、MyBatis、Redis、Kafka、SpringSecurity、AI等热门技术栈，并附详细解析，助力求职者备战大厂面试。故事设定谢
【超硬核】JVM源码解读：Java方法main在虚拟机上解释执行 HeapDump性能社区 java 开发语言后端 jvm
本文由HeapDump性能社区首席讲师鸠摩（马智）授权整理发布第1篇-关于Java虚拟机HotSpot，开篇说的简单点开讲Java运行时，这一篇讲一些简单的内容。我们写的主类中的main()方法是如何被Java虚拟机调用到的？在Java类中的一些方法会被由C/C++编写的HotSpot虚拟机的C/C++函数调用，不过由于Java方法与C/C++函数的调用约定不同，所以并不能直接调用，需要JavaC
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
基于开源AI智能名片链动2+1模式与S2B2C商城小程序的渠道选择策略研究说私域人工智能小程序
摘要：在数字化商业环境下，品牌与产品的渠道选择对其市场推广和运营成功至关重要。本文聚焦于如何依据自身品牌和产品特性，结合开源AI智能名片链动2+1模式与S2B2C商城小程序，运用科学的渠道选择方法，慎重挑选1-2个适宜平台，集中资源发力并取得成绩后再拓展其他渠道。通过理论分析与案例研究，探讨该策略的有效性和可行性，为企业渠道布局提供参考。关键词：渠道选择；开源AI智能名片；链动2+1模式；S2B2
深入解析 TCP 连接状态与进程挂起、恢复与关闭誰能久伴不乏 tcp/ip 网络服务器
文章目录深入解析TCP连接状态与进程挂起、恢复与关闭一、TCP连接的各种状态1.**`LISTEN`**（监听）2.**`SYN_SENT`**（SYN已发送）3.**`SYN_RECEIVED`**（SYN已接收）4.**`ESTABLISHED`**（已建立）5.**`FIN_WAIT_1`**（关闭等待1）6.**`FIN_WAIT_2`**（关闭等待2）7.**`CLOSE_WAIT`**
基于架构的软件设计（Architecture-Based Software Design，ABSD）是一种以架构为核心的软件开发方法
ABSD方法与生命周期基于架构的软件设计（Architecture-BasedSoftwareDesign，ABSD）是一种以架构为核心的软件开发方法，强调在开发的各个阶段都要以架构为中心，确保系统的整体结构和质量属性得到有效管理。ABSD方法是一个自顶向下、递归细化的过程，软件系统的架构通过该方法得到细化，直到能产生软件构件和类。ABSD方法的三个基础功能的分解：使用基于模块的内聚和耦合技术，将
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（Spring Boot、MyBatis、Kafka、Redis、AI等）来旺 Java场景面试宝典 Java Spring Boot MyBatis Kafka Redis 微服务 AI
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（SpringBoot、MyBatis、Kafka、Redis、AI等）互联网大厂技术面试不仅考察技术深度，更注重业务场景与系统设计能力。本篇以严肃面试官与“水货”程序员谢飞机的对话，带你体验音视频业务场景下的Java面试全过程，涵盖主流技术栈，并附详细答案解析，助你面试无忧。故事场景设定谢飞机是一名有趣但技术基础略显薄弱的程序员，这次应
C++ 设计模式：抽象工厂（Abstract Factory）冀晓武 C++设计模式 c++设计模式抽象工厂模式
链接：C++设计模式链接：C++设计模式-工厂方法链接：C++设计模式-原型模式链接：C++设计模式-建造者模式抽象工厂（AbstractFactory）是一种创建型设计模式，它提供一个接口，用于创建一系列相关或相互依赖的对象，而无需指定它们的具体类。抽象工厂模式通常用于创建一组相关的产品对象，例如不同类型的机器人和它们的配件。1.问题分析在某些情况下，我们需要创建一组相关或相互依赖的对象，但我们
配音助手：自媒体神器，内置海量音色的语音，支持多主播配音阿幸软件杂货间媒体
软件介绍内置文字转语音，提供多个主播音色，男声、女声、小孩、方言。支持的场景也是比较多，比如：广告促销、有声读物、广播配音、影视配音、Ai配音等。这个软件是免费的，只不过需要通过手机号码登录就可以使用全部功能了。软件下载夸克下载
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
java类加载顺序 3213213333332132 java
package com.demo; /** * @Description 类加载顺序 * @author FuJianyong * 2015-2-6上午11:21:37 */ public class ClassLoaderSequence { String s1 = "成员属性"; static String s2 = "
Hibernate与mybitas的比较 BlueSkator sql Hibernate 框架 ibatis orm
第一章 Hibernate与MyBatis Hibernate 是当前最流行的O/R mapping框架，它出身于sf.net，现在已经成为Jboss的一部分。 Mybatis 是另外一种优秀的O/R mapping框架。目前属于apache的一个子项目。 MyBatis 参考资料官网：http:
php多维数组排序以及实际工作中的应用 dcj3sjt126com PHP usort uasort
自定义排序函数返回false或负数意味着第一个参数应该排在第二个参数的前面, 正数或true反之, 0相等usort不保存键名uasort 键名会保存下来uksort 排序是对键名进行的 <!doctype html> <html lang="en"> <head> <meta charset="utf-8&q
DOM改变字体大小周华华前端
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
c3p0的配置 g21121 c3p0
c3p0是一个开源的JDBC连接池，它实现了数据源和JNDI绑定，支持JDBC3规范和JDBC2的标准扩展。c3p0的下载地址是：http://sourceforge.net/projects/c3p0/这里可以下载到c3p0最新版本。以在spring中配置dataSource为例：  <bean name="prope
Java获取工程路径的几种方法 510888780 java
第一种： File f = new File(this.getClass().getResource("/").getPath()); System.out.println(f); 结果: C:\Documents%20and%20Settings\Administrator\workspace\projectName\bin 获取当前类的所在工程路径; 如果不加“
在类Unix系统下实现SSH免密码登录服务器 Harry642 免密 ssh
1.客户机 (1)执行ssh-keygen -t rsa -C "[email protected]"生成公钥，xxx为自定义大email地址 (2)执行scp ~/.ssh/id_rsa.pub root@xxxxxxxxx:/tmp将公钥拷贝到服务器上，xxx为服务器地址 (3)执行cat
Java新手入门的30个基本概念一 aijuans java java 入门新手
在我们学习Java的过程中,掌握其中的基本概念对我们的学习无论是J2SE,J2EE,J2ME都是很重要的,J2SE是Java的基础,所以有必要对其中的基本概念做以归纳,以便大家在以后的学习过程中更好的理解java的精髓,在此我总结了30条基本的概念。　　Java概述:　　目前Java主要应用于中间件的开发(middleware)---处理客户机于服务器之间的通信技术,早期的实践证明,Java不适合
Memcached for windows 简单介绍 antlove java Web windows cache memcached
1. 安装memcached server a. 下载memcached-1.2.6-win32-bin.zip b. 解压缩，dos 窗口切换到 memcached.exe所在目录，运行memcached.exe -d install c.启动memcached Server,直接在dos窗口键入 net start "memcached Server&quo
数据库对象的视图和索引百合不是茶索引 oeacle数据库视图
视图视图是从一个表或视图导出的表，也可以是从多个表或视图导出的表。视图是一个虚表，数据库不对视图所对应的数据进行实际存储，只存储视图的定义，对视图的数据进行操作时,只能将字段定义为视图,不能将具体的数据定义为视图为什么oracle需要视图; &
Mockito(一) --入门篇 bijian1013 持续集成 mockito 单元测试
Mockito是一个针对Java的mocking框架，它与EasyMock和jMock很相似，但是通过在执行后校验什么已经被调用，它消除了对期望行为（expectations）的需要。其它的mocking库需要你在执行前记录期望行为（expectations），而这导致了丑陋的初始化代码。 &nb
精通Oracle10编程SQL(5)SQL函数 bijian1013 oracle 数据库 plsql
/* * SQL函数 */ --数字函数 --ABS(n):返回数字n的绝对值 declare v_abs number(6,2); begin v_abs:=abs(&no); dbms_output.put_line('绝对值：'||v_abs); end; --ACOS(n):返回数字n的反余弦值，输入值的范围是-1~1，输出值的单位为弧度
【Log4j一】Log4j总体介绍 bit1129 log4j
Log4j组件：Logger、Appender、Layout Log4j核心包含三个组件：logger、appender和layout。这三个组件协作提供日志功能：日志的输出目标日志的输出格式日志的输出级别(是否抑制日志的输出) logger继承特性 A logger is said to be an ancestor of anothe
Java IO笔记白糖_ java
public static void main(String[] args) throws IOException { //输入流 InputStream in = Test.class.getResourceAsStream("/test"); InputStreamReader isr = new InputStreamReader(in); Bu
Docker 监控 ronin47 docker监控
目前项目内部署了docker，于是涉及到关于监控的事情，参考一些经典实例以及一些自己的想法，总结一下思路。 1、关于监控的内容监控宿主机本身监控宿主机本身还是比较简单的，同其他服务器监控类似，对cpu、network、io、disk等做通用的检查，这里不再细说。额外的，因为是docker的
java-顺时针打印图形 bylijinnan java
一个画图程序要求打印出： 1.int i=5; 2.1 2 3 4 5 3.16 17 18 19 6 4.15 24 25 20 7 5.14 23 22 21 8 6.13 12 11 10 9 7. 8.int i=6 9.1 2 3 4 5 6 10.20 21 22 23 24 7 11.19
关于iReport汉化版强制使用英文的配置方法 Kai_Ge iReport汉化英文版
对于那些具有强迫症的工程师来说，软件汉化固然好用，但是汉化不完整却极为头疼，本方法针对iReport汉化不完整的情况，强制使用英文版，方法如下：在 iReport 安装路径下的 etc/ireport.conf 里增加红色部分启动参数，即可变为英文版。 # ${HOME} will be replaced by user home directory accordin
[并行计算]论宇宙的可计算性 comsci 并行计算
现在我们知道,一个涡旋系统具有并行计算能力.按照自然运动理论,这个系统也同时具有存储能力,同时具备计算和存储能力的系统,在某种条件下一般都会产生意识...... 那么,这种概念让我们推论出一个结论 &nb
用OpenGL实现无限循环的coverflow dai_lm android coverflow
网上找了很久，都是用Gallery实现的，效果不是很满意，结果发现这个用OpenGL实现的，稍微修改了一下源码，实现了无限循环功能源码地址： https://github.com/jackfengji/glcoverflow public class CoverFlowOpenGL extends GLSurfaceView implements GLSurfaceV
JAVA数据计算的几个解决方案1 datamachine java Hibernate 计算
老大丢过来的软件跑了10天，摸到点门道，正好跟以前攒的私房有关联，整理存档。 -----------------------------华丽的分割线------------------------------------- 数据计算层是指介于数据存储和应用程序之间，负责计算数据存储层的数据，并将计算结果返回应用程序的层次。J &nbs
简单的用户授权系统,利用给user表添加一个字段标识管理员的方式 dcj3sjt126com yii
怎么创建一个简单的(非 RBAC)用户授权系统通过查看论坛，我发现这是一个常见的问题，所以我决定写这篇文章。本文只包括授权系统.假设你已经知道怎么创建身份验证系统(登录)。数据库首先在 user 表创建一个新的字段(integer 类型),字段名 'accessLevel',它定义了用户的访问权限扩展 CWebUser 类在配置文件(一般为 protecte
未选之路 dcj3sjt126com 诗
作者:罗伯特*费罗斯特黄色的树林里分出两条路, 可惜我不能同时去涉足, 我在那路口久久伫立, 我向着一条路极目望去, 直到它消失在丛林深处. 但我却选了另外一条路, 它荒草萋萋,十分幽寂; 显得更诱人,更美丽, 虽然在这两条小路上, 都很少留下旅人的足迹. 那天清晨落叶满地, 两条路都未见脚印痕迹. 呵,留下一条路等改日再
Java处理15位身份证变18位蕃薯耀 18位身份证变15位 15位身份证变18位身份证转换
15位身份证变18位，18位身份证变15位 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--应用上下文配置【AppConfig】 hanqunfeng springmvc4
从spring3.0开始，Spring将JavaConfig整合到核心模块，普通的POJO只需要标注@Configuration注解，就可以成为spring配置类，并通过在方法上标注@Bean注解的方式注入bean。 Xml配置和Java类配置对比如下： applicationContext-AppConfig.xml <!-- 激活自动代理功能参看：
Android中webview跟JAVASCRIPT中的交互 jackyrong JavaScript html android 脚本
在android的应用程序中,可以直接调用webview中的javascript代码,而webview中的javascript代码,也可以去调用ANDROID应用程序(也就是JAVA部分的代码).下面举例说明之: 1 JAVASCRIPT脚本调用android程序要在webview中,调用addJavascriptInterface(OBJ,int
8个最佳Web开发资源推荐 lampcy 编程 Web 程序员
Web开发对程序员来说是一项较为复杂的工作，程序员需要快速地满足用户需求。如今很多的在线资源可以给程序员提供帮助，比如指导手册、在线课程和一些参考资料，而且这些资源基本都是免费和适合初学者的。无论你是需要选择一门新的编程语言，或是了解最新的标准，还是需要从其他地方找到一些灵感，我们这里为你整理了一些很好的Web开发资源，帮助你更成功地进行Web开发。这里列出10个最佳Web开发资源，它们都是受
架构师之面试------jdk的hashMap实现 nannan408 HashMap
1.前言。如题。 2.详述。 (1)hashMap算法就是数组链表。数组存放的元素是键值对。jdk通过移位算法（其实也就是简单的加乘算法），如下代码来生成数组下标(生成后indexFor一下就成下标了）。 static int hash(int h) { h ^= (h >>> 20) ^ (h >>>
html禁止清除input文本输入缓存 Rainbow702 html 缓存 input 输入框 change
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; <input type="text" autocomplete="off" n
POJO和JavaBean的区别和联系 tjmljw POJO java beans
POJO 和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Pure Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比 POJO复杂很多， Java Bean 是可复用的组件，对 Java Bean 并没有严格的规
java中单例的五种写法 liuxiaoling java 单例
/** * 单例模式的五种写法： * 1、懒汉 * 2、恶汉 * 3、静态内部类 * 4、枚举 * 5、双重校验锁 */ /** * 五、双重校验锁，在当前的内存模型中无效 */ class LockSingleton { private volatile static LockSingleton singleton; pri