CoreJT

强化学习 | (3) 奖励设计相关论文介绍

原文地址

文章目录

- - 1. 介绍
  - 2. Quick View
  - 3. Reward Shaping
  - 4. Intrinsically motivated reinforcement learning
  - 5. Optimal Rewards and Reward Design
  - 6. Conclusion

1. 介绍

在强化学习中，智能体的目标被形式化表征为一种特殊信号，称为奖励/reward，它通过环境传递给智能体。在每个时刻，reward都是一个单一标量数值。非正式地说，智能体的目标是最大化其收到的总奖励。这意味着需要最大化的不是当前奖励，而是长期的累积奖励。我们可以将这种非正式想法清楚地表述为奖励假设：

我们所有的“目标”或“目的”都可以归结为:最大化智能体接收到的标量信号(称之为奖励)累积和的概率期望值。

使用奖励信号来形式化目标是强化学习最显著的特征之一。

智能体总是学习如何最大化奖励。如果我们想要它为我们做某件事，我们提供奖励的方式必须要使得智能体在最大化奖励的同时也实现我们的目标。因此，至关重要的一点就是，我们设立奖励的方式要能真正表明我们的目标。特别地，奖励信号并不是传授智能体如何实现目标的先验知识。例如、国际象棋智能体只有当最终获胜时才能获得奖励，而并非达到某个子目标，比如吃掉对方的子或者控制中心区域。如果实现这些子目标也能得到奖励，那么智能体可能会找到某种即使绕开最终目的也能实现这些子目标的方式。例如它可能会找到一种以输掉比赛为代价的方式来吃对方的子。奖励信号只能用来传达什么是你想要实现的目标，而不是如何实现这个目标。

这是Sutton在《Reinforcement learning: An introduction》中的一段话，清晰地展现了智能体是如何通过奖励信号沟通智能体与我们的目标。而奖励设计实际上是MDP中的一个关键元素： $R:S\times A\times S \rightarrow R$ , 由状态 s、动作a 和下一个状态 s’共同决定。

但在实际工程中，奖励设计是一个深不见底的大坑，里面埋葬了很多工程师的大量时间。在大部分情况下，我们都要小心翼翼地不断调整参数，还要防止agent投机取巧找到刷分技巧。听说的一些比较有意思的案例有，用强化学习模仿作画，结果agent学会了白色大笔一挥，然后用小黑笔不断在画布上戳，以此刷分；还有用强化学习让机器人学习叠积木，把奖励设计在积木的底面高度上，结果机器人学会了把积木直接打翻成底面向上，就拿到了奖励。

而在实际工程中，即使没有出现agent刷分这样糟糕的情形，为了算法的效果，我们也需要对环境的奖励不断调优。特别是有关战斗AI，或者某种游戏的胜负，这样的场景中如果只用最终的结果作为奖励很可能太过于稀疏，导致最终训练效果不佳。而如果你为了解决这个问题开始针对具体问题设计奖励函数了，那么恭喜你，你接下来的很长一段时间都将在，训练-微调奖励函数-训练-微调奖励函数这样的循环中度过。

为了解决这个问题，一群世界上最聪明的小脑袋瓜开始思考，有没有什么奖励设计的方法，可以尽量减少调奖励函数的工作量呢。答案当然是有的，本篇文章就会从三个部分分别讲述奖励设计的一些方法。

2. Quick View

Reward Shaping
Intrinsically Motivated Reinforcement Learning
Optimal Rewards and Reward Design

本文的第一个内容是奖励塑造，主要会介绍基于势能的奖励塑造，这个方法要解决什么样的问题，又是怎样保证（最优）策略不变性，最后这个框架可以怎样应用。

第二个内容是内在激励的强化学习，当然目前的主要目标还是鼓励探索，现在的方法主要集中在两块吧，一个是基于预测误差的，一个是基于计数的。

第三个内容是最优奖励设计问题，其实是第二个内容的进一步扩展，是将试错搜索过程自动化以找到最优奖励。这类算法通常是双层优化问题，外层通过优化内层参数的方式来最大化外在奖励，内层是传统意义上的强化学习模型，使用外层提供的参数进行训练。

当然还有一些不属于以上三块的奖励设计方法，之后也会举几个例子。

3. Reward Shaping

通常来说，我们的强化学习算法会在某个马尔库夫决策过程(MDP)下运行，这个MDP可能会比较难，比如下面这个场景：

如果智能体从 $S_0$ 出发，我们希望它到达goal，但是只有到达的那一步才会有一些奖励(+100), 我们把这个MDP称为 $M=<\mathcal{S},\mathcal{A},\mathcal{P}, r, \gamma>$ . (需要说明，为了更加简单地描述问题，我们考虑折扣因子=1).

为了让这个MDP变得简单，我们希望把从 $S_0$ 到goal的每一步都加上一个小奖励+1，那么就会得到一个新的MDP $M'=<\mathcal{S},\mathcal{A},\mathcal{P}, r', \gamma>$ , 这里我们假设 $r^{'} = r + F$ 是新的奖励函数，其中 $S\times A\times S\rightarrow R$ 是我们给的奖励塑造函数。

这样看起来学习难度就低了很多，你很满意，agent也很满意，一切看起来都是那么的美好。

直到你发现一个问题, 如果agent在 $S_0$ 到 $S_1$ 反复循环的话，这累积奖励比直接到goal（+102）要高啊，那怎么办呢，有没有一种方法可以让 M’ 的最优策略，也是 M 里的最优策略呢？

吴恩达在1999年回答了这个问题。

Potential-based reward shaping(PBRS)
中文可以翻译为基于势能的奖励塑造，首先给一个定义

PBRS认为，如果奖励塑造函数是这样一种形式，就可以保证， M’ 的最优策略也是M 里的最优策略。事实上，Wiewiora (2003) 已经证明了，这种方法与一个更简单的思路等价：为值函数提供一个初始值:

所以新的 Q 函数和 V 函数与原来的函数的关系可以写作:

我们回到之前的那个问题来解释这种方法:

这相当于给每个状态一个势能，从势能低的地方到势能高的地方给正奖励，而从势能高的地方回势能低的地方给负奖励，这样就避免了之前的 $S_0$ 到 $S_1$ 反复循环刷分的问题。

这种方法可以保证最优策略的一致性，论文从充分性和必要性两个方面进行了证明：

充分性）如果 F 是一个基于势能的奖励塑造函数，那么任意 M’ 的最优策略也是 M 里的最优策略，反之亦然
必要性）如果 F 不是一个基于势能的奖励塑造函数，那么存在一个状态转移函数 T 和一个奖励函数 R ，可以使在 M’ 里的最优策略都不是 M 里的最优策略.

这里简单介绍充分性的证明，必要性的证明可以参考原论文。

在原Bellman方程两边同时减去一个 $\Phi(s)$ , 可以退出：

因此，就可以得到策略一致的保证:

Ng A Y, Harada D, Russell S. Policy invariance under reward transformations: Theory and application to reward shaping[C]//ICML. 1999, 99: 278-287.
Wiewiora E. Potential-based shaping and Q-value initialization are equivalent[J]. Journal of Artificial Intelligence Research, 2003, 19: 205-208.

Roadmap of Potential-based Reward Shaping
而基于势能的奖励塑造的发展路径有这样两个:

一个考虑为势能函数加入动作，这样就变成了基于势能的建议；一个允许势能函数随时间变化，这样就有了训练一个势能函数的可能性。

所以接下来就可以开始考虑这样的问题，PBRS要求必须有基于势能的先验知识，如果没有这个知识怎样去构造奖励函数呢，本文介绍三种思路：

From Reward Functions to Dynamic Potentials
Inverse Reinforcement Learning
Reward Shaping via Meta-Learning

Wiewiora E, Cottrell G W, Elkan C. Principled methods for advising reinforcement learning agents[C]//Proceedings of the 20th International Conference on Machine Learning (ICML-03). 2003: 792-799.
Devlin S M, Kudenko D. Dynamic potential-based reward shaping[C]//Proceedings of the 11th International Conference on Autonomous Agents and Multiagent Systems. IFAAMAS, 2012: 433-440.

From Reward Functions to Dynamic Potentials
第一个思路源于这样一个思想，如果有一个任意的奖励函数，能不能把它改造成基于势能的奖励函数。

首先，他把之前讲到的Potential-based Advice和Dynamic Potential-Based Reward Shaping结合起来，得到了Dynamic Potential-Based Advice:

这样，发现 $F(s,a)=\gamma \Phi(s',a')-\Phi(s,a)=R^{+}(s,a)$ 这个公式很像Q-learning的更新公式啊，区别就是Potential-based Advice好像多了个负号，所以Dynamic Potential-Based Advice认为，让 $R^{\Phi}=-R^{+}$ , 之后就可以像训练Q函数一样训练势能函数了

并且这种方法也有策略一致性保证:

Harutyunyan A, Devlin S, Vrancx P, et al. Expressing arbitrary reward functions as potential-based advice[C]//Twenty-Ninth AAAI Conference on Artificial Intelligence. 2015.

Relative Entropy Inverse Reinforcement Learning (RE-IRL)

这种方法的思想很简单，上面第三种方法已经提供了将任意的奖励函数转换为Potential-based Reward Shaping 的方法，而逆强化学习又可以从专家数据中学习奖励函数，所以很自然的

直接将逆强化学习学到的奖励函数转换一下.

Suay H B, Brys T, Taylor M E, et al. Learning from demonstration for shaping through inverse reinforcement learning[C]//Proceedings of the 2016 International Conference on Autonomous Agents & Multiagent Systems. 2016: 429-437.

Reward Shaping via Meta-Learning

基于元学习的奖励设计源于这样一个结论 [公式] ，然后考虑一个多任务综合的MDP，学习这个综合的MDP的值函数并将此值函数用作值函数的初始估计，因此这个想法上一个天然的思路学习目标是:

但这样是比较困难的，因此实际上的学习目标是:

然后在使用Potential Function Prior进行Meta-Testing时:

Zou H, Ren T, Yan D, et al. Reward shaping via meta-learning[J]. arXiv preprint arXiv:1901.09330, 2019.

小结

关于Potential-based reward shaping(PBRS)的介绍就先到这里，这个方法因为性质特别好，所以很多奖励设计的方法都是这类方法的延申，只是这类方法只保证了最优策略不变，并没有保证在新的奖励函数的帮助下agent学习会变得简单（基于势能的奖励函数也有好坏之分）。事实上，学习是不是变得简单完全依赖于给出的奖励函数好不好，这等同于从一个深坑跳到了另一个深坑，因此坑底的一些聪明的小脑袋瓜开始思考，是不是有什么别的奖励设计方法呢……

4. Intrinsically motivated reinforcement learning

Sutton R S 在他的书里说（其实我觉得大概是另一个作者Barto A G说的，这个人是做奖励设计的大牛）

……强化学习智能体并不一定是一个完整的生物或机器人，它可以是一个更大的行为系统的一部分。这意味着奖励信号可能被更大的行动智能体内部的事情所影响，例如动机、记忆、想法甚至幻觉。奖励信号可能也依赖于学习过程本身的一些性质，比如衡量学习中进步了多少。让奖励信号对这样的内部信息敏感，可以使智能体作为“认知架构”的一部分，学习如何控制认知架构，同时也可以获取一些特定的知识和技能，这些技能很难只依赖于外部的奖励信号学习到。这种可能性导致了“内在激励的强化学习”这个思想……

Intrinsically motivated reinforcement learning，也就是内在激励的强化学习，是由Singh、 Barto和 Chentenez在2005年提出，在他们的论文中，内在激励由对下一个状态的预测误差给出：

而类似的想法也经过很多讨论，比如Schmidhuber(1991a，b)讨论了奖励信号是关于智能体的环境改善得有多快的一个函数。由 Klyubin、 Polani和 Nehaniv(2005)将智能体控制环境的能力作为内在的奖励信号。而近年来，这类奖励函数主要分为两类：

Curiosity，好奇心，通过对状态转移的预测误差给出奖励信号
Visitation counts，访问计数，通过智能体对当前状态的访问次数给出奖励信号

Chentanez N, Barto A G, Singh S P. Intrinsically motivated reinforcement learning[C]//Advances in neural information processing systems. 2005: 1281-1288.
Schmidhuber J. Curious model-building control systems[C]//Proc. international joint conference on neural networks. 1991a: 1458-1463.
Schmidhuber J. A possibility for implementing curiosity and boredom in model-building neural controllers[C]//Proc. of the international conference on simulation of adaptive behavior: From animals to animats. 1991b: 222-227.
Klyubin A S, Polani D, Nehaniv C L. Empowerment: A universal agent-centric measure of control[C]//2005 IEEE Congress on Evolutionary Computation. IEEE, 2005, 1: 128-135.

Curiosity Driven Exploration in Reinforcement Learning

1.1 Variational information maximizing exploration(VIME)

在这个思路下的一个比较知名的工作是VIME，它的想法是将学习动态中的信息增益作为内在奖励信号。方法的核心是建模环境的状态转移概率 $p(s_{t+1}|s_t,a_t;\theta)$ , 希望agent与环境交互的每一步，都尽可能从环境中获取信息:

其中， $\xi_t = \{s_1,a_1,...,s_t\}$ 是当前历史信息。

这一方法的内在奖励定义为信息增益，而信息增益可以理解为通过真实的状态转移 P 进行一步采样后，agent对新的动态模型和旧的动态模型的KL散度：

在应用中，这一方法直接将内在奖励与外在奖励相加：

Houthooft R, Chen X, Duan Y, et al. Vime: Variational information maximizing exploration[C]//Advances in Neural Information Processing Systems. 2016: 1109-1117.

1.2 Large-Scale Study of Curiosity-Driven Learning

这篇论文讨论了不使用环境外在奖励完全依赖内在奖励，纯靠探索可以将策略学成什么样子。与之前论文类似，这篇文章将模型分为两个部分

一个网络负责将观察编码为 ()
另一个网络负责预测 $p(\phi(x_{t+1})|x_t,a_t)$

那么给定 [公式] ，奖励信号为 :

然后文章只依赖这一个奖励信号测试了很多环境

Burda Y, Edwards H, Pathak D, et al. Large-scale study of curiosity-driven learning[J]. arXiv preprint arXiv:1808.04355, 2018.

Count-based Exploration in Reinforcement Learning

2.1 Unifying Count-Based Exploration and Intrinsic Motivation

与大标题一样，基于计数的方法就是对访问过的状态计数，访问次数越少给的bonus越多。

但在深度学习中，状态可能非常多，那可能每一次的状态都有微微的不同，怎么办呢，虚拟计数。文章中讨论了一种从密度函数计算虚拟计数的方法，给定:

其中 $\rho_n(x)$ 含义很好理解， $\rho'_n(x)$ 的含义可以理解为给定前n个状态，第n+1个状态是x, 第n+2个状态也是x的概率：

所以这两个概率和虚拟计数的关系为:

联立这两个方程，就可以得到:

当然，这里的密度函数需要满足一些特殊要求，文章中称为Learning-positive density model，定义为:

如果一个概率模型 $r h o$ ，那么必须满足对任意的 $x_{1:n}\in \mathcal{X}^n$ 和任意的 $x\in \mathcal{X}$ ,都有 $\rho'_n(x)\geq \rho_n(x)$ .

文章中采用的密度模型为CTS模型.

Bellemare M, Srinivasan S, Ostrovski G, et al. Unifying count-based exploration and intrinsic motivation[C]//Advances in neural information processing systems. 2016: 1471-1479.
Bellemare M, Veness J, Talvitie E. Skip context tree switching[C]//International Conference on Machine Learning. 2014: 1458-1466.

2.2 Ex2: Exploration with exemplar models for deep reinforcement learning

EX2引入了GAN中的思路，通过分类器从以前看到的其他状态中区分一个给定状态的容易程度，来评估状态的新颖性。

算法的伪代码非常简单:

其中， $f(D_s(s))=-\log D_s(s)$ .

分类器的loss函数如下:

Fu J, Co-Reyes J, Levine S. Ex2: Exploration with exemplar models for deep reinforcement learning[C]//Advances in neural information processing systems. 2017: 2577-2587.

小结

内在激励的强化学习认为，我们应当给予智能体一些动机，鼓励智能体尝试去探索。从实验效果来看，这类方法成本低效果好，虽然没有策略一致性保证，但充分训练后bonus几乎都会趋于0，所以几乎也不用担心训练出来的策略不是原问题的最优策略。但为了解决这一问题，如果可以提供一个外在目标，以此为目标来设计内在奖励是不是就能保证内在奖励的最终目标，仍然是原问题的目标，这就引申出了第三部分的内容，Optimal Rewards and Reward Design。

5. Optimal Rewards and Reward Design

另一个找到好的奖励信号的方法，是将试错搜索过程自动化以找到好的信号。从应用角度来说，奖励信号是学习算法的一个参数。正如我们可以对算法的其他参数所做的那样，我们可以自定义可行的搜索空间，然后用优化算法自动优化这些奖励信号。优化算法是这样评估每一个候选奖励信号的:以该奖励信号运行强化学习算法若干步，然后用一个包含设计者真实目标的“高级”目标函数来计算评分，不需要考虑该智能体的局限。甚至可以通过在线梯度上升来提升奖励信号，其中梯度来自于高级的目标函数(Sorg、 Lewis和 Singh，2010)。把这个算法与真实世界相联系的话，优化高级目标函数可以类比为进化，其中高级优化函数代表动物的进化适应程度，这通过能活到繁殖年龄的后代数量来衡量。

这种具有上下两层优化算法(一层类似手进化，另一层是智能体个体的强化学习)的计算实验已经证实，直觉本身并不总足以用来设计一个好的奖励信号( Singh、 lewis和 Barto，2009)。利用高级目标函数所衡量的强化学习智能体的性能表现，可能会对智能体奖励信号的某些细节方面特別敏感，这些敏感性来源于智能体本身的局限以及它在其中活动和学习的环境。这些实验也表明一个智能体的目标不应该总是与智能体设计者的目标一致。

最初这件事情显得很反直觉，但是对于一个智能体而言，它不可能不管奖励信号是什么就达到设计者的目标。智能体需要在很多限制下学习，例如有限的计算能耗、有限的环境信息或者有限的学习时间。当有这样那样的限制的时候，学习去达成一个与设计者目标不同的目标，而不是直接去追求设计者的目标，这可能有时会更加接近于设计者的初衷。

在详细解释这类方法的动机之前，我们先做一些概念说明
首先智能体的奖励信号会分为外部奖励和内部奖励，外部奖励在某些论文中会以适应性函数fitness function的形式给出，智能体的目标就是最大化这个fitness。而最优奖励函数 $r^*_A\in R_A$ 就是最大化fitness对环境求期望的奖励函数。

那为什么通过学习另一个目标可以比直接学习原来的目标学的更好呢，这件事确实很反直觉，因此我们在这里举一个例子，这个例子是论文Where do rewards come from中的一个实验，实验名为Hungry-Thirsty Domain，它描述了这样一件事，智能体需要在一个grid world中寻找食物，agent的目标是智能体不要在Hungry状态（每一个时刻处于not Hungry状态fitness会增加1），喝水不会有任何奖励或惩罚，但如果agent状态是Thirsty的，会导致在食物处也无法进食。

作者检验了这么几类reward:

simple fitness-based reward functions，仅在fitness增加时给一个正奖励（也就是not Hungry状态给正奖励）
fitness-based reward functions ，在fitness增加时给某个奖励，其他状态某个奖励
other reward functions，其他形式的奖励函数

然后作者开始穷举这些奖励参数，实验之后发现，对于simple fitness-based reward functions，即使是最好的参数agent表现也非常糟糕。最好的奖励函数是:
ht : hungry and thirsty, -0.05
hnt : hungry and not thirsty, -0.01
nht : not hungry and thirsty, 1.0
nhnt : not hungry and not thirsty, 0.5

智能体的表现与Hungry时对Thirsty的惩罚有关（hnt - ht），最优的惩罚效果在0.04处取得，但需要注意的是只有一小部分惩罚会比惩罚为0.0的表现要好

这样就说明了这一件事，外在奖励很可能会缺失某些必要的信息，而内在奖励可以通过填补这些信息提高agent在fitness函数的表现。

Singh S, Lewis R L, Barto A G. Where do rewards come from[C]//Proceedings of the annual conference of the cognitive science society. Cognitive Science Society, 2009: 2601-2606.
Singh S, Lewis R L, Barto A G, et al. Intrinsically motivated reinforcement learning: An evolutionary perspective[J]. IEEE Transactions on Autonomous Mental Development, 2010, 2(2): 70-82.

Human-level performance in first-person multiplayer games with population-based deep reinforcement learning

事实上，Deepmind也意识到，奖励函数的设计是一个深坑，能不能通过进化计算的方式去得到一个最好的奖励函数呢，他们在一个FPS游戏Quake III Arena Capture the Flag上实现了这一思路，当然Deepmind并不只优化了奖励参数，他们也一同优化了智能体的超参数，这个算法的优化目标可以表示为:

其中 $w_p$ 就是奖励函数的参数，其奖励函数基于游戏事件产生:

这篇文章提供了一个在复杂游戏中设计奖励函数的思路，只是进化计算的计算量可能会让大部分研究组织难以承受，因此接下来会介绍基于梯度的奖励函数优化算法。
Jaderberg M, Czarnecki W M, Dunning I, et al. Human-level performance in 3D multiplayer games with population-based reinforcement learning[J]. Science, 2019, 364(6443): 859-865.
Policy Gradient for Reward Design
这篇文章的伪代码非常简单

我们主要介绍它是如何用外在奖励指导内在奖励更新的，首先，PGRD的优化问题表示为:

总体的优化目标定义为 $\mathcal{U}(\theta)$ , $\theta$ 是内在奖励 $R(-;\theta)$ 的参数，其目标是通过调整 $\theta$ 使外在奖励 $R_{\mathcal{O}}(s_t)$ 最大化。

PGRD的是基于动态规划（DP）的强化学习算法，其策略为:

可以看到，策略是Q值的函数，而Q值是递归d层计算的:

所以Q值是 R 的函数，而 R 是参数 $\theta$ 的函数:

$\phi(i_t,o,a)$ 是特征。所以层层看下来，就可以发现，策略 $\mu$ 是R的参数 $\theta$ 的函数，所以就提供了从总体目标 $\mathcal{U}(\theta)$ 到参数 $\theta$ 的梯度：

这个梯度分为两个部分，第一部分梯度 $\nabla_{\mu_{\theta_t}}\mathcal{U}(\theta_t)$ 是根据外在奖励的优化目标到策略 $\mu_{\theta_t}$ 的梯度，论文中提到这是标准的策略梯度，计算细节可以参考论文Stochastic optimization of controlled partially observable Markov decision processes；第二部分梯度 $\nabla_{\theta_t}\mu_{\theta_t}(a_t|i_t;Q_t)$ 是策略 $\mu_{\theta_t}$ 到R的参数 $\theta$ 的梯度，我们在上面已经分析了这个梯度链，其更新梯度为：

这个梯度的计算方式来源于论文Apprenticeship learning using inverse reinforcement learning and gradient methods，这样的形式是使用了一个log技巧得到的。

接下来 $\nabla_{\theta}Q^d(o,a;\theta)$ 的计算方式为：

Sorg J, Lewis R L, Singh S P. Reward design via online gradient ascent[C]//Advances in Neural Information Processing Systems. 2010: 2190-2198.

Policy-Gradient for Reward Design with Deep Learning

PGRD-DL是PGRD的深度版本，主要改进是内在奖励的参数修改为使用CNN计算，其总体奖励为：

另外Q函数的计算方式改为UCT：

这篇论文的梯度更新为：

虽然形式略有区别，但和上面那篇论文基本一致， $\nabla_{\theta}\mu(a_t|s_t;\theta)$ 的具体梯度为：

Guo X, Singh S, Lewis R, et al. Deep learning for reward design to improve monte carlo tree search in atari games[J]. arXiv preprint arXiv:1604.07095, 2016.

Learning Intrinsic Rewards for Policy Gradient

这篇论文的idea我非常喜欢，不同于上面两篇文章，这篇论文的算法几乎可以用于强化学习的大部分算法。

总的来说也是通过外在奖励优化内在奖励，并使用外在奖励和内在奖励的和更新策略，具体的符号约定如下:

LIRPG通过更新动态来计算内在奖励的梯度，更新动态定义为一次更新的梯度变化:

而梯度也通过更新动态产生:

与PGRD类似，梯度也可以分为两个部分，一个是外在奖励对策略的梯度:

而更新动态到内在奖励函数的梯度为:

另外这篇文章的作者也做了一个后续的RNN版本，但和LIRPG区别不大就不详细介绍了.

Zheng Z, Oh J, Singh S. On learning intrinsic rewards for policy gradient methods[C]//Advances in Neural Information Processing Systems. 2018: 4644-4654.
Zheng Z, Oh J, Hessel M, et al. What Can Learned Intrinsic Rewards Capture?[J]. arXiv preprint arXiv:1912.05500, 2019.

小结

到这里本次的分享就快要结束了，实际上这一部分的方法是我最喜欢的内容，因为双层优化的问题看起来十分漂亮，只是现在这个优化问题依然没有很好的解决思路，强如Deepmind在2019年Science上发的文章也依然是使用进化策略优化参数的。而近年来，LIRPG这样的论文只是看起来很美，我们在论文复现中发现，LIRPG由于所有的内在奖励都由同一个网络产生，一点小的变化都会引起一条episode的累积奖励的巨大变化，因此极易引起梯度爆炸等问题。论文本身在实验部分的结果也不是非常好，但不管怎么说，这篇论文还是提供了一个非常好的思路，并启发了这个方向的研究。

6. Conclusion

照例引用Sutton在《Reinforcement learning: An introduction》中的一段话作为结尾:

奖励信号并不是传授智能体如何实现目标的先验知识。奖励信号只能用来传达什么是你想要实现的目标，而不是如何实现現这个目标。

奖励设计是一个被广泛研究的问题，但目前种种方法都有他们独特的优势和不可避免的弱点，大概这就是天下没有免费的午餐吧。

本文大致讲解了奖励设计的常见方法和大致思路，受个人知识所限，这篇文章也肯定有不少遗漏的地方，只希望如果有同学和我一样苦恼于奖励函数如何设计时，这篇文章可以帮助到大家。

你可能感兴趣的:(强化学习)

强化学习之 DQN、Double DQN、PPO JNU freshman 强化学习强化学习
文章目录通俗理解DQNDoubleDQNPPO结合公式理解通俗理解DQN一个简单的比喻和分步解释来理解DQN（DeepQ-Network，深度Q网络），就像教小朋友学打游戏一样：先理解基础概念：Q学习（Q-Learning）想象你在教一只小狗玩电子游戏（比如打砖块）。小狗每做一个动作（比如“向左移动”或“发射球”），游戏会给出一个奖励（比如得分增加）或惩罚（比如球掉了）。小狗的目标是通过不断尝试，
Python 强化学习算法实用指南（三）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/e3819a6747796b03b9288831f4e2b00c译者：飞龙协议：CCBY-NC-SA4.0第十一章：理解黑盒优化算法在前几章中，我们研究了强化学习（RL）算法，从基于价值的方法到基于策略的方法，以及从无模型方法到基于模型的方法。在本章中，我们将提供另一种解决序列任务的方法，那就是使用一类黑盒算法——进化算法（EA）。EAs由进化机制
Python 强化学习算法实用指南（二）
原文：annas-archive.org/md5/e3819a6747796b03b9288831f4e2b00c译者：飞龙协议：CCBY-NC-SA4.0第六章：学习随机优化与PG优化到目前为止，我们已经探讨并开发了基于价值的强化学习算法。这些算法通过学习一个价值函数来找到一个好的策略。尽管它们表现良好，但它们的应用受限于一些内在的限制。在本章中，我们将介绍一类新的算法——策略梯度方法，它们通过
【论文阅读】AdaCtrl: Towards Adaptive and Controllable Reasoning via Difficulty-Aware Budgeting quintus0505 LLM 论文阅读语言模型
AdaCtrl:TowardsAdaptiveandControllableReasoningviaDifficulty-AwareBudgeting3Method3.1长度触发标签作为控制接口（Length-TriggerTagsasControllingInterface）3.2冷启动微调（Cold-startfine-tuning）3.3难度感知的强化学习框架（Difficulty-awar
【论文笔记ing】Pointerformer: Deep Reinforced Multi-Pointer Transformer for the Traveling Salesman Problem Booksort online笔记论文论文阅读 transformer 深度学习
论文中使用一个PointerFormer模型编码器部分：可逆残差模型堆叠解码器部分：指针网络自回归对于一次任务而言，推理阶段：编码器部分：一次解码器部分：循环N次，直至任务结束在训练阶段，使用强化学习，对于一个N个节点的TSP实例，算法中会以不同的起点，跑N次，得到N个轨迹，以满足TSP的对称特性，表示这都是属于一个TSP问题的（真实）解然后会计算这样表示归一化奖励，得到一个advantage,然
四、Actor-Critic Methods 沈夢昂志 DRL深度强化学习 python 深度学习
由于在看DRL论文中，很多公式都很难理解。因此最近在学习DRL的基本内容。再此说明，非常推荐B站“王树森老师的DRL强化学习”本文的图表及内容，都是基于王老师课程的后自行理解整理出的内容。目录A.书接上回1、Reinforce算法B.State-ValueFunctionC.PolicyNetWork（Actor）D.ActionValueNetwork(Critic)E.TraintheNeur
语言模型 RLHF 实践指南（一）：策略网络、价值网络与 PPO 损失函数
在使用ProximalPolicyOptimization（PPO）对语言模型进行强化学习微调（如RLHF）时，大家经常会问：策略网络的动作概率是怎么来的？价值网络的得分是如何计算的？奖励从哪里来？损失函数怎么构建？微调后的旧轨迹还能用吗？这篇文章将以语言模型强化学习微调为例，结合实际实现和数学公式，深入解析PPO的关键计算流程。1️⃣策略网络：如何计算动作概率？策略网络πθ(a∣s)\pi_\t
【零基础学AI】第33讲：强化学习基础 - 游戏AI智能体 1989 0基础学AI 人工智能游戏 transformer 分类深度学习神经网络
本节课你将学到理解强化学习的基本概念和框架掌握Q-learning算法原理使用Python实现贪吃蛇游戏AI训练能够自主玩游戏的智能体开始之前环境要求Python3.8+PyTorch2.0+Gymnasium(原OpenAIGym)NumPyMatplotlib推荐使用JupyterNotebook进行实验前置知识Python基础编程（第1-8讲）基本数学概念（函数、导数）神经网络基础（第23讲
在Carla上应用深度强化学习实现自动驾驶（一）寒霜似karry 自动驾驶人工智能机器学习
carla环境下基于强化学习的自动驾驶_哔哩哔哩_bilibili本篇文章是小编在pycharm上自己手敲代码学习自动驾驶的第一篇文章，主要讲述如何在Carla中控制我们自己生成的汽车并且使用rgb摄像头传感器获取图像数据。以下代码参考自：（如有侵权，请联系我将立即删除）使用Carla和Python的自动驾驶汽车第2部分——控制汽车并获取传感器数据-CSDN博客1、导入carla（其中的路径根据自
【AI论文】Skywork-Reward-V2：通过人机协同实现偏好数据整理的规模化扩展
摘要：尽管奖励模型（RewardModels，RMs）在基于人类反馈的强化学习（ReinforcementLearningfromHumanFeedback，RLHF）中发挥着关键作用，但当前最先进的开源奖励模型在大多数现有评估基准上表现欠佳，无法捕捉人类复杂且微妙的偏好谱系。即便采用先进训练技术的方法也未能显著提升性能。我们推测，这种脆弱性主要源于偏好数据集的局限性——这些数据集往往范围狭窄、标
多智能体深度强化学习：一项综述 Multi-agent deep reinforcement learning: a survey 资源存储库笔记
Abstract抽象Theadvancesinreinforcementlearninghaverecordedsublimesuccessinvariousdomains.Althoughthemulti-agentdomainhasbeenovershadowedbyitssingle-agentcounterpartduringthisprogress,multi-agentreinforc
r语言改变数据框列名_数据决定离线强化学习将如何改变我们的语言习惯杨_明 python 大数据人工智能 java 机器学习
r语言改变数据框列名重点(Tophighlight)Aridesharingcompanycollectsadatasetofpricinganddiscountdecisionswithcorrespondingchangesincustomeranddriverbehavior,inordertooptimizeadynamicpricingstrategy.Anonlinevendorrec
ReAct (Reason and Act) OR 强化学习（Reinforcement Learning, RL） SugarPPig 人工智能人工智能
这个问题触及了现代AI智能体（Agent）构建的两种核心思想。简单来说，ReAct是一种“调用专家”的模式，而强化学习(RL)是一种“从零试错”的模式。为了让你更清晰地理解，我们从一个生动的比喻开始，然后进行详细的对比。一个生动的比喻想象一下你要完成一项复杂的任务，比如“策划一场完美的生日派对”。ReAct的方式（像一位经验丰富的活动策划师）你是一位知识渊博的专家（大语言模型LLM）。你首先会思考
【AI论文】GLM-4.1V-思考：借助可扩展强化学习实现通用多模态推理东临碣石82 人工智能
摘要：我们推出GLM-4.1V-Thinking这一视觉语言模型（VLM），该模型旨在推动通用多模态推理的发展。在本报告中，我们分享了在以推理为核心的训练框架开发过程中的关键发现。我们首先通过大规模预训练开发了一个具备显著潜力的高性能视觉基础模型，可以说该模型为最终性能设定了上限。随后，借助课程采样强化学习（ReinforcementLearningwithCurriculumSampling，R
【心灵鸡汤】深度学习技能形成树：从零基础到AI专家的成长路径全解析智算菩萨人工智能深度学习
引言：技能树的生长哲学在这个人工智能浪潮汹涌的时代，深度学习犹如一棵参天大树，其根系深深扎入数学与计算科学的沃土，主干挺拔地承载着机器学习的核心理念，而枝叶则繁茂地延伸至计算机视觉、自然语言处理、强化学习等各个应用领域。对于初入此领域的新手而言，理解这棵技能树的生长规律，掌握其形成过程中的关键节点和发展阶段，将直接决定其在人工智能道路上能够走多远、攀多高。技能树的概念源于游戏设计，但在学习深度学习
【机器学习笔记 Ⅱ】10 完整周期
机器学习的完整生命周期（End-to-EndPipeline）机器学习的完整周期涵盖从问题定义到模型部署的全过程，以下是系统化的步骤分解和关键要点：1.问题定义（ProblemDefinition）目标：明确业务需求与机器学习任务的匹配性。关键问题：这是分类、回归、聚类还是强化学习问题？成功的标准是什么？（如准确率>90%、降低10%成本）输出：项目目标文档（含评估指标）。2.数据收集（DataC
大模型RLHF强化学习笔记（二）：强化学习基础梳理Part2 Gravity! 大模型笔记大模型 LLM 强化学习人工智能
【如果笔记对你有帮助，欢迎关注&点赞&收藏，收到正反馈会加快更新！谢谢支持！】一、强化学习基础1.4强化学习分类根据数据来源划分Online：智能体与环境实时交互，如Q-Learning、SARSA、Actor-CriticOffline：智能体使用预先收集的数据集进行学习根据策略更新划分On-Policy：学习和行为策略是相同的，数据是按照当前策略生成的，如SARSAOff-Policy：学习策
爆改RAG！用强化学习让你的检索增强生成系统“开挂”——从小白到王者的实战指南许泽宇的技术分享人工智能
“RAG不准？RL来救场！”——一位被RAG气哭的AI工程师前言：RAG的烦恼与AI炼丹师的自我修养在AI圈混久了，大家都知道RAG（Retrieval-AugmentedGeneration，检索增强生成）是大模型落地的“万金油”方案。无论是企业知识库、智能问答，还是搜索引擎升级，RAG都能插上一脚。但你用过RAG就知道，理想很丰满，现实很骨感。明明知识库里啥都有，问个“量子比特的数学表达式”，
机器学习18-强化学习RLHF 坐吃山猪机器学习机器学习人工智能
机器学习18-强化学习RLHF1-什么是RLHFRLHF（ReinforcementLearningfromHumanFeedback）即基于人类反馈的强化学习算法，以下是详细介绍：基本原理RLHF是一种结合了强化学习和人类反馈的机器学习方法。传统的强化学习通常依赖于预定义的奖励函数来指导智能体的学习，而RLHF则通过引入人类的反馈来替代或补充传统的奖励函数。在训练过程中，人类会对智能体的行为或输
策略梯度在网络安全中的应用：AI如何防御网络攻击 AI智能探索者 web安全人工智能安全 ai
策略梯度在网络安全中的应用：AI如何防御网络攻击关键词：策略梯度、网络安全、AI防御、强化学习、网络攻击、入侵检测、自适应防御摘要：本文将探讨策略梯度这一强化学习算法在网络安全领域的创新应用。我们将从基础概念出发，逐步揭示AI如何通过学习网络攻击模式来构建自适应防御系统，分析其核心算法原理，并通过实际代码示例展示实现过程。文章还将讨论当前应用场景、工具资源以及未来发展趋势，为读者提供对这一前沿技术
2024大模型秋招LLM相关面试题整理 AGI大模型资料分享官人工智能深度学习机器学习自然语言处理语言模型 easyui
0一些基础术语大模型：一般指1亿以上参数的模型，但是这个标准一直在升级，目前万亿参数以上的模型也有了。大语言模型（LargeLanguageModel，LLM）是针对语言的大模型。175B、60B、540B等：这些一般指参数的个数，B是Billion/十亿的意思，175B是1750亿参数，这是ChatGPT大约的参数规模。强化学习：（ReinforcementLearning）一种机器学习的方法，
【深度学习】强化学习（Reinforcement Learning, RL）主流架构解析烟锁池塘柳0 机器学习与深度学习深度学习人工智能机器学习
强化学习（ReinforcementLearning,RL）主流架构解析摘要：本文将带你深入了解强化学习（ReinforcementLearning,RL）的几种核心架构，包括基于价值（Value-Based）、基于策略（Policy-Based）和演员-评论家（Actor-Critic）方法。我们将探讨它们的基本原理、优缺点以及经典算法，帮助你构建一个清晰的RL知识体系。文章目录强化学习（Rei
返利佣金最高软件的技术壁垒：基于强化学习的动态佣金算法架构揭秘
返利佣金最高软件的技术壁垒：基于强化学习的动态佣金算法架构揭秘大家好，我是阿可，微赚淘客系统及省赚客APP创始人，是个冬天不穿秋裤，天冷也要风度的程序猿！一、背景介绍在返利佣金软件中，动态佣金算法是提升用户活跃度和平台收益的关键技术。传统的佣金算法通常是静态的，无法根据用户的实时行为和市场动态进行调整。为了突破这一技术瓶颈，我们引入了强化学习（ReinforcementLearning,RL），通
农业物联网平台中的灌溉系统研究 sj52abcd 农业物联网和人工智能物联网数据分析 python 大数据毕业设计
研究目的本研究旨在开发一个基于Python语言的农业物联网平台，整合土壤墒情监测与精准灌溉系统，通过现代信息技术手段实现农业生产的智能化管理。系统将采用Python作为主要开发语言，结合MySQL数据库进行数据存储与管理，利用ECharts.js实现数据可视化展示，并引入机器学习和强化学习算法优化灌溉决策。具体目标包括：1)构建实时土壤墒情监测网络，通过物联网传感器采集土壤温湿度、电导率等关键参数
用于人形机器人强化学习运动的神经网络架构分析
1.引言：人形机器人运动强化学习中的架构探索人形机器人具备在多样化环境中自主运行的巨大潜力，有望缓解工厂劳动力短缺、协助居家养老以及探索新星球等问题。其拟人化的特性使其在执行类人操作任务（如运动和操纵）方面具有独特优势。深度强化学习（DRL）作为一种前景广阔的无模型方法，能够有效控制双足运动，实现复杂行为的自主学习，而无需显式动力学模型。1.1人形机器人运动强化学习的机遇与挑战尽管DRL取得了显著
人形机器人运动控制技术演进：从强化学习到神经微分方程的前沿解析
1.引言：人形运动控制的挑战与范式迁移人形机器人需在非结构化环境中实现双足行走、跑步、跳跃等复杂动作，其核心问题可归结为高维连续状态-动作空间的实时优化。传统方法（如基于模型的预测控制MPC）依赖精确的动力学建模，但在实际系统中面临以下瓶颈：模型失配：复杂接触动力学（如足-地交互）难以显式建模；计算瓶颈：高维非线性优化难以满足实时性需求；环境扰动敏感：传统控制器对未知干扰的鲁棒性不足。近年来，以强
NVIDIA Isaac GR00T N1.5 人形机器人强化学习入门教程（五）强化学习与机器人控制仿真机器人与具身智能人工智能机器人深度学习神经网络强化学习模仿学习具身智能
系列文章目录目录系列文章目录前言一、更深入的理解1.1实体化动作头微调1.1.1实体标签1.1.2工作原理1.1.3支持的实现1.2高级调优参数1.2.1模型组件1.2.1.1视觉编码器（tune_visual）1.2.1.2语言模型（tune_llm）1.2.1.3投影器（tune_projector）1.2.1.4扩散模型（tune_diffusion_model）1.2.2理解数据转换1.2
强化学习：Deep Deterministic Policy Gradient (DDPG) 学习笔记烨川南强化学习学习笔记算法人工智能机器学习
一、DDPG是什么？1.1核心概念DDPG=Deep+Deterministic+PolicyGradientDeep：使用深度神经网络和类似DQN的技术（经验回放、目标网络）Deterministic：输出确定的动作（而不是概率分布）PolicyGradient：基于策略梯度的方法，优化策略以最大化累积奖励1.2算法特点特性说明连续动作空间直接输出连续动作值（如方向盘角度、机器人关节扭矩）离线学
提升自动驾驶导航能力：基于深度学习的场景理解技术星辰和大海都需要门票路径规划算法自动驾驶深度学习人工智能
EnhancingAutonomousVehicleNavigationUsingDeepLearning-BasedSceneUnderstanding提升自动驾驶导航能力：基于深度学习的场景理解技术摘要-为应对复杂环境下的自动驾驶导航，系统高度依赖场景理解的准确性。本研究提出一种基于深度学习的新方法，将目标识别、场景分割、运动预测与强化学习相结合以提升导航性能。该方法首先采用U-Net架构分解
【EI复现】基于深度强化学习的微能源网能量管理与优化策略研究（Python代码实现）
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录1概述一、微能源网能量管理的基本概念与核心需求二、深度强化学习（DRL）在微能源网中的应用优势三、关键技术挑战四、现有基于DRL的优化策略案例五、相关研究文档的典型结构与撰写规范六、结论与未来方向2运行结果2.1有/无策略奖励2.2训练结果12.2训练结果23参考文献
js动画html标签（持续更新中） 843977358 html js 动画 media opacity
1.jQuery 效果 - animate() 方法改变 "div" 元素的高度： $(".btn1").click(function(){ $("#box").animate({height:"300px
springMVC学习笔记 caoyong springMVC
1、搭建开发环境 a>、添加jar文件，在ioc所需jar包的基础上添加spring-web.jar,spring-webmvc.jar b>、在web.xml中配置前端控制器 <servlet> &nbs
POI中设置Excel单元格格式 107x poi style 列宽合并单元格自动换行
引用：http://apps.hi.baidu.com/share/detail/17249059 POI中可能会用到一些需要设置EXCEL单元格格式的操作小结：先获取工作薄对象: HSSFWorkbook wb = new HSSFWorkbook(); HSSFSheet sheet = wb.createSheet(); HSSFCellStyle setBorder = wb.
jquery 获取A href 触发js方法的this参数无效的情况一炮送你回车库 jquery
html如下： <td class=\"bord-r-n bord-l-n c-333\"> <a class=\"table-icon edit\" onclick=\"editTrValues(this);\">修改</a> </td>" j
md5 3213213333332132 MD5
import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; public class MDFive { public static void main(String[] args) { String md5Str = "cq
完全卸载干净Oracle11g sophia天雪 orale数据库卸载干净清理注册表
完全卸载干净Oracle11g A、存在OUI卸载工具的情况下：第一步：停用所有Oracle相关的已启动的服务；第二步：找到OUI卸载工具：在“开始”菜单中找到“oracle_OraDb11g_home”文件夹中 &
apache 的access.log 日志文件太大如何解决 darkranger apache
CustomLog logs/access.log common 此写法导致日志数据一致自增变大。直接注释上面的语法 #CustomLog logs/access.log common 增加： CustomLog "|bin/rotatelogs.exe -l logs/access-%Y-%m-d.log
Hadoop单机模式环境搭建关键步骤 aijuans 分布式
Hadoop环境需要sshd服务一直开启，故，在服务器上需要按照ssh服务，以Ubuntu Linux为例，按照ssh服务如下： sudo apt-get install ssh sudo apt-get install rsync 编辑HADOOP_HOME/conf/hadoop-env.sh文件，将JAVA_HOME设置为Java
PL/SQL DEVELOPER 使用的一些技巧 atongyeye java sql
1 记住密码这是个有争议的功能，因为记住密码会给带来数据安全的问题。但假如是开发用的库，密码甚至可以和用户名相同，每次输入密码实在没什么意义，可以考虑让PLSQL Developer记住密码。位置：Tools菜单－－Preferences－－Oracle－－Logon HIstory－－Store with password 2 特殊Copy 在SQL Window
PHP：在对象上动态添加一个新的方法 bardo 方法动态添加闭包
有关在一个对象上动态添加方法，如果你来自Ruby语言或您熟悉这门语言，你已经知道它是什么...... Ruby提供给你一种方式来获得一个instancied对象，并给这个对象添加一个额外的方法。好！不说Ruby了，让我们来谈谈PHP PHP未提供一个“标准的方式”做这样的事情，这也是没有核心的一部分... 但无论如何，它并没有说我们不能做这样
ThreadLocal与线程安全 bijian1013 java java多线程 threadLocal
首先来看一下线程安全问题产生的两个前提条件： 1.数据共享，多个线程访问同样的数据。 2.共享数据是可变的，多个线程对访问的共享数据作出了修改。实例：定义一个共享数据： public static int a = 0;
Tomcat 架包冲突解决征客丶 tomcat Web
环境： Tomcat 7.0.6 win7 x64 错误表象：【我的冲突的架包是：catalina.jar 与 tomcat-catalina-7.0.61.jar 冲突，不知道其他架包冲突时是不是也报这个错误】严重: End event threw exception java.lang.NoSuchMethodException: org.apache.catalina.dep
【Scala三】分析Spark源代码总结的Scala语法一 bit1129 scala
Scala语法 1. classOf运算符 Scala中的classOf[T]是一个class对象，等价于Java的T.class,比如classOf[TextInputFormat]等价于TextInputFormat.class 2. 方法默认值 defaultMinPartitions就是一个默认值，类似C++的方法默认值
java 线程池管理机制 BlueSkator java线程池管理机制
编辑 Add Tools jdk线程池一、引言第一：降低资源消耗。通过重复利用已创建的线程降低线程创建和销毁造成的消耗。第二：提高响应速度。当任务到达时，任务可以不需要等到线程创建就能立即执行。第三：提高线程的可管理性。线程是稀缺资源，如果无限制的创建，不仅会消耗系统资源，还会降低系统的稳定性，使用线程池可以进行统一的分配，调优和监控。
关于hql中使用本地sql函数的问题（问-答） BreakingBad HQL 存储函数
转自于：http://www.iteye.com/problems/23775 问：我在开发过程中，使用hql进行查询（mysql5）使用到了mysql自带的函数find_in_set()这个函数作为匹配字符串的来讲效率非常好，但是我直接把它写在hql语句里面（from ForumMemberInfo fm,ForumArea fa where find_in_set(fm.userId,f
读《研磨设计模式》-代码笔记-迭代器模式-Iterator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.Arrays; import java.util.List; /** * Iterator模式提供一种方法顺序访问一个聚合对象中各个元素，而又不暴露该对象内部表示 * * 个人觉得，为了不暴露该
常用SQL chenjunt3 oracle sql C++c C#
--NC建库 CREATE TABLESPACE NNC_DATA01 DATAFILE 'E:\oracle\product\10.2.0\oradata\orcl\nnc_data01.dbf' SIZE 500M AUTOEXTEND ON NEXT 50M EXTENT MANAGEMENT LOCAL UNIFORM SIZE 256K ; CREATE TABLESPA
数学是科学技术的语言 comsci 工作活动领域模型
从小学到大学都在学习数学，从小学开始了解数字的概念和背诵九九表到大学学习复变函数和离散数学，看起来好像掌握了这些数学知识，但是在工作中却很少真正用到这些知识，为什么？最近在研究一种开源软件-CARROT2的源代码的时候，又一次感觉到数学在计算机技术中的不可动摇的基础作用，CARROT2是一种用于自动语言分类（聚类）的工具性软件，用JAVA语言编写，它
Linux系统手动安装rzsz 软件包 daizj linux sz rz
1、下载软件 rzsz-3.34.tar.gz。登录linux，用命令 wget http://freeware.sgi.com/source/rzsz/rzsz-3.48.tar.gz下载。 2、解压 tar zxvf rzsz-3.34.tar.gz 3、安装 cd rzsz-3.34 ; make posix 。注意：这个软件安装与常规的GNU软件不
读源码之:ArrayBlockingQueue dieslrae java
ArrayBlockingQueue是concurrent包提供的一个线程安全的队列,由一个数组来保存队列元素.通过 takeIndex和 putIndex来分别记录出队列和入队列的下标,以保证在出队列时不进行元素移动. //在出队列或者入队列的时候对takeIndex或者putIndex进行累加,如果已经到了数组末尾就又从0开始,保证数
C语言学习九枚举的定义和应用 dcj3sjt126com c
枚举的定义 # include <stdio.h> enum WeekDay { MonDay, TuesDay, WednesDay, ThursDay, FriDay, SaturDay, SunDay }; int main(void) { //int day; //day定义成int类型不合适 enum WeekDay day = Wedne
Vagrant 三种网络配置详解 dcj3sjt126com vagrant
Forwarded port Private network Public network Vagrant 中一共有三种网络配置，下面我们将会详解三种网络配置各自优缺点。端口映射(Forwarded port)，顾名思义是指把宿主计算机的端口映射到虚拟机的某一个端口上，访问宿主计算机端口时，请求实际是被转发到虚拟机上指定端口的。Vagrantfile中设定语法为： c
16.性能优化-完结 frank1234 性能优化
性能调优是一个宏大的工程，需要从宏观架构(比如拆分，冗余，读写分离，集群，缓存等)，软件设计（比如多线程并行化，选择合适的数据结构），数据库设计层面（合理的表设计，汇总表，索引，分区，拆分，冗余等）以及微观（软件的配置，SQL语句的编写，操作系统配置等）根据软件的应用场景做综合的考虑和权衡，并经验实际测试验证才能达到最优。性能水很深，笔者经验尚浅，赶脚也就了解了点皮毛而已，我觉得
Word Search hcx2013 search
Given a 2D board and a word, find if the word exists in the grid. The word can be constructed from letters of sequentially adjacent cell, where "adjacent" cells are those horizontally or ve
Spring4新特性——Web开发的增强 jinnianshilongnian spring spring mvc spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装配置tengine并设置开机启动 liuxingguome centos
yum install gcc-c++ yum install pcre pcre-devel yum install zlib zlib-devel yum install openssl openssl-devel Ubuntu上可以这样安装 sudo aptitude install libdmalloc-dev libcurl4-opens
第14章工具函数（上） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Xelsius 2008 and SAP BW at a glance blueoxygen BO Xelsius
Xelsius提供了丰富多样的数据连接方式，其中为SAP BW专属提供的是BICS。那么Xelsius的各种连接的优缺点比较以及Xelsius是如何直接连接到BEx Query的呢？以下Wiki文章应该提供了全面的概览。 http://wiki.sdn.sap.com/wiki/display/BOBJ/Xcelsius+2008+and+SAP+NetWeaver+BW+Co
oracle表空间相关 tongsh6 oracle
在oracle数据库中，一个用户对应一个表空间，当表空间不足时，可以采用增加表空间的数据文件容量，也可以增加数据文件，方法有如下几种： 1.给表空间增加数据文件 ALTER TABLESPACE "表空间的名字" ADD DATAFILE '表空间的数据文件路径' SIZE 50M; &nb
.Net framework4.0安装失败 yangjuanjava .net windows
上午的.net framework 4.0，各种失败，查了好多答案，各种不靠谱，最后终于找到答案了和Windows Update有关系，给目录名重命名一下再次安装，即安装成功了！下载地址：http://www.microsoft.com/en-us/download/details.aspx?id=17113 方法： 1.运行cmd，输入net stop WuAuServ 2.点击开