难受啊！马飞...

Useful Policy Invariant Shaping from Arbitrary Advice论文翻译导读分析

这是

摘要

强化学习（RL）是一种强大的学习范式，在该范式中，agent可以学习最大化稀疏和延迟的奖励信号。尽管RL在复杂领域取得了许多令人印象深刻的成功，但学习可能需要数小时、数天甚至数年的训练数据。当代RL研究的一个主要挑战是发现如何用更少的数据学习。以前的工作表明，域信息可以成功地用于塑形奖励；通过添加额外的奖励信息，agent可以用更少的数据学习。此外，如果奖励是由一个势能函数构造的，则最优策略保证不变。虽然这种基于势能的奖励塑形(PBRS)有希望，但它受到对一个明确定义的势能函数的需求的限制。理想情况下，我们希望能够采纳来自人或其他agent的任意建议，并在不影响最优策略的情况下提高性能。最近提出的基于动态势能的建议(dynamic potential based advice，DPBA)方法通过接受来自人或其他agent的任意建议来解决这一问题，并在不影响最优策略的情况下提高性能。本文的主要贡献是从理论和经验上揭示了 DPBA 的一个缺陷。或者，为了实现理想目标，我们提出了一种称为策略不变显式塑形 (policy invariant explicit shaping，PIES) 的简单方法，并从理论上和经验上证明 PIES 在 DPBA 失败的地方成功。

1. INTRODUCTION

----强化学习（RL）agent旨在学习最大化奖励信号的策略(然而，最大化的奖励信号并不一定是正确的策略，因为agent可能会刷分，也就是 reward hacking)（从状态到动作的映射）[17]。在许多情况下，奖励信号是稀疏和延迟的，因此学习一个好的策略可能需要很长时间。例如，Open AI Five agent[13]每天训练需要180年的游戏经验；同样，大师级星际争霸特工Alpha Star[18]需要16000场比赛作为训练数据。一种加速学习的方法是添加外部建议（advice）。为 RL agent提供额外奖励以改善学习的做法称为奖励塑形，额外奖励称为塑形奖励。然而，天真地增加原来的奖励函数与塑形可能会改变 RL agent的最优策略[15]。例如，Randløv 和 Alstrøm [15]表明，增加一个塑形奖励(一开始看起来是合理的)会导致一个机构学习如何骑自行车朝目标前进，而不是“分心”，骑在一个循环，反复收集塑形奖励。
----基于势能的奖励塑形(Potential based reward shaping，PBRS)[12,19,20]允许 RL agent通过从势能函数获得塑形奖励，在不改变其最优策略的情况下纳入外部建议。给定一个静态势函数，PBRS 将塑形奖励定义为当agent从一个状态转换到另一个状态时状态(或状态-行动对)的势能差。Ng 等[12]证明了 PBRS 是保证策略不变的: 使用 PBRS 不会改变最优策略。
----虽然PBRS实现了策略不变性，但个人或agent可能很难或不可能将其建议表达为基于势能的函数。相反，最好允许以任意函数的形式使用更直接或更直观的建议。那么，理想的奖励塑形方法将具有三个特性:

能够使用任意的奖励函数作为建议，
在附加建议存在的情况下保持最优策略不变，
当建议是好的时候提高 RL agent的学习速度。

----Harutyunyan等人[8]试图通过提出基于动态势能的建议（dynamic potential-based advice ，DPBA）框架来解决同样的问题，其中的想法是从任意建议中动态学习势能函数，然后可以使用该函数来定义塑形奖励。重要的是，作者声称，如果将势能函数初始化为零，则DPBA保证是策略不变的。我们在这项工作中表明，这一说法是不正确的，因此，不幸的是，该方法不是策略不变的。我们从理论和经验上证实了我们的发现。然后，我们通过导出校正项来对该方法进行修正，并表明该结果在理论上是正确的，并且在经验上是不变的。然而，我们的实证分析表明，修正后的DPBA不能加速提供有用建议的RL agent的学习。
我们介绍了一种简单的算法——策略不变显式塑形(policy invariant explicit shaping，PIES) ，证明了 PIES 能够支持任意的建议，具有策略不变性，并且能够加速 RL agent的学习。在学习开始时，当agent最需要指导时，PIES 会使agent的策略偏向于建议。随着时间的推移，PIES 会逐渐将这种偏差降低到零，从而确保策略的不变性。若干实验证实，当建议具有误导性时，PIES 能确保收敛到最优策略，当建议有用时，PIES 还能加速学习。
具体而言，本文作出了以下贡献:

（1）识别已发布的奖励塑形方法中的一个重要缺陷。
（2）从经验和理论上验证缺陷的存在。
（3）对该方法进行了修正，但经验表明，它引入了额外的复杂性，好的建议不再提高学习速度。
（4）介绍并验证了一种实现原始方法目标的简单方法。

2. BACKGROUND

----马尔可夫决策过程（MDP）[14]由元组描述 $⟨ S, A, T, γ, R ⟩$ . 在每个时间步，环境都处于状态s∈S，agent采取行动a∈A，环境根据转移概率 $T(s，a，s^{′})=Pr(s^{′}|s, a)$ 转变到新的状态 $s^{′}∈ S$ 。此外，agent（在每个时间步）根据奖励函数 $R (s, a)$ 接收在状态s中采取动作a的奖励。最后， $γ$ 是折扣因子，指定如何权衡未来奖励和当前奖励。
----确定性策略 $π$ 是从状态到动作的映射， $π ： S \to A$ ，也就是说，对于每个状态 $s$ ， $π (s)$ 返回一个动作 $a = π (s)$ 。状态-动作价值函数 $Q_{π}(s, a)$ 定义为智能体在状态 s 中采取动作 $a$ 并随后遵循策略 $π$ 将获得的折扣奖励的预期总和。

agent旨在找到由 $π^{∗}$ 表示的最优策略，它使折扣奖励的期望总和最大化，与 $π^{∗}$ 相关的状态-动作值函数称为最优状态-动作值函数，记为 $Q^{∗}(s, a)$ ：
-------------------------------- $Q^{*}(s,a)=\max_{\pi \in \Pi } Q^{\pi}(s,a)$

其中， $\Pi$ 是所有策略的空间。
给定策略 $π$ 的动作价值函数满足贝尔曼方程：
--------------------------------- $Q^{\pi }(s,a)=R(s,a)+\gamma \Sigma _{s^{′},a^{′}}[Q^{\pi }(s^{′},a^{′})]$
其中 $s^{′}$ 是下一个时间步的状态， $a^{′}$ 是agent在下一个时间步采取的动作，这对所有策略都是正确的。
最优策略 $π^{∗}$ 的贝尔曼方程称为贝尔曼最优方程：
--------------------------- $Q^{*}(s,a)=R(s,a)+\gamma \Sigma _{s^{′},a^{′}}[Q^{*}(s^{′},a^{′})]$
给定最优值函数 $π^{∗}(s, a)$ ，agent可以通过对最优值函数的贪婪行动来检索最优策略：
----------------------------- $π^{∗}(s, a)=\max_{a \in A } Q^{*}(s,a)$
许多强化学习算法背后的想法是迭代地学习最优值函数 $Q^{*}$ 。例如，Sarsa [17] 在每个时间步 $t$ 使用以下更新规则学习 $Q$ 值（ $Q_{0}$ 可以任意初始化）：
-------------------------------- $Q_{t+1}(s_{t},a_{t})=Q_{t}(s_{t},a_{t})+\alpha _{t}\delta _{t}$ ------------------------------(1)
其中，
--------------------------- $\delta _{t}=R_{t}(s_{t},a_{t})+\gamma Q_{t}(s_{t+1},a_{t+1})-Q_{t}(s_{t},a_{t})$
是时间差误差（TD-error）， $s_{t}$ 和 $a_{t}$ 表示时间步 $t$ 的状态和动作， $Q_{t}$ 表示时间步 $t$ 对 $Q^{∗}$ 的估计， $α_{t}$ 是时间步 $t$ 的学习率。在某些条件下，保证这些 $Q$ 估计对于所有 $s$ , $a$ 收敛到 $Q^{∗}$ ，并且策略会收敛到 $Q^{∗}$ [17]。

PS：sarsa算法伪代码

2.1 Potential-Based Reward Shaping

----在奖励稀疏的情况下，奖励塑形可以通过提供额外的塑形奖励F来帮助agent更快地学习。然而，添加任意奖励可能会改变给定MDP的最优策略[15]。基于势能的奖励塑形 (Potential-based reward shaping，PBRS) 解决了将塑形奖励函数 $F$ 添加到现有 MDP 奖励函数R的问题，而无需通过将 $F$ 定义为当前状态 $s$ 和下一个状态 $s^{′}$ 的势能之差来更改最优策略[12]。具体而言，PBRS将塑形奖励限制为以下形式： $F(s, s^{′}):=γΦ(s^{′})−Φ(s)$ ，其中 $Φ : s \to R$ 是势函数。Ng等人[12]表明，将 $F$ 表示为势差是agent策略不变的充分条件。也就是说，如果原始MDP $⟨ S, A, T, γ, R ⟩$ 表示为 $M$ ，塑形MDP $⟨ S, A, T, γ, R + F ⟩$ 表示为 $M^{′}$ ( $M^{′}$ 与 $M$ 相同，但除了 $R$ 之外，还为agent提供了额外的奖励F)，则 $M$ 和 $M^{′}$ 对于任何状态-动作对 $(s, a)$ 的最优值函数满足：
------------------------------------------- $Q_{M'}^{*}=Q_{M}^{*}-\Phi (s)$
其中 $Φ$ 是偏置项。鉴于 $Q_{M'}^{*}$ , 最优策略 $π^{∗}$ 可以简单地通过将偏置项相加为：
----------------------------- $π^{∗}(s, a)=arg\max_{a \in A } Q_{M}^{*}(s,a)=arg\max_{a \in A } (Q_{M'}^{*}(s,a)+Φ(s))$
由于偏差项仅取决于代理的状态，因此塑形MDP M′的最优策略与原始MDP M的最优策略没有区别。为了还包括对动作的塑形奖励，Wiewiora等人[20]将 $F$ 的定义扩展为状态动作对，将 $F$ 定义为： $F(s,a,s^{′},a^{′}):=γΦ(s^{′},a^{′})-Φ(s,a)$ ，其中 $Φ$ 取决于agent状态和动作。现在，偏差项也取决于在状态 $s$ 下采取的行动，因此,为了成为策略不变量, agent必须遵守策略
----------------------------- $π^{∗}(s, a)=arg\max_{a \in A } (Q_{M'}^{*}(s,a)+Φ(s))$

2.2 Dynamic Potential-Based Shaping

----如第 2.1 节所述，PBRS 仅限于可以用势能函数表示的外部建议。因此，它不满足三个目标中的第一个；即，它不能接受任意建议。寻找一个准确捕捉建议的势能函数 $Φ$ 可能具有挑战性。为了允许专家指定任意函数 $R^{expert}$ 并且仍然保持 PBRS 的所有属性，可以考虑动态 PBRS。
----动态PBRS使用可在线改变的势函数Φt来形成动态塑形奖励 $F_{t}$ ，其中下标 $t$ 表示 $F$ 和 $Φ$ 变化的时间。Devlin和Kudenko[5]使用动态PBRS作为 $F_{t+1}(s, s^{′}):=γΦ_{t+1}(s^{′})−Φ_{t}(s)$ ，其中 $t$ 和 $t + 1$ 分别是agent到达状态 $s$ 和 $s^{′}$ 的时间。他们为动态PBRS导出了与静态PBRS相同的策略不变性保证。为了承认一个任意的奖励，Harutyunyan等人[8]提出学习一个动态势函数 $Φ_{t}$ ，给出一个任意有界函数 $R^{expert}$ 形式的外部建议。为此，提出了以下名为基于动态势的建议（DPBA）的方法：定义 $R^{Φ}:= R^{expert}$ ，并在每个时间步通过以下更新规则学习二次值函数 $Φ$ ：
---------------- $Φ_{t+1}(s,a):=Φ_{t}(s,a)+\beta \delta _{t}^{\Phi }$ -------------------(2)

其中 $Φ_{t}(s, a)$ 是 $Φ$ 的当前估计， $β$ 是 $Φ$ 函数的学习率，以及
---------------- $\delta _{t}^{\Phi }=R^{\Phi}(s,a)+γΦ_{t+1}(s^{′},a^{′})−Φ_{t}(s,a)$
是 $Φ$ 函数的TD误差。一直以来，agent使用Sarsa学习 $Q$ 值（即，根据等式1）。除了原始奖励 $R (s, a)$ 之外，agent还接收塑形奖励，其给出如下：
----------------------------------------- $F_{t+1}(s,a,s^{′},a^{′}):=Φ_{t+1}(s^{′},a^{′})−Φ_{t}(s,a)$ -----------------(3)
也就是说，连续更新的 $Φ$ 值之间的差。
Harutyunyan等人[8]建议，通过这种形式的奖励塑形，对于每个 $s$ 和 $a$ , $Q_{M}^{*}(s,a)= Q_{M'}^{*}(s,a)+Φ_{0}(s,a)$ ，因此获得最优策略 $π^{∗}$ , agent应根据以下规则对 $Q_{M'}^{*}(s,a)+Φ_{0}(s,a)$ 使用贪婪策略提取动作：

因此，如果 $Φ_{0}(s, a)$ 被初始化为零，则等式4中的上述有偏策略将减少为原始的贪婪策略：

----DPBA在两个情景任务上进行了经验评估：一个20×20网格世界和一个推车杆问题。在网格世界实验中，agent从左上角开始每一集，直到到达位于右下角的目标，最多10000步。agent可以沿着四个基本方向移动，状态是agent的坐标 $(s, a)$ 。到达目标状态时奖励函数为+1，其他位置为0。任何状态-行动的建议 $R^{expert}$ 是：

----本文在我们后面的实验中复制了相同的网格世界环境。
----在车杆任务[11]中，目标是尽可能长地平衡车顶上的一根杆子。购物车可以沿着轨道移动，每一集都从轨道中间开始，杆子竖直。有两种可能的操作: 对购物车施加 1或 -1的力。这种状态由一个四维连续向量组成，表示杆子的角度和角速度，以及推车的位置和速度。当杆子平衡了200步或者杆子倒下时，一集就结束了，奖励函数鼓励agent人平衡杆子。
----为了复制这个实验2，本文使用了OpenAI健身房[2]实现（cartpole-v0）3。这个任务的建议定义为：

图1：y轴显示了在（a）50次和（b）30次跑步中平均完成每集（在x轴上）所用的时间步数。在a）网格世界和b）车极域中，将具有DPBA的成形agent与没有成形的Sarsa学习器进行比较。阴影区域对应于标准误差。

其中 $o:S×A→{0，1}$ 是一个函数，当杆方向与施加到推车上的力对齐时触发（即，当推车在杆倾斜的方向上移动时，agent将获得奖励）。我们设置 $c = 0.1$ 。
----图1显示了DPBA方法的性能，与没有收到任何专家建议的简单Sarsa学习器相比，DPBA方法在网格世界和推车杆域中的性能。我们使用了与[8]中用于网格世界相同的一组超参数。为了学习cart-pole任务，agent使用线性函数近似，通过Sarsa(λ)和瓦片编码特征表示[16]估计值函数，并使用开源软件（可在Richard Suttons的网站上公开）实现。Q和Φ的权重在0和0.001之间均匀随机初始化。对于瓦片编码，我们使用8个瓦片，每个瓦片有24个瓦片（每个维度2个）。为了更精确的状态表示，我们使用了一个包裹瓦片来表示极的角度。使用包裹瓦片，可以在一个范围内（例如[0, 2π]）进行概括，而不是将瓦片拉伸到无穷大，然后再包裹。λ设置为0.9，γ设置为1。对于Q和Φ值函数α和β的学习率，我们扫描了这些值[0.001, 0.002, 0.01, 0.1, 0.2]。根据图1(b)每条线的曲线下面积（AUC），最佳参数值如表1所示。
----这些结果与之前的研究结果一致，表明使用 DPBA 方法的agent对这个好的建议学习得更快，相对于不使用建议(即 DPBA 线收敛得更快，达到最优行为)。请注意，在网格世界的任务中，期望的行为是尽可能快地达到目标。因此，对于这个任务，在显示步骤(y 轴)和情节(x 轴)的情节(如图1中的情节)中，越低越好。相比之下，推车杆任务中目标的本质要求在每个阶段采取尽可能多的步骤，作为期望的行为。因此，对于推车杆高的情况，在同样轴线的情况下，效果更好。图1中的结果表明，DPBA 方法满足标准1(它可以使用任意奖励)和标准3(好的建议可以提高性能)。然而，正如我们在下一节中所讨论的，原始论文证明中的一个缺陷意味着准则2不能满足: 最优策略可以改变，也就是说，建议可以导致agent人收敛到次优策略。这在原始论文中没有经过实证检验，因此这种失败没有被注意到。

3. DPBA 会影响最优政策

上一节描述了DPBA，这是一种方法，可以通过迭代学习势函数 $Φ$ 并与塑形状态-动作值 $Q_{M′}$ 同时学习，将任意专家的建议纳入强化学习框架。Harutyunyan等人[8]声称，如果 $Φ$ ， $Φ_{0}$ 的初始值被初始化为零，则agent可以简单地遵循相对于Q_{M′}贪婪的策略以实现策略不变性。在本节中，我们证明了这一说法不幸不成立：将 $Φ_{0}(s, a)$ 初始化为零不足以保证策略不变性。

-------------为了证明我们的主张，我们从定义术语开始。我们将比较两个MDP中给定策略 $π$ 的Q值估计，原始MDP由元组描述的 $M$ 表示 $⟨ S 、 A 、 T 、 γ 、 R ⟩$ , 以及由DPBA成形的MDP， $M^{′}$ , 由元组描述 $S, A, T, γ, R+F_{t+1}⟩$ , 其中 $F_{t+1}(s,a,s',a'):=Φ_{t+1}(s^{′},a')−Φ_{t}(s,a)$

------无限求和中的两个项看起来非常相似，这促使我们通过移位求和变量k来重写其中一个项。这种移位将使相同的项被抵消。然而，我们需要小心。首先，我们重写极限形式的和。无限和可以写成：

在等式7中，如果 $Q_{t}^{\pi}(s,a)$ 是有界的，那么当W接近无穷大时，极限内的第一项将变为0，而第二项不依赖于W，可以拉到极限外：

3.1 经验验证：无用的建议

----我们通过一系列实验验证了上述结果。首先，考虑一个确定性的2 × 2网格世界，我们称之为玩具示例，如图2所示。agent从状态 S 开始每一集，并且可以沿着四个基本方向移动(如图所示) ，直到达到目标状态 G (最多100步)。向墙移动(用粗线表示)不会改变agent的位置。除了在目标状态结束的一个转换之外，每个转换的奖励都是0，结果奖励 1和剧集终止。作为建议，我们假设“专家”奖励agent人偏离目标的转变。图2（a）中网格内的蓝色箭头表示专家建议的状态转换。代理通过执行建议的转换从专家处获得+1。由于该建议鼓励不良行为，我们预计它会减慢学习速度（而不是加快学习速度），但如果一种成形方法是策略不变的，则代理最终仍应收敛到最优策略。
----学习器使用Sarsa(0)估计Q值，γ=0.3。我们使用 $ϵ - g r e e d y$ 策略，对具有校正DPBA的学习者（等式9）和具有DPBA的学生（等式4）进行了实验。 $Φ$ 和 $Q$ 被初始化为0， $ϵ$ 从0.1衰减为0。对于 $Q$ 和 $Φ$ 值函数 $α$ 和 $β$ 的学习率，我们扫描了值[0.05、0.1、0.2、0.5]。根据每条线的AUC，最佳值报告在表2中。图3将每集的长度描述为完成该集所需的步骤数。Sarsa线表示没有整形的Sarsa(0) agent的学习曲线。图3显示了DPBA没有收敛到带有错误建议的最优策略。该图还证实了我们的结果，即 $Φ_{t}$ （而不是Harutyunyan等人[8]中提出的 $Φ_{0}$ ）是充分的校正项，以恢复最大化MDP原始奖励的最优策略。最后，我们验证了这不仅仅是agent开发过快的产物，并针对不同的开发速率重复相同的实验。我们考虑了另外两个不同的初始勘探率值，即0.3和0.5。
----图3中的相应行证实了额外的探索不会让DPBA获得最佳策略。图3还证实了等式9中导出的修正策略收敛于最优策略，即使专家建议不好。

3.2 经验验证: 有用的建议

----上一节表明，DPBA不是一种策略不变的塑形方法，因为将 $Φ$ 值初始化为零不是策略不变的充分条件。我们表明，DPBA可以通过添加正确的偏差项和策略不变量来校正。虽然添加正确的偏差项保证了策略的不变性，但我们仍然需要测试期望的奖励成形算法的第三个标准-校正后的DPBA是否能够在良好的专家建议下加速成形agent的学习？
----图4显示了与前一小节重复相同实验的结果，但是与图2(b)所示的优秀专家一起(即，从每个状态，专家鼓励agent朝着目标前进)。在这里，由于专家鼓励agent朝着目标前进，我们期望塑形agent比没有得到塑形奖励的agent学得更快。但是，图4显示了更正后的agent不能通过好的建议更快地学习。
----出乎我们意料的是，该建议实际上减缓了学习速度，尽管纠正后的DPBA agent最终如预期那样发现了最佳策略。要解释校正后的DPBA行为，需要仔细观察 $Q$ 和 $Φ$ 估计值是如何变化的。校正后的DPBA在每个时间步加上 $Φ$ 的最新值，以校正塑形的 $Q$ 值；然而，先前用于塑形奖励函数的 $Φ$ 值可能与最新值不同。让我们考虑 $Φ$ 已初始化为零的情况，建议总是一个积极的信号，强制 $Φ$ 值为负。对于这样的 $Φ$ 值，最新的Φ值比用于塑形奖励的早期值更负，这实际上阻碍了期望的行为。
----虽然校正后的DPBA保证了策略的不变性，但它无法满足理想奖励塑形的第三个目标（即，通过有用的建议加快agent的学习）。
----本节的主要结论是，上述用于纳入专家建议的奖励塑形方法均不满足三个理想目标。[8]中提出的DPBA可以导致更快的学习，如果专家提供了好的建议，但它不是策略不变的。本节中提出的修正DPBA是可证明的策略不变的，但即使提供了良好的建议，它也会导致学习速度减慢。

4. 策略不变显式塑形POLICY INVARIANT EXPLICIT SHAPING

----在这一部分中，我们介绍了满足我们在第1节中指定的所有奖励塑形目标的策略不变显式塑形(policy invariant explicit shaping，PIES)算法。PIES 是一个简单的算法，它可以接受任意的建议，具有策略不变性，并且可以根据专家的建议加快agent的学习速度。与基于势能的奖励塑形不同，PIES背后的主要思想是明确使用专家建议，而不修改原始奖励函数。不改变奖励函数是简化PIES并使分析其工作方式更容易的主要特征。PIES agent学习等式(1)中的原始值函数 $Q_M$ ，同时学习等式(2)中基于专家建议的二次值函数 $Φ$ 。为了利用任意建议，agent通过在每个时间步 t 将 $- Φ$ 添加到 $Q_M$ 显式地使agent的策略偏向于建议，并且通过参数 $\xi _{t}$ 加权，其中 $\xi _{t}$ 在学习结束之前衰减为0。
-------------------------------- $Q_{t+1}(s_{t},a_{t})=Q_{t}(s_{t},a_{t})+\alpha _{t}\delta _{t}$ ------------------------------(1)
--------------------------------- $Φ_{t+1}(s,a):=Φ_{t}(s,a)+\beta \delta _{t}^{\Phi }$ -------------------(2)
例如，对于配备PIES的Sarsa(0) agent，当agent想要贪婪地行动时，它将在每个时间步选择使最大化的动作。最佳策略是：

参数 $\xi _{t}$ 控制agent当前的动作在多大程度上偏向于建议。随着时间的推移，将 $\xi _{t}$ 衰减为0将消除塑形的影响，从而保证agent将收敛到最优策略，使PIES策略保持不变。衰减 $\xi$ 的速度决定了建议将持续多久影响agent的学习策略。选择 $\xi$ 的衰减速度可以与利用建议的益处有关，并且可以通过许多不同的方式来实现。对于本文，我们只在每一集结束时以线性状态减小。更具体地说，第e集期间的 $\xi$ 值为：

其中 $C$ 是一个常数，它决定了 $\xi$ 衰减的速度；即， $C$ 越大，偏差衰减越慢。
我们首先通过经验证明 PIES 实现了玩具示例中的所有三个目标。然后，我们将展示在提供良好建议的情况下，它如何针对网格世界中以前的方法和购物车杆问题(最初针对 DPBA 进行了测试)执行。所有域的规范都和以前一样。图5中玩具示例中agent的表现图显示了校正后的DPBA、PIES和Sarsa学习者的学习曲线。图5(a)是针对2(a)中所示的坏专家，图5(b)是针对2中所示的好专家。Sarsa(0)用于估计e=0.3和e-贪婪策略的状态动作值。 $Φ$ 和 $Q$ 被初始化为0，e从0.1衰减为0。对于 $Q$ 和 $Φ$ 值函数α和β的学习率，我们扫描了值[0.05、0.1、0.2、0.5]。设置 $C$ 的研究值为[5，10，20，50]。值得一提的是，我们根据建议的质量设置了的衰减速度（通过设置 $C$ ）；例如，坏建议的 $C$ 值越小越好，因为它会更快地衰减对抗性偏见的影响，而好建议的 $C$ 越大越好，因为这会减缓衰减。根据每条线的AUC，使用最佳值。学习参数如表3所示。

正如预期的那样，使用 PIES，即使是坏专家，agent也能够找到最优策略。对于有益的建议，PIES 使agent能够更快地学习任务。然而，在玩具问题上，速度的加快并不显著，因为简单的学习者也能够在很少的情节中学习。
图6更好地展示了 PIES 如何通过在两个更复杂的任务中提供良好的建议来提高agent学习的性能: 网格世界和购物车-极点域，这在2.2节中有描述。对于这两个任务，相似的学习参数(那些我们没有重新状态的)继承了它们之前实验的值。为了找到最佳值，扫描了[50,100,200,300]的值。在 grid-world 任务(图6(a))中，并在值[0.05,0.1,0.2,0.5]上选择。在车杆任务(图6(b))中，为了设置学习率，扫描了[0.001,0.002,0.01,0.1,0.2]的值。与以前一样，图6(a)和6(b)的每一行的 AUC 值为最佳参数值，分别在表4和表5中报告。与前面一样，对于购物车杆任务的绘图，上面的线表示性能更好，而对于网格世界，下面的线表示性能更好。
PIES在两个领域都正确地使用了好的建议，并在不改变最优策略的情况下改进了对Sarsa学习者的学习（即PIES以比Sarsa学生更快的速度接近最优行为）。PIES的表现比纠正的DPBA好，正如预期的那样，因为纠正后的DPBA不能用好的建议加速学习者。当我们有任意形式的建议时，无论建议的质量如何，PIES都是DPBA的可靠替代方案。如图所示，PIES满足所有三个所需标准。

深度 Qlearning：在直播推荐系统中的应用 AGI通用人工智能之禅程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
深度Q-learning：在直播推荐系统中的应用关键词：深度Q-learning,强化学习,直播推荐系统,个性化推荐1.背景介绍1.1问题的由来随着互联网技术的飞速发展,直播平台如雨后春笋般涌现。面对海量的直播内容,用户很难快速找到自己感兴趣的内容。因此,个性化推荐系统在直播平台中扮演着越来越重要的角色。1.2研究现状目前,主流的个性化推荐算法包括协同过滤、基于内容的推荐等。这些方法在一定程度上缓
OpenAI o1 的价值意义及“强化学习的Scaling Law” & Kimi创始人杨植麟最新分享：关于OpenAI o1新范式的深度思考光剑书架上的书 ChatGPT 大数据AI人工智能计算人工智能算法机器学习
OpenAIo1的价值意义及“强化学习的ScalingLaw”蹭下热度谈谈OpenAIo1的价值意义及RL的Scalinglaw。一、OpenAIo1是大模型的巨大进步我觉得OpenAIo1是自GPT4发布以来，基座大模型最大的进展，逻辑推理能力提升的效果和方法比预想的要好，GPT4o和o1是发展大模型不同的方向，但是o1这个方向更根本，重要性也比GPT4o这种方向要重要得多，原因下面会分析。为什
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构汤萌妮Margaret
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构scalable_agent项目地址:https://gitcode.com/gh_mirrors/sc/scalable_agent在当今的人工智能研究前沿，深度强化学习（DRL）因其在复杂任务中的卓越表现而备受瞩目。本文要介绍的是一个开源于GitHub的重量级项目：“ScalableDistributedDeep-RLwithImp
如何有效的学习AI大模型？ Python程序员罗宾学习人工智能语言模型自然语言处理架构
学习AI大模型是一个系统性的过程，涉及到多个学科的知识。以下是一些建议，帮助你更有效地学习AI大模型：基础知识储备：数学基础：学习线性代数、概率论、统计学和微积分等，这些是理解机器学习算法的数学基础。编程技能：掌握至少一种编程语言，如Python，因为大多数AI模型都是用Python实现的。理论学习：机器学习基础：了解监督学习、非监督学习、强化学习等基本概念。深度学习：学习神经网络的基本结构，如卷
反思的魔力：用语言的力量强化AI智能体步子哥人工智能机器学习
在浩瀚的代码海洋中，AI智能体就像初出茅庐的航海家，渴望探索未知的宝藏。然而，面对复杂的编程任务，他们常常迷失方向。今天，就让我们跟随“反思”的灯塔，见证AI智能体如何通过语言的力量，点亮智慧的明灯，成为代码世界的征服者！智能体的困境近年来，大型语言模型（LLM）在与外部环境（如游戏、编译器、API）交互的领域中大放异彩，化身为目标驱动的智能体。然而，传统的强化学习方法如同一位严苛的训练师，需要大
机器学习实战笔记5——线性判别分析绍少阿机器学习笔记可视化机器学习 python 人工智能
任务安排1、机器学习导论8、核方法2、KNN及其实现9、稀疏表示3、K-means聚类10、高斯混合模型4、主成分分析11、嵌入学习5、线性判别分析12、强化学习6、贝叶斯方法13、PageRank7、逻辑回归14、深度学习线性判别分析（LDA）Ⅰ核心思想对于同样一件事，站在不同的角度，我们往往会有不同的看法，而降维思想，亦是如此。同上节课一样，我们还是学习降维的算法，只是提供了一种新的角度，由上
大模型的实践应用29-大语言模型的RLHF(人类反馈强化学习)的具体应用与原理介绍微学AI 大模型的实践应用语言模型人工智能自然语言处理 RLHF
大家好，我是微学AI，今天给大家介绍一下大模型的实践应用29-大语言模型的RLHF(人类反馈强化学习)的具体应用与原理介绍。在当今人工智能发展的浪潮中，大语言模型（LargeLanguageModels,LLMs）凭借其强大的语言理解和生成能力，成为了研究与应用的热点。而在这股浪潮中，一种名为“基于人类反馈的强化学习”的方法脱颖而出，为大语言模型的优化和应用开辟了新的路径。本文首部分将深入浅出地介
坚定理想信念，锤炼党性修养知涵知
理想信念是中国共产党人的政治灵魂，是共产党人精神上的“钙”，没有理想信念，理想信念不坚定，精神上就会“缺钙”，就会得“软骨病”。党员干部只有坚定理想信念，强化责任担当，锤炼道德操守，提升党性修养，才能切实做到为党分忧、为国尽责、为民奉献。坚定理想信念，就要强化学习精神、自律精神、担当精神。思想理论上的坚定清醒是政治上坚定的前提，党员干部要始终把理论学习作为政治责任、事业需要和精神追求，积极参加组织
python 物理引擎_在 Gym 上构建会动的人工智障1（python） weixin_39542608 python 物理引擎
背景说明作者最近使用processing的一个重要目标就是为学生的编程学习设计具体的应用场景，最近突然发现有一个包已经提供了部分功能，所以探索一下。这个包就是我们今天的主人公：Gym。Gym是用于开发和比较强化学习算法的python包，但是我们也完全可以使用它来作为我们自己程序的应用背景，并提供可视化。简单的说，就是我们使用自己写的小程序，而不是强化学习算法，来尝试完成其中的任务，并把完成任务的过
强化学习（二）----- 马尔可夫决策过程MDP Duckie-duckie 机器学习数据数据分析数据挖掘机器学习算法
1.马尔可夫模型的几类子模型大家应该还记得马尔科夫链(MarkovChain)，了解机器学习的也都知道隐马尔可夫模型(HiddenMarkovModel，HMM)。它们具有的一个共同性质就是马尔可夫性(无后效性)，也就是指系统的下个状态只与当前状态信息有关，而与更早之前的状态无关。马尔可夫决策过程(MarkovDecisionProcess,MDP)也具有马尔可夫性，与上面不同的是MDP考虑了动作
Python强化学习，基于gym的马尔可夫决策过程MDP，动态规划求解，体现序贯决策 baozouxiaoxian python gym qlearning python 强化学习 mdp 动态规划求解马尔科夫决策过程
决策的过程分为单阶段和多阶段的。单阶段决策也就是单次决策，这个很简单。而序贯决策指按时间序列的发生，按顺序连续不断地作出决策，即多阶段决策，决策是分前后顺序的。序贯决策是前一阶段决策方案的选择，会影响到后一阶段决策方案的选择，后一阶段决策方案的选择是取决于前一阶段决策方案的结果。强化学习过程中最典型的例子就是非线性二级摆系统，有4个关键值，小车受力，受力方向，摆速度，摆角，每个状态下都需要决策车的
强化学习分类 0penuel0
Model-free:Qlearning,Sarsa,PolicyGradientsModel-based:能通过想象来预判断接下来将要发生的所有情况.然后选择这些想象情况中最好的那种基于概率：PolicyGradients基于价值：Qlearning,Sarsa两者融合：Actor-Critic回合更新：Monte-carlolearning，基础版的policygradients单步更新：Ql
7. 深度强化学习：智能体的学习与决策 Network_Engineer 机器学习学习机器学习深度学习神经网络 python 算法
引言深度强化学习结合了强化学习与深度学习的优势，通过智能体与环境的交互，使得智能体能够学习最优的决策策略。深度强化学习在自动驾驶、游戏AI、机器人控制等领域表现出色，推动了人工智能的快速发展。本篇博文将深入探讨深度强化学习的基本框架、经典算法（如DQN、策略梯度法），以及其在实际应用中的成功案例。1.强化学习的基本框架强化学习是机器学习的一个分支，专注于智能体在与环境的交互过程中，学习如何通过最大
深度强化学习之DQN-深度学习与强化学习的成功结合 CristianoC
目录概念深度学习与强化学习结合的问题DQN解决结合出现问题的办法DQN算法流程总结一、概念原因：在普通的Q-Learning中，当状态和动作空间是离散且维数不高的时候可以使用Q-Table来存储每个状态动作对应的Q值，而当状态和动作空间是高维连续时，使用Q-Table不现实。一是因为当问题复杂后状态太多，所需内存太大；二是在这么大的表格中查询对应的状态也是一件很耗时的事情。image通常的做法是把
一对一包教会脑电教学服务茗创科技
茗创科技专注于脑科学数据处理，涵盖（EEG/ERP,fMRI,结构像,DTI,ASL,FNIRS）等，欢迎留言讨论及转发推荐，也欢迎了解茗创科技的脑电课程，数据处理服务及脑科学工作站销售业务，可添加我们的工程师（微信号MCKJ-zhouyi或17373158786）咨询。★课程简介★最近有不少人留言“脑电该怎么学习？想强化学习脑电某个内容版块可以吗？...”，也有小伙伴联系我们，咨询脑电相关内容能
基于时序差分的无模型强化学习：Q-learning 算法详解晓shuo 算法强化学习
目录一、无模型强化学习中的时序差分方法与Q-learning1.1时序差分法1.2Q-learning算法状态-动作值函数（Q函数）Q-learning的更新公式Q-learning算法流程Q-learning的特点1.3总结一、无模型强化学习中的时序差分方法与Q-learning 动态规划算法依赖于已知的马尔可夫决策过程（MDP），在环境的状态转移概率和奖励函数完全明确的情况下，智能体无需与环
（18-1）基于深度强化学习的股票交易模型：项目介绍+准备环境码农三叔强化学习从入门到实践人工智能深度学习股票交易模型 DRL Double DQN Dueling DQN
在本章的这个项目中，实现了一个用于股票交易的DRL模型，旨在展示DRL在金融领域的潜力，提供其在股票交易中应用的实际例子。希望通过本章内容的学习，能够为那些对金融与机器学习交叉领域感兴趣的人士提供有益的参考。1.1项目介绍在金融市场中，股票交易是一项充满挑战的任务，需要在高度波动和复杂的市场环境中做出快速且精准的决策。传统的交易策略通常依赖于经验、基本面分析或技术分析。然而，这些方法往往无法在快速
深度学习算法——Transformer fw菜菜数学建模深度学习 transformer 人工智能数学建模 python pytorch
参考教材：动手学pytorch一、模型介绍Transformer模型完全基于注意力机制，没有任何卷积层或循环神经网络层。尽管Transformer最初是应用于在文本数据上的序列到序列学习，但现在已经推广到各种现代的深度学习中，例如语言、视觉、语音和强化学习领域。Transformer作为编码器－解码器架构的一个实例，其整体架构图在下图中展示。正如所见到的，Trans‐former是由编码器和解码器
sumo carla 自动驾驶联合仿真安装配置教程开发驾驶模拟强化学习 jZhUeZPQZw 自动驾驶人工智能机器学习
sumocarla自动驾驶联合仿真安装配置教程开发驾驶模拟强化学习轨迹预测轨迹规划标题：基于SUMO和CARLA的自动驾驶联合仿真系统安装与配置：教程与开发探索摘要：随着自动驾驶技术的迅猛发展，仿真环境在自动驾驶系统的评估、训练和验证中扮演着重要的角色。本文介绍了基于SUMO（SimulationofUrbanMObility）和CARLA（CarLearningtoAct）的自动驾驶联合仿真系统
Python知识点：如何使用Python实现强化学习机器人杰哥在此 Python系列 python 机器人开发语言编程面试
实现一个强化学习机器人涉及多个步骤，包括定义环境、状态和动作，选择适当的强化学习算法，并训练模型。下面是一个简单的例子，使用Python和经典的Q-learning算法来实现一个强化学习机器人，目标是通过OpenAIGym提供的FrozenLake环境训练机器人学会如何在冰面上移动以找到目标。1.安装必要的库首先，需要安装OpenAIGym和Numpy。你可以使用以下命令安装它们：pipinsta
机器学习在医学中的应用听忆. 机器学习人工智能
边走、边悟迟早会好机器学习在医学中的应用是一个广泛且复杂的领域，涵盖了从基础研究到临床应用的多个方面。以下是一个万字总结的结构性思路，分章节深入探讨不同应用场景、技术方法、挑战与未来展望。1.引言背景与发展：介绍医学领域的数字化转型以及机器学习的兴起，探讨其在医学中的潜力。机器学习的基本概念：简要介绍机器学习的基本原理、分类（监督学习、非监督学习、强化学习等）和常用算法（如神经网络、支持向量机、随
人工智能&机器学习&深度学习 AA杂货铺111
机器学习：一切通过优化方法挖掘数据中规律的学科。深度学习：一切运用了神经网络作为参数结构进行优化的机器学习算法。强化学习：不仅能利用现有数据，还可以通过对环境的探索获得新数据，并利用新数据循环往复地更新迭代现有模型的机器学习算法。学习是为了更好地对环境进行探索，而探索是为了获取数据进行更好的学习。深度强化学习：一切运用了神经网络作为参数结构进行优化的强化学习算法。人工智能定义与分类人工智能（Art
学习日志6 Simon#0209 学习
关于量子强化学习：论文Variational_Quantum_Circuits_for_Deep_Reinforcement_Learning：变分量子电路在深度强化学习中的应用论文主要内容：将经典深度强化学习算法（如经验重放和目标网络）重塑为变分量子电路的表示摘要当前最先进的机器学习方法基于经典冯·诺伊曼计算架构，并在许多工业和学术领域得到广泛应用。随着量子计算的发展，研究人员和技术巨头们试图为
【科技前沿】用深度强化学习优化电网，让电力调度更聪明！风清扬雨人工智能人工智能 python 智能电网深度强化学习
Hey小伙伴们，今天我要跟大家分享一个超级酷炫的技术应用——深度强化学习在电网优化中的典型案例！如果你对机器学习感兴趣，或是正寻找如何用AI技术解决实际问题的方法，这篇分享绝对不容错过！‍✨开场白大家好，我是你们的技术小助手！今天我们要聊的是如何利用深度强化学习（DRL）来优化电网的调度，让电力系统变得更智能、更高效。引入话题想象一下，如果你能够通过一种先进的技术手段，自动调整电网中的能源分配，不
大模型对齐方法笔记一：DPO及其变种IPO、KTO、CPO chencjiajy 深度学习笔记机器学习人工智能
DPODPO(DirectPreferenceOptimization)出自2023年5月的斯坦福大学研究院的论文《DirectPreferenceOptimization:YourLanguageModelisSecretlyaRewardModel》，大概是2023-2024年最广为人知的RLHF的替代对齐方法了。DPO的主要思想是在强化学习的目标函数中建立决策函数与奖励函数之间的关系，以规避
多智能体环境设计（二） AI-星辰强化学习自定义环境 python 机器学习
多智能体环境设计：接口设计与实现目录引言PettingZoo框架概述核心接口方法详解3.1reset()方法3.2step(action)方法3.3observe(agent)方法3.4render()方法空间定义4.1观察空间4.2动作空间高级特性5.1并行环境5.2智能体通信5.3动态环境性能优化测试和调试实际应用示例最佳实践和常见陷阱1.引言多智能体环境是强化学习和人工智能研究中的一个重要领
【伤寒强化学习训练】打卡第四十五天一期90天 A卐炏澬焚
3.5.2麻黄汤续讲与大、小青龙汤麻黄九禁【7.18】脉浮紧者，法当汗出而解。若身重心悸者，不可发汗，须自汗出乃愈。所以然者，尺中脉微，此里虚也。须里实，津液自和，便自汗出愈。【7.19】脉浮紧者，法当身疼痛，宜以汗解之。假令尺中迟者，不可发汗。所以然者，以荣气不足，血弱故也。【7.18】：脉浮紧的人照理说要发汗，如果身体重、心悸是不可以发汗；发汗，不一定用麻黄汤，大青龙汤也可以感冒很多人身体都是
从自动驾驶看无人驾驶叉车的技术落地和应用电气_空空自动驾驶自动驾驶机器人人工智能毕设
摘要｜介绍无人驾驶叉车在自动驾驶技术中的应用，分析其关键技术，如环境感知、定位、路径规划等，并讨论机器学习算法和强化学习算法的应用以提高无人叉车的运行效率和准确性。无人叉车在封闭结构化环境、机器学习、有效数据集等方法的助力下，可有效推动叉车无人驾驶关键技术的发展。关键词：无人叉车；自动驾驶；机器学习；数据集随着人工智能技术的持续进步，无人叉车领域的供给与需求均呈现迅猛增长态势。它们不仅正在逐步替代
强化学习自定义环境基础知识 AI-星辰强化学习自定义环境 python 机器学习
1.引言本文旨在全面介绍OpenAIGym自定义环境的创建过程，重点解析其接口、关键属性和函数。本指南适合初学者深入了解强化学习环境的构建原理和实践方法。2.OpenAIGym环境基础OpenAIGym提供了一个标准化的接口，用于创建和使用强化学习环境。了解这个接口的核心组件是创建自定义环境的基础。2.1Env类所有Gym环境都继承自gym.Env类。这个基类定义了环境应该具有的基本结构和方法。i
【《伤寒论》强化学习训练】打卡第32天，一期目标90天最闪亮的那颗星_b02d
一、桂枝加葛根汤和葛根汤不能通用，因为葛根汤里有麻黄，会散阳气。太阳传到阳明时血分受邪，要用麻黄从血分把邪气发出来，所以用葛根汤治燥热感冒。桂枝汤治营卫不调的出汗或桂枝加附子汤治阳虚自汗，不能一开始就用黄芪，黄芪会让桂枝汤发挥不了通营卫的效果，汗止不了。人体表面的能量不足的时候，身体不能收摄自己身体的水分，桂枝加附子汤里有附子，可治阳虚自汗。玉屏风散治表虚的汗有效；桂枝加附子汤治虚汗有效，但是两个
java责任链模式 3213213333332132 java 责任链模式村民告县长
责任链模式，通常就是一个请求从最低级开始往上层层的请求，当在某一层满足条件时，请求将被处理，当请求到最高层仍未满足时，则请求不会被处理。就是一个请求在这个链条的责任范围内，会被相应的处理，如果超出链条的责任范围外，请求不会被相应的处理。下面代码模拟这样的效果：创建一个政府抽象类,方便所有的具体政府部门继承它。 package 责任链模式; /** *
linux、mysql、nginx、tomcat 性能参数优化 ronin47
一、linux 系统内核参数 /etc/sysctl.conf文件常用参数 net.core.netdev_max_backlog = 32768 #允许送到队列的数据包的最大数目 net.core.rmem_max = 8388608 #SOCKET读缓存区大小 net.core.wmem_max = 8388608 #SOCKET写缓存区大
php命令行界面 dcj3sjt126com PHP cli
常用选项 php -v php -i PHP安装的有关信息 php -h 访问帮助文件 php -m 列出编译到当前PHP安装的所有模块执行一段代码 php -r 'echo "hello, world!";' php -r 'echo "Hello, World!\n";' php -r '$ts = filemtime("
Filter&Session 171815164 session
Filter HttpServletRequest requ = (HttpServletRequest) req; HttpSession session = requ.getSession(); if (session.getAttribute("admin") == null) { PrintWriter out = res.ge
连接池与Spring,Hibernate结合 g21121 Hibernate
前几篇关于Java连接池的介绍都是基于Java应用的，而我们常用的场景是与Spring和ORM框架结合，下面就利用实例学习一下这方面的配置。 1.下载相关内容： &nb
[简单]mybatis判断数字类型 53873039oycg mybatis
昨天同事反馈mybatis保存不了int类型的属性,一直报错，错误信息如下: Caused by: java.lang.NumberFormatException: For input string: "null" at sun.mis
项目启动时或者启动后ava.lang.OutOfMemoryError: PermGen space 程序员是怎么炼成的 eclipse jvm tomcat catalina.sh eclipse.ini
在启动比较大的项目时，因为存在大量的jsp页面，所以在编译的时候会生成很多的.class文件，.class文件是都会被加载到jvm的方法区中，如果要加载的class文件很多，就会出现方法区溢出异常 java.lang.OutOfMemoryError: PermGen space. 解决办法是点击eclipse里的tomcat，在
我的crm小结 aijuans crm
各种原因吧，crm今天才完了。主要是接触了几个新技术： Struts2、poi、ibatis这几个都是以前的项目中用过的。 Jsf、tapestry是这次新接触的，都是界面层的框架，用起来也不难。思路和struts不太一样，传说比较简单方便。不过个人感觉还是struts用着顺手啊，当然springmvc也很顺手，不知道是因为习惯还是什么。jsf和tapestry应用的时候需要知道他们的标签、主
spring里配置使用hibernate的二级缓存几步 antonyup_2006 java spring Hibernate xml cache
．在spring的配置文件中 applicationContent.xml，hibernate部分加入 xml 代码 <prop key="hibernate.cache.provider_class">org.hibernate.cache.EhCacheProvider</prop> <prop key="hi
JAVA基础面试题百合不是茶抽象实现接口 String类接口继承抽象类继承实体类自定义异常
/* * 栈（stack）：主要保存基本类型（或者叫内置类型）（char、byte、short、 *int、long、 float、double、boolean）和对象的引用，数据可以共享，速度仅次于 * 寄存器（register），快于堆。堆（heap）：用于存储对象。 */ &
让sqlmap文件 "继承" 起来 bijian1013 java ibatis sqlmap
多个项目中使用ibatis , 和数据库表对应的 sqlmap文件（增删改查等基本语句)，dao, pojo 都是由工具自动生成的, 现在将这些自动生成的文件放在一个单独的工程中，其它项目工程中通过jar包来引用，并通过"继承"为基础的sqlmap文件，dao,pojo 添加新的方法来满足项
精通Oracle10编程SQL(13)开发触发器 bijian1013 oracle 数据库 plsql
/* *开发触发器 */ --得到日期是周几 select to_char(sysdate+4,'DY','nls_date_language=AMERICAN') from dual; select to_char(sysdate,'DY','nls_date_language=AMERICAN') from dual; --建立BEFORE语句触发器 CREATE O
【EhCache三】EhCache查询 bit1129 ehcache
本文介绍EhCache查询缓存中数据，EhCache提供了类似Hibernate的查询API，可以按照给定的条件进行查询。要对EhCache进行查询，需要在ehcache.xml中设定要查询的属性数据准备 @Before public void setUp() { //加载EhCache配置文件 Inpu
CXF框架入门实例白糖_ spring Web 框架 webservice servlet
CXF是apache旗下的开源框架，由Celtix + XFire这两门经典的框架合成，是一套非常流行的web service框架。它提供了JAX-WS的全面支持，并且可以根据实际项目的需要，采用代码优先（Code First）或者 WSDL 优先（WSDL First）来轻松地实现 Web Services 的发布和使用，同时它能与spring进行完美结合。在apache cxf官网提供
angular.equals boyitech AngularJS AngularJS API AnguarJS 中文API angular.equals
angular.equals 描述: 比较两个值或者两个对象是不是相等。还支持值的类型，正则表达式和数组的比较。两个值或对象被认为是相等的前提条件是以下的情况至少能满足一项：两个值或者对象能通过=== （恒等）的比较两个值或者对象是同样类型，并且他们的属性都能通过angular
java-腾讯暑期实习生-输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A[0]*A[1]*...*A[i-1]*A[i+1] bylijinnan java
这道题的具体思路请参看何海涛的微博：http://weibo.com/zhedahht import java.math.BigInteger; import java.util.Arrays; public class CreateBFromATencent { /** * 题目：输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A
FastDFS 的安装和配置修订版 Chen.H linux fastDFS 分布式文件系统
FastDFS Home:http://code.google.com/p/fastdfs/ 1. 安装 http://code.google.com/p/fastdfs/wiki/Setup http://hi.baidu.com/leolance/blog/item/3c273327978ae55f93580703.html 安装libevent (对libevent的版本要求为1.4.
[强人工智能]拓扑扫描与自适应构造器 comsci 人工智能
当我们面对一个有限拓扑网络的时候,在对已知的拓扑结构进行分析之后,发现在连通点之后,还存在若干个子网络,且这些网络的结构是未知的,数据库中并未存在这些网络的拓扑结构数据....这个时候,我们该怎么办呢? 那么,现在我们必须设计新的模块和代码包来处理上面的问题
oracle merge into的用法 daizj oracle sql merget into
Oracle中merge into的使用 http://blog.csdn.net/yuzhic/article/details/1896878 http://blog.csdn.net/macle2010/article/details/5980965 该命令使用一条语句从一个或者多个数据源中完成对表的更新和插入数据. ORACLE 9i 中，使用此命令必须同时指定UPDATE 和INSE
不适合使用Hadoop的场景 datamachine hadoop
转自：http://dev.yesky.com/296/35381296.shtml。　　Hadoop通常被认定是能够帮助你解决所有问题的唯一方案。当人们提到“大数据”或是“数据分析”等相关问题的时候，会听到脱口而出的回答：Hadoop! 实际上Hadoop被设计和建造出来，是用来解决一系列特定问题的。对某些问题来说，Hadoop至多算是一个不好的选择，对另一些问题来说，选择Ha
YII findAll的用法 dcj3sjt126com yii
看文档比较糊涂，其实挺简单的： $predictions=Prediction::model()->findAll("uid=:uid",array(":uid"=>10)); 第一个参数是选择条件：”uid=10″。其中:uid是一个占位符，在后面的array(“:uid”=>10)对齐进行了赋值；更完善的查询需要
vim 常用 NERDTree 快捷键 dcj3sjt126com vim
下面给大家整理了一些vim NERDTree的常用快捷键了，这里几乎包括了所有的快捷键了，希望文章对各位会带来帮助。切换工作台和目录 ctrl + w + h 光标 focus 左侧树形目录ctrl + w + l 光标 focus 右侧文件显示窗口ctrl + w + w 光标自动在左右侧窗口切换ctrl + w + r 移动当前窗口的布局位置 o 在已有窗口中打开文件、目录或书签，并跳
Java把目录下的文件打印出来蕃薯耀列出目录下的文件文件夹下面的文件目录下的文件
Java把目录下的文件打印出来 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 11:02:
linux远程桌面----VNCServer与rdesktop hanqunfeng Desktop
windows远程桌面到linux，需要在linux上安装vncserver，并开启vnc服务，同时需要在windows下使用vnc-viewer访问Linux。vncserver同时支持linux远程桌面到linux。 linux远程桌面到windows，需要在linux上安装rdesktop，同时开启windows的远程桌面访问。下面分别介绍，以windo
guava中的join和split功能 jackyrong java
guava库中，包含了很好的join和split的功能，例子如下： 1）将LIST转换为使用字符串连接的字符串 List<String> names = Lists.newArrayList("John", "Jane", "Adam", "Tom");
Web开发技术十年发展历程 lampcy android Web 浏览器 html5
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
架构师之mima-----------------mina的非NIO控制IOBuffer(说得比较好) nannan408 buffer
1.前言。如题。 2.代码。 IoService IoService是一个接口，有两种实现：IoAcceptor和IoConnector；其中IoAcceptor是针对Server端的实现，IoConnector是针对Client端的实现；IoService的职责包括： 1、监听器管理 2、IoHandler 3、IoSession
ORA-00054:resource busy and acquire with NOWAIT specified Everyday都不同 oracle session Lock
[Oracle] 今天对一个数据量很大的表进行操作时，出现如题所示的异常。此时表明数据库的事务处于“忙”的状态，而且被lock了，所以必须先关闭占用的session。 step1，查看被lock的session： select t2.username, t2.sid, t2.serial#, t2.logon_time from v$locked_obj
javascript学习笔记 tntxia JavaScript
javascript里面有6种基本类型的值:number、string、boolean、object、function和undefined。number：就是数字值，包括整数、小数、NaN、正负无穷。string:字符串类型、单双引号引起来的内容。boolean:true、false object:表示所有的javascript对象，不用多说function:我们熟悉的方法，也就是
Java enum的用法详解 xieke90 enum 枚举
Java中枚举实现的分析：示例： public static enum SEVERITY{ INFO,WARN,ERROR } enum很像特殊的class，实际上enum声明定义的类型就是一个类。而这些类都是类库中Enum类的子类 (java.l