Jayxbx

David Silver 强化学习Lecture5：Model-Free Control

David Silver强化学习系列博客的内容整理自David Silver 强化学习的PPT和知乎叶强强化学习专栏。

1 Introduction

第四章节的内容讲述了agent在不依赖模型的情况下如何进行预测，也就是求解在给定策略下的状态价值或行为价值函数。本章节则主要讲解在不基于模型的条件下如何通过agent的学习优化价值函数，同时改善自身行为的策略以最大化获得累积奖励的过程，这一过程也称作不基于模型的控制。
生活中有很多关于优化控制的问题，比如控制一个大厦内的多个电梯使得效率最高；机器人足球世界杯上控制机器人球员等等。所有的这些问题要么我们对其环境动力学的特点无法掌握，但是我们可以去经历、去尝试构建理解环境的模型；要么虽然问题的环境动力学特征是已知的，但由问题的规模太大以至于计算机根据一般算法无法高效的求解，除非使用采样的办法。无论问题是属于两种情况中的哪一个，不基于模型的控制都能较好的解决。

On and Off-Policy Learning

根据优化控制过程中是否利用已有或他人的经验策略来改进我们自身的控制策略，我们可以将这种优化控制分为两类：
现时策略学习（On-policy Learning）：其基本思想是agent已有一个策略，并且遵循这个策略进行采样，或者说采取一系列该策略下产生的行为，根据这一系列行为得到的奖励，更新状态函数，最后根据该更新的价值函数来优化策略得到较优的策略。要优化的策略就是当前遵循的策略。
离线策略学习（Off-policy Learning）: 其基本思想是，虽然agent有一个自己的策略，但是agent并不针对这个策略进行采样，而是基于另一个策略进行采样，这另一个策略可以是先前学习到的策略，也可以是人类的策略等一些较为优化成熟的策略，通过观察基于这类策略的行为，或者说通过对这类策略进行采样，得到这类策略下的各种行为，继而得到一些奖励，然后更新价值函数，即在自己的策略形成的价值函数的基础上观察别的策略产生的行为，以此达到学习的目的。这种学习方式类似于“站在别人的肩膀上可以看得更远”。

2 On-Policy Monte-Carlo Control

2.1 Generalised Policy Iteration (Refresher)

通用策略迭代的核心是在两个交替的过程之间进行策略优化。一个过程是策略评估，另一个是改善策略。如上图的三角形区域所示，从一个策略 π 和一个价值函数 V 开始，每一次箭头向上代表着利用当前策略进行价值函数的更新，每一次箭头向下代表着根据更新的价值函数贪婪地选择新的策略，说它是贪婪的，是因为每次都采取转移到可能的、状态函数最高的新状态的行为。最终将收敛至最优策略和最优价值函数。
当使用动态规划算法来改善策略是需要知道某一状态的所有后续状态及状态间转移概率： π′(s)=argmaxa∈ARas+Pass′V(s′)

2.1.1 Generalised Policy Iteration With Monte-Carlo Evaluation

动态规划的方法是否适用于模型未知的蒙特卡洛学习呢？答案是否定的。我们无法通过分析、比较基于状态的价值来改善贪婪策略，因为不知道上述公式中当前状态的所有后续状态，以及他们的状态转移概率，进而无法确定在当前状态下采取怎样的行为更合适。
这不难理解，拿第二章节提到的学生马尔科夫决策过程的例子来说，假如需要在贪婪策略下确定学生处在第三节课时的价值，你需要比较学生在第三节课后所能采取的全部两个行为“Study”和“Pub”后状态的价值。选择“Study”比较简单，在获得一个价值为10的即时奖励后进入价值恒为 0的“Sleep”状态，此时得到在“第三节课”后选择“Study”的价值为 +10；而选择“Pub”时，计算就没那么简单了，因为在“Pub”过后，学生自己并不确定将回到哪个状态，因此无法直接用某一个状态的价值来计算“Pub”行为的价值。环境按照一定的概率（分别为 0.2, 0.4, 0.4）把学生重新分配至“第一节课”、“第二节课”或“第三节课”。也只有再知道这三个概率值后，我们才能根据后续这三个状态的价值计算得到“Pub”行为的价值为 +9.4，根据贪婪策略，学生在“第三节课”的价值为 +10。在基于采样的强化学习时，我们无法事先知道这些状态之间在不同行为下的转移概率，因而无法基于状态价值来改善我们的贪婪策略。

2.1.2 Model-Free Policy Iteration Using Action-Value Function

    生活中也是如此，有时候一个人给自己制定了一个价值很高的目标，却发现不知采取如何的行为来达到这个目标。与其花时间比较目标与现实的差距，倒不如立足于当下，在所有可用的行为中选择一个最高价值的行为，如此来接近目标。
    因此，解决这一问题的方法是，使用行为价值函数 Q(s,a) 代替状态价值函数：
π′(s)=argmaxa∈AQ(s,a)

    这样做的目的是可以改善策略而不用知道整个模型，只需要知道在某个状态下采取什么什么样的行为使得行为价值最大即可。具体是这样：我们从一个初始的 Q 和策略 π 开始，先根据这个策略更新每一个状态行为对的 q 值， s 随后基于更新的 Q 确定改善的贪婪算法。
    即使这样，至少还存在一个问题，即当我们每次都使用贪婪算法来改善策略的时候，将很有可能由于没有足够的采样经验而导致产生一个并不是最优的策略，我们需要不时的尝试一些新的行为，这就是探索（Exploration），使用一个示例来解释：

    如图：在你面前有两扇门，考虑如下的行为、奖励并使用贪婪算法改善策略：
    你打开左侧门得到即时奖励为０： V(left)=0 ；
    你打开右侧门得到即时奖励１： V(right)=+1 ；
    在使用贪婪算法时，接下来你将会继续打开右侧的门，而不会尝试打开左侧门
    你打开右侧门得到即时奖励＋３： V(right)=(1+3)/2=+2 ；
    你打开右侧门得到即时奖励＋2： V(right)=(1+3+2)/3=+2 ；
    这种情况下，打开右侧门是否就一定是最好的选择呢？答案显而易见是否定的。因此完全使用贪婪算法改善策略通常不能得到最优策略。

2.2 Exploration

2.2.1 ϵ -Greedy Exploration

    再举一个例子。
    假设你刚搬到一个街区，街上有两家餐馆，你决定去两家都尝试一下并给自己的就餐体验打个分，分值在 0-10 分之间。你先体验了第一家，觉得一般，给了 5 分；过了几天又去了第二家，觉得不错，给了 8 分。此时，如果你选择贪婪策略，每次只去评分高的餐馆就餐，那么下一次你将继续选择去第二家餐馆。假设这次体验差了点，给了 6 分。经过了三次体验后，你对第一家餐馆的评分为 5 分，第二家的评分平均下来是 7 分。之后你仍然选择贪婪策略，下一次体验还去了第二家，假设体验为 7 分，那么经过这 4 次体验之后，你能确认对你来说第二家餐馆就一定比第一家好吗？答案是否定的，原因在于你只尝试了一次去第一家就餐，仅靠这一次的体验是不可靠的。贪婪策略并不意味着你今后就一定无法选择第一家就餐，当你每次依据贪婪算法在第二家餐馆就餐时，如果体验分降低导致平均分低于第一家的评分 5 分，那么下一次你将选择去第一家餐馆。不过如果你对第二家餐馆的平均体验分一直在第一家之上，那么依据贪婪策略将无法再去第一家参观体验了，也许你第一次去第一家餐馆就餐时恰好碰到他们刚开张管理还不完善的情况，而现在已经做得很好了。贪婪策略将使你错失第一家餐馆的许多美味了。采取贪婪策略还有一个问题，就是如果这条街上新开了一家餐馆，如果你对没有去过的餐馆评分为 0 的话，你将永远不会去尝试这家餐馆。
    贪婪策略产生问题的根源是无法保证持续的探索，为了解决这一问题，我们需要引入一个随机机制，以一定的概率选择当前最好的策略，同时给其它可能的行为一定的几率，这就是 ϵ -贪婪探索。
     ϵ -贪婪探索的目标使得某一状态下所有可能的行为都有一定非零几率被选中执行，也就保证了持续的探索， 1−ϵ 的概率下选择当前认为最好的行为，而 ϵ 的概率在所有可能的 m 个行为中选择（也包括那个当前最好的行为）。数学表达式如下：

    有一个定理：使用 ϵ -贪婪探索策略，对于任意一个给定的策略 π ，我们在评估这个策略的同时也总在改善它。

2.3 Monte-Carlo Control

2.3.1 Monte-Carlo Policy Iteration

如此，我们最终可以看到蒙特卡洛控制的全貌：使用Ｑ函数进行策略评估，使用 ϵ -贪婪探索来改善策略。该方法最终可以收敛至最优策略。如下图所示：

图中每一个向上或向下的箭头都对应着多个Episode。也就是说我们一般在经历了多个Episode之后才进行依次Ｑ函数更新或策略改善。

2.3.2 GLIE

    但是实际上我们也可以在每经历一个Episode之后就更新Ｑ函数或改善策略。但不管使用那种方式，在 ϵ -贪婪探索算下我们始终只能得到基于某一策略下的近似Ｑ函数，且该算法没有一个终止条件，因为它一直在进行探索。因此我们必须关注以下两个方面：一方面我们不想丢掉任何更好信息和状态，想继续探索一些随机行为，保证没有丢掉更好的策略；另一方面随着我们策略的改善我们最终希望能终止于某一个最优策略，因为一个最优策略不应该包括一些随机行为。

    为此引入了另一个理论概念：GLIE。直白的说，在有限的时间内进行无限可能的探索。它包含两层意思:
一是所有的状态行为对会被无限次探索，即确保探索到了所有的状态和行为： limk→∞Nk(s,a)=∞ ；
二是另外随着采样趋向无穷多，策略收敛至一个贪婪策略： limk→∞πk(a|s)=1[a=argmaxa′∈AQk(s,a′)]
    如果在使用 ϵ -贪婪策略时，能令 ϵ 随采样次数的无限增加而趋向于 0 就符合 GLIE。例如我们取 ϵ=1/k （ k 为探索的Episode数目），那么该 ϵ 贪婪蒙特卡洛控制就具备GLIE特性。基于 GLIE 的蒙特卡洛控制流程如下：

3 On-Policy Temporal-Difference Learning

3.1 MC vs. TD Control

TD相比MC有很多优点：低方差，可以在线实时学习，可以学习不完整Episode等。在控制问题上使用 TD 学习同样具备上述的一些优点。这就是Sarsa和Sarsa( λ )算法。

3.2 Sarsa

Updating Action-Value Functions with Sarsa

    SARSA的名称来源于下图所示的序列描述：针对一个状态 S ，agent通过行为策略产生一个特定的行为 A ，执行该行为进而产生一个状态行为对 (S,A) ，与环境交互，环境收到agent的行为后会告诉agent即时奖励 R 以及后续进入的状态 S′ ；接下来agent再次遵循现有的行为策略产生一个新行为 A′ ，agent此时并不执行该行为，而是根据当前的行为价值函数得到后一个状态行为对 (S′,A′) 的价值 Q ，利用这个 Q 值和前面的即时奖励 R 更新前一个状态行为对 (S,A) 的价值。

    与MC算法不同的是，Sarsa算法在单个状态序列内的每一个时间步，在状态S下采取一个行为A到达状态S’后都要更新状态行为对 (S,A) 的价值 Q(S,A)。这一过程同样使用 ϵ-贪婪策略进行策略迭代：
     Q(S,A)←Q(S,A)+α(R+γQ(S′,A′)−Q(S,A))
    在 Sarsa 算法中， Q(S,A) 的值使用一张大表来存储的，这不是很适合解决规模很大的问题；对于每一个状态序列Episode，在 S 状态时采取的行为 A 是基于当前行为策略的，同时该行为也是实际Episode发生的行为，在更新状态行为对 (S,A) 的价值的循环里，agent并不实际执行在 S′ 下的 A′ 行为，而是将行为 A′ 留到下一个循环执行。
    在更新行为价值时，参数 α 是学习速率参数， γ 是衰减因子。当行为策略满足前文所述的GLIE 特性，同时学习速率参数 α 满足： ∑t=1∞αt=∞,且∑t=1∞α2t<∞ 时，Sarsa算法将收敛至最优策略和最优价值函数。

3.3 Example：Sarsa on the Windy Gridworld

    如图所示，使用一个经典环境有风格子世界来解释 Sarsa 算法的学习过程。环境是一个10×7的长方形格子世界，标记有一个起始位置 S 和一个终止目标位置 G，格子下方的数字表示对应的列中一定强度的风。当agent进入该列的某个格子时，会按图中箭头所示的方向自动移动数字表示的格数，借此来模拟世界中风的作用。同样格子世界是有边界的，agent任意时刻只能处在世界内部的一个格子中。agent并不清楚这个世界的构造以及有风，也就是说它不知道格子是长方形的，也不知道边界在哪里，也不知道自己在里面移动移步后下一个格子与之前格子的相对位置关系，当然它也不清楚起始位置、终止目标的具体位置。但是agent会记住曾经经过的格子，下次在进入这个格子时，它能准确的辨认出这个格子曾经什么时候来过。格子可以执行的行为是朝上、下、左、右移动一步。现在要求解的问题是agent应该遵循怎样的策略才能尽快的从起始位置到达目标位置。
    首先将这个问题用强化学习的语言再描述一遍。这是一个不基于模型的控制问题，也就是要在不掌握马尔科夫决策过程的情况下寻找最优策略。环境世界中每一个格子可以用水平和垂直坐标来描述，如此构成拥有 70 个状态的状态空间 S。行为空间 A 具有四个基本行为。环境的的动力学特征不被agent掌握，但agent每执行一个行为，会进入一个新的状态，该状态由环境告知agent，但环境不会直接告诉agent该状态的坐标位置。即时奖励是根据任务目标来设定，现要求尽快从起始位置移动到目标位置，我们可以设定每移动一步只要不是进入目标位置都给予一个 -1 的惩罚，直至进入目标位置后获得奖励 0 同时永久停留在该位置。
    agent通过学习发现下面的行为序列（共15步）能够得到最大程度的奖励: -14
    右、右、右、右、右、右、右、右、右、下、下、下、下、左、左
    agent找到该最优策略的进度以及最优策略下agent从起始状态到目标状态的行为轨迹如图：

    在个体找到这个最优行为序列的早期，由于个体对环境一无所知，SARSA算法需要尝试许多不同的行为，因此在一开始的2000多步里，个体只能完成少数几个完整的Episode，但随着个体找到一条链接起点到终点的路径，其快速优化策略的能力就显现的很明显了，因为它不需要走完一个Episode才能更新行为价值，而是每走一步就根据下一个状态能够得到的最好价值来更新当前状态的价值。

3.4 Sarsa(λ)

3.4.1 n-Step Sarsa

    根据前面的n-步收获，类似的可以引出一个 n-步 Sarsa 的概念。

    这里的 qt 对应的是一个状态行为对 <st,at> ，表示的是在某个状态下采取某个行为的价值大小。如果 n=1 ，则表示状态行为对 <st,at> 的 Q 价值可以用两部分表示，一部分是离开状态 st 得到的即时奖励 Rt+1 ，即时奖励只与状态有关，与该状态下采取的行为无关；另一部分是新状态行为对 <st+1,at+1> 的 Q 价值：环境给了个体一个新状态 st+1 ，观察在 st+1 状态时基于当前策略得到的行为 at+1 时的 Q(st+1,at+1) ，后续的 Q 价值考虑衰减系数。当 n=2 时，就向前用 2 步的即时奖励，然后再用新状态的 Q 价值代替；如果 n=∞ ，则表示一直用即时奖励计算 Q 值，直至Episode结束，agent进入终止状态，获得终止状态的即时奖励。
    定义n-步Q收获（Q-return）：
     q(n)t=Rt+1+γRt+2+...+γn−1Rt+n+γnQ(St+n,At+n)
    上式和之前的n-步G收获很相似，这里的n-步Q收获，Q是包含行为的，也就是在当前策略下基于某一状态产生的行为。
    有了如上定义，可以把n-步Sarsa用n-步Q收获来表示，如下式：
     Q(St,At)←Q(St,At)+α[q(n)t−Q(St,At)]
    类似于 TD(λ), 可以给 n-步 Q 收获中的每一步收获分配一个权重，并按权重对每一步 Q 收获求和，那么将得到 qλ 收获，它结合了所有 n-步 Q 收获：
     qλt=(1−λ)∑n=1∞λn−1q(n)t

3.4.2 Forward View Sarsa(λ)

    如果用某一状态的 qλ 收获来更新状态行为对的 Q 值，那么可以表示称如下的形式：
     Q(St,At)←Q(St,At)+α(q(λ)t−Q(St,At))
    这是Sarsa(λ) 的前向认识，使用它更新 Q 价值需要遍历完整的状态序列。

3.4.3 Backward View Sarsa(λ)

    与TD(λ)的反向认识一样，引入效用追踪（Eligibility Trace）概念，不同的是这次的E值针对的不是一个状态，而是一个状态行为对：
     E0(s,a)=0
     Et(s,a)=γλEt−1(s,a)+1(St=s,At=a)
    它体现的是一个结果与某一个状态行为对的因果关系，与得到结果最近的状态行为对，以及那些在此之前频繁发生的状态行为对对得到这个结果的影响最大。
    下式是引入ET概念的 SARSA(λ) 之后的Q值更新描述：

    引入ET概念，同时使用 SARSA(λ) 将可以更有效的在线学习，因为不必要学习完整的Episode，数据用完即可丢弃。ET通常也是更多应用在在线学习算法中(online algorithm)。

3.4.4 Sarsa(λ) Gridworld Example

    接下来用格子世界的例子具体解释了 Sarsa 和 Sarsa(λ) 算法的区别：假设图最左侧描述的路线是agent采取两种算法中的一个得到的一个完整状态序列的路径。为了下文更方便描述、解释两个算法之间的区别，先做几个合理的小约定：
1) 认定每一步的即时奖励为 0，直到终点处即时奖励为 1；
2) 根据算法，除了终点以外的任何状态行为对的 Q 值可以在初始时设为任意的，但我们设定所有的 Q 值均为 0；
3) 该路线是agent第一次找到终点的路线。
Sarsa（0）算法：
    由于是现时策略学习，一开始个体对环境一无所知，即所有的 Q 值均为 0，它将随机选取移步行为。在到达终点前的每一个位置 S ，agent依据当前策略，产生一个移步行为，执行该行为，环境会将其放置到一个新位置 S' ，同时给以即时奖励 0 ，在这个新位置上，根据当前的策略它会产生新位置下的一个行为，agent不执行该行为，仅仅在表中查找新状态下新行为的 Q 值，由于 Q = 0，依据更新公式，它将把刚才离开的位置以及对应的行为的状态行为对价值 Q(S,A) 更新为 0。如此直到个体最到达终点位置 SG ，它获得一个即时奖励 1 ，此时agent会依据公式更新其到达终点位置前所在那个位置（暂用 SH 表示，也就是终点位置下方，向上的箭头所在的位置）时采取向上移步的那个状态行为对价值 Q(SH,Aup) ，它将不再是 0，这是agent在这个状态序列中唯一一次用非 0 数值来更新 Q 值。这样完成一个Episode，此时agent已经并只进行了一次有意义的行为价值函数的更新；同时依据新的价值函数产生了新的策略。这个策略绝大多数与之前的相同，只是当agent处在特殊位置 SH 时将会有一个近乎确定的向上的行为。这里请不要误认为 Sarsa 算法只在经历一个完整的状态序列之后才更新，在这个例子中，由于我们的设定，它每走一步都会更新，只是多数时候更新的数据和原来一样罢了。
    此时如果要求agent继续学习，则环境将其放入起点。个体的第二次寻路过程一开始与首次一样都是盲目随机的，直到其进入终点位置下方的位置 SH ，在这个位置，agent更新的策略将使其有非常大的几率选择向上的行为直接进入终点位置 SG 。
    同样，经过第二次的寻路，agent了解到到达终点下方的位置 SH 价值比较大，因为在这个位置直接采取向上移步的行为就可以拿到到达终点的即时奖励。因此它会将那些通过移动一步就可以到达 SH 位置的其它位置以及相应的到达该位置位置所要采取的行为对所对应的价值进行提升。如此反复，如果采用贪婪策略更新，agent最终将得到一条到达终点的路径，不过这条路径的倒数第二步永远是在终点位置的下方。如果采用 ϵ -贪婪策略更新，那么个体还会尝试到终点位置的左上右等其它方向的相邻位置价值也比较大，此时个体每次完成的路径可能都不一样。通过重复多次搜索，这种 Q 值的实质有意义的更新将覆盖越来越多的状态行为对，agent在早期采取的随机行为的步数将越来越少，直至最终实质性的更新覆盖到起始位置。此时agent将能直接给出一条确定的从起点到终点的路径。
Sarsa(λ) 算法：
    该算法同时还针对每一次状态序列维护一个关于状态行为对 (S,A) 的 E 表，初始时 E 表值均为 0。当agent首次在起点 S0 决定移动一步 A0 (假设向右) 时，它被环境告知新位置为 S1 ，此时发生如下事情：
    首先，agent会做一个标记，使 E(S0,A0) 的值增加 1，表明agent刚刚经历过这个事件 (S0,A0) ；
    其次，它要估计这个事件的对于解决整个问题的价值，也就是估计TD误差，此时依据公式结果为 0，说明agent认为在起点处向右走没什么价值，这个“没有什么价值”有两层含义：不仅说明在 S0 处往右目前对解决问题没有积极帮助，同时表明agent认为所有能够到达 S0 状态的状态行为对的价值没有任何积极或消极的变化。
    随后，agent将要更新该状态序列中所有已经经历的 Q(S,A) 值，由于存在 E 值，那些在 (S0,A0) 之前近期发生或频繁发生的 (S,A) 的 Q 值将改变得比其它 Q 值明显些，此外agent还要更新其 E 值，以备下次使用。对于刚从起点出发的agent，这次更新没有使得任何 Q 值发生变化，仅仅在 E(S0,A0) 处有了一个实质的变化。随后的过程类似，agent有意义的发现就是对路径有一个记忆，体现在 E 里，具体的 Q 值没发生变化。这一情况直到agent到达终点位置时发生改变。此时agent得到了一个即时奖励 1，它会发现这一次变化（从 SH 采取向上行为 Aup 到达 SG ）价值明显，它会计算这个 TD误差为 1，同时告诉整个经历过程中所有 (S,A) ，根据其与 (SH,Aup) 的密切关系更新这些状态行为对的价值 Q ，agent在这个状态序列中经历的所有状态行为对的 Q 值都将得到一个非 0 的更新，但是那些在个体到达 SH 之前就近发生以及频繁发生的状态行为对的价值提升得更加明显。
    在图示的例子中没有显示某一状态行为频发的情况，如果agent在寻路的过程中绕过一些弯，多次到达同一个位置，并在该位置采取的相同的动作，最终agent到达终止状态时，就产生了多次发生的 (S,A) ，这时的 (S,A) 的价值也会得到较多提升。也就是说，agent每得到一个即时奖励，同时会对所有历史事件的价值进行依次更新，当然那些与该事件关系紧密的事件价值改变的较为明显。这里的事件指的就是状态行为对。在同一状态采取不同行为是不同的事件。
    当agent重新从起点第二次出发时，它会发现起点处向右走的价值不再是 0。如果采用贪婪策略更新，agent将根据上次经验得到的新策略直接选择右走，并且一直按照原路找到终点。如果采用 ϵ-贪婪策略更新，那么agent还会尝试新的路线。由于为了解释方便，做了一些约定，这会导致问题并不要求agent找到最短一条路径，如果需要找最短路径，需要在每一次状态转移时给agent一个负的奖励。
    Sarsa(λ)算法里在状态每发生一次变化后都对整个状态空间和行为空间的Q和E值进行更新，而事实上在每一个Episode里，只有agent经历过的状态行为对的E才可能不为0，为什么不仅仅对该Episode涉及到的状态行为对进行更新呢？理论上是可以仅对Episode里涉及的状态行为对的E和Q进行更新的，不过这要额外维护一个表，而往这个额外的表里添加新的状态行为对的E和Q值比更新总的状态行为空间要麻烦，特别是在早期agent没有一个较好的策略的时候需要花费很长很长时间才能找到终点位置，这在一定程度上反而没有更新状态空间省时。不过随着学习深入、策略得到优化，此表的规模会变小。

4 Off-Policy Learning

现时策略学习的特点就是产生实际行为的策略与更新价值 (评价) 所使用的策略是同一个策略，而借鉴策略学习 (oﬀ-policy learning) 中产生指导自身行为的策略 µ(a|s) 与评价策略 π(a|s) 是不同的策略，具体地说，agent通过策略 µ(a|s) 生成行为与环境发生实际交互，但是在更新这个状态行为对的价值时使用的是目标策略 π(a|s) 。目标策略 π(a|s) 多数是已经具备一定能力的
策略，例如人类已有的经验或其他个体学习到的经验。借鉴策略学习相当于站在目标策略 π(a|s) 的“肩膀”上学习。借鉴策略学习根据是否经历完整的状态序列可以将其分为基于蒙特卡洛的和基于 TD 的。基于蒙特卡洛的借鉴策略学习目前认为仅有理论上的研究价值，在实际中用处不大。这里主要讲述常用借鉴策略 TD 学习。

4.1 Importance Sampling for Off-Policy TD

    借鉴学习TD学习任务就是使用TD方法在目标策略 π(a|s) 的基础上更新行为价值，进而优化行为策略：
     V(St)←V(St)+α[π(At|St)µ(At|St)(Rt+1+γV(St+1))−V(St)]
    对于上式，我们可以这样理解：agent处在状态 St 中，基于行为策略 µ 产生了一个行为 At ，执行该行为后进入新的状态 St+1 ，借鉴策略学习要做的事情就是，比较借鉴策略和行为策略在状态 St 下产生同样的行为 At 的概率的比值，如果这个比值接近 1 ，说明两个策略在状态 St 下采取的行为 At 的概率差不多，此次对于状态 St 价值的更新同时得到两个策略的支持。如果这一概率比值很小，则表明借鉴策略 π 在状态 St 下选择 At 的机会要小一些，此时为了从借鉴策略学习，我们认为这一步状态价值的更新不是很符合借鉴策略，因而在更新时打些折扣。类似的，如果这个概率比值大于 1，说明按照借鉴策略，选择行为 At 的几率要大于当前行为策略产生 At 的概率，此时应该对该状态的价值更新就可以大胆些。

Q-Learning

    借鉴策略 TD学习中一个典型的行为策略 µ 是基于行为价值函数 Q(s,a) ϵ -贪婪策略，借鉴策略 π 则是基于 Q(s,a) 的完全贪婪策略，这种学习方法称为 Q 学习 (Q learning)。
    Q 学习的目标是得到最优价值 Q(s,a) ，在 Q 学习的过程中， t 时刻的与环境进行实际交互的行为 At 由策略 µ 产生： At∼µ(⋅|St)
    其中策略 µ 是一个 ϵ-贪婪策略。 t+1 时刻用来更新 Q 值的行为 A't+1 由下式产生： A't+1∼π(⋅|St+1)
    其中策略 π 是一个完全贪婪策略。 Q(St,At) 的按下式更新：
     Q(St,At)←Q(St,At)+α(Rt+1+γQ(St+1,A')−Q(St,At))
    其中， Rt+1+γQ(St+1,A') 部分的 TD 目标是基于借鉴策略 π 产生的行为 A′ 得到的 Q 值。根据这种价值更新的方式，状态 St 依据 ϵ-贪婪策略得到的行为 At 的价值将朝着 St+1 状态下贪婪策略确定的最大行为价值的方向做一定比例的更新。这种算法能够使个体的行为策略策略 µ 更加接近贪婪策略，同时保证保证个体能持续探索并经历足够丰富的新状态。并最终收敛至最优策略和最优行为价值函数。
     Q 学习具体的行为价值更新公式：
     Q(St,At)←Q(St,At)+α(Rt+1+γmaxa′Q(St+1,a′)−Q(St,At))

你可能感兴趣的:(强化学习)

【心灵鸡汤】深度学习技能形成树：从零基础到AI专家的成长路径全解析智算菩萨人工智能深度学习
引言：技能树的生长哲学在这个人工智能浪潮汹涌的时代，深度学习犹如一棵参天大树，其根系深深扎入数学与计算科学的沃土，主干挺拔地承载着机器学习的核心理念，而枝叶则繁茂地延伸至计算机视觉、自然语言处理、强化学习等各个应用领域。对于初入此领域的新手而言，理解这棵技能树的生长规律，掌握其形成过程中的关键节点和发展阶段，将直接决定其在人工智能道路上能够走多远、攀多高。技能树的概念源于游戏设计，但在学习深度学习
【机器学习笔记 Ⅱ】10 完整周期
机器学习的完整生命周期（End-to-EndPipeline）机器学习的完整周期涵盖从问题定义到模型部署的全过程，以下是系统化的步骤分解和关键要点：1.问题定义（ProblemDefinition）目标：明确业务需求与机器学习任务的匹配性。关键问题：这是分类、回归、聚类还是强化学习问题？成功的标准是什么？（如准确率>90%、降低10%成本）输出：项目目标文档（含评估指标）。2.数据收集（DataC
大模型RLHF强化学习笔记（二）：强化学习基础梳理Part2 Gravity! 大模型笔记大模型 LLM 强化学习人工智能
【如果笔记对你有帮助，欢迎关注&点赞&收藏，收到正反馈会加快更新！谢谢支持！】一、强化学习基础1.4强化学习分类根据数据来源划分Online：智能体与环境实时交互，如Q-Learning、SARSA、Actor-CriticOffline：智能体使用预先收集的数据集进行学习根据策略更新划分On-Policy：学习和行为策略是相同的，数据是按照当前策略生成的，如SARSAOff-Policy：学习策
爆改RAG！用强化学习让你的检索增强生成系统“开挂”——从小白到王者的实战指南许泽宇的技术分享人工智能
“RAG不准？RL来救场！”——一位被RAG气哭的AI工程师前言：RAG的烦恼与AI炼丹师的自我修养在AI圈混久了，大家都知道RAG（Retrieval-AugmentedGeneration，检索增强生成）是大模型落地的“万金油”方案。无论是企业知识库、智能问答，还是搜索引擎升级，RAG都能插上一脚。但你用过RAG就知道，理想很丰满，现实很骨感。明明知识库里啥都有，问个“量子比特的数学表达式”，
机器学习18-强化学习RLHF 坐吃山猪机器学习机器学习人工智能
机器学习18-强化学习RLHF1-什么是RLHFRLHF（ReinforcementLearningfromHumanFeedback）即基于人类反馈的强化学习算法，以下是详细介绍：基本原理RLHF是一种结合了强化学习和人类反馈的机器学习方法。传统的强化学习通常依赖于预定义的奖励函数来指导智能体的学习，而RLHF则通过引入人类的反馈来替代或补充传统的奖励函数。在训练过程中，人类会对智能体的行为或输
策略梯度在网络安全中的应用：AI如何防御网络攻击 AI智能探索者 web安全人工智能安全 ai
策略梯度在网络安全中的应用：AI如何防御网络攻击关键词：策略梯度、网络安全、AI防御、强化学习、网络攻击、入侵检测、自适应防御摘要：本文将探讨策略梯度这一强化学习算法在网络安全领域的创新应用。我们将从基础概念出发，逐步揭示AI如何通过学习网络攻击模式来构建自适应防御系统，分析其核心算法原理，并通过实际代码示例展示实现过程。文章还将讨论当前应用场景、工具资源以及未来发展趋势，为读者提供对这一前沿技术
2024大模型秋招LLM相关面试题整理 AGI大模型资料分享官人工智能深度学习机器学习自然语言处理语言模型 easyui
0一些基础术语大模型：一般指1亿以上参数的模型，但是这个标准一直在升级，目前万亿参数以上的模型也有了。大语言模型（LargeLanguageModel，LLM）是针对语言的大模型。175B、60B、540B等：这些一般指参数的个数，B是Billion/十亿的意思，175B是1750亿参数，这是ChatGPT大约的参数规模。强化学习：（ReinforcementLearning）一种机器学习的方法，
【深度学习】强化学习（Reinforcement Learning, RL）主流架构解析烟锁池塘柳0 机器学习与深度学习深度学习人工智能机器学习
强化学习（ReinforcementLearning,RL）主流架构解析摘要：本文将带你深入了解强化学习（ReinforcementLearning,RL）的几种核心架构，包括基于价值（Value-Based）、基于策略（Policy-Based）和演员-评论家（Actor-Critic）方法。我们将探讨它们的基本原理、优缺点以及经典算法，帮助你构建一个清晰的RL知识体系。文章目录强化学习（Rei
返利佣金最高软件的技术壁垒：基于强化学习的动态佣金算法架构揭秘
返利佣金最高软件的技术壁垒：基于强化学习的动态佣金算法架构揭秘大家好，我是阿可，微赚淘客系统及省赚客APP创始人，是个冬天不穿秋裤，天冷也要风度的程序猿！一、背景介绍在返利佣金软件中，动态佣金算法是提升用户活跃度和平台收益的关键技术。传统的佣金算法通常是静态的，无法根据用户的实时行为和市场动态进行调整。为了突破这一技术瓶颈，我们引入了强化学习（ReinforcementLearning,RL），通
农业物联网平台中的灌溉系统研究 sj52abcd 农业物联网和人工智能物联网数据分析 python 大数据毕业设计
研究目的本研究旨在开发一个基于Python语言的农业物联网平台，整合土壤墒情监测与精准灌溉系统，通过现代信息技术手段实现农业生产的智能化管理。系统将采用Python作为主要开发语言，结合MySQL数据库进行数据存储与管理，利用ECharts.js实现数据可视化展示，并引入机器学习和强化学习算法优化灌溉决策。具体目标包括：1)构建实时土壤墒情监测网络，通过物联网传感器采集土壤温湿度、电导率等关键参数
用于人形机器人强化学习运动的神经网络架构分析
1.引言：人形机器人运动强化学习中的架构探索人形机器人具备在多样化环境中自主运行的巨大潜力，有望缓解工厂劳动力短缺、协助居家养老以及探索新星球等问题。其拟人化的特性使其在执行类人操作任务（如运动和操纵）方面具有独特优势。深度强化学习（DRL）作为一种前景广阔的无模型方法，能够有效控制双足运动，实现复杂行为的自主学习，而无需显式动力学模型。1.1人形机器人运动强化学习的机遇与挑战尽管DRL取得了显著
人形机器人运动控制技术演进：从强化学习到神经微分方程的前沿解析
1.引言：人形运动控制的挑战与范式迁移人形机器人需在非结构化环境中实现双足行走、跑步、跳跃等复杂动作，其核心问题可归结为高维连续状态-动作空间的实时优化。传统方法（如基于模型的预测控制MPC）依赖精确的动力学建模，但在实际系统中面临以下瓶颈：模型失配：复杂接触动力学（如足-地交互）难以显式建模；计算瓶颈：高维非线性优化难以满足实时性需求；环境扰动敏感：传统控制器对未知干扰的鲁棒性不足。近年来，以强
NVIDIA Isaac GR00T N1.5 人形机器人强化学习入门教程（五）强化学习与机器人控制仿真机器人与具身智能人工智能机器人深度学习神经网络强化学习模仿学习具身智能
系列文章目录目录系列文章目录前言一、更深入的理解1.1实体化动作头微调1.1.1实体标签1.1.2工作原理1.1.3支持的实现1.2高级调优参数1.2.1模型组件1.2.1.1视觉编码器（tune_visual）1.2.1.2语言模型（tune_llm）1.2.1.3投影器（tune_projector）1.2.1.4扩散模型（tune_diffusion_model）1.2.2理解数据转换1.2
强化学习：Deep Deterministic Policy Gradient (DDPG) 学习笔记烨川南强化学习学习笔记算法人工智能机器学习
一、DDPG是什么？1.1核心概念DDPG=Deep+Deterministic+PolicyGradientDeep：使用深度神经网络和类似DQN的技术（经验回放、目标网络）Deterministic：输出确定的动作（而不是概率分布）PolicyGradient：基于策略梯度的方法，优化策略以最大化累积奖励1.2算法特点特性说明连续动作空间直接输出连续动作值（如方向盘角度、机器人关节扭矩）离线学
提升自动驾驶导航能力：基于深度学习的场景理解技术星辰和大海都需要门票路径规划算法自动驾驶深度学习人工智能
EnhancingAutonomousVehicleNavigationUsingDeepLearning-BasedSceneUnderstanding提升自动驾驶导航能力：基于深度学习的场景理解技术摘要-为应对复杂环境下的自动驾驶导航，系统高度依赖场景理解的准确性。本研究提出一种基于深度学习的新方法，将目标识别、场景分割、运动预测与强化学习相结合以提升导航性能。该方法首先采用U-Net架构分解
【EI复现】基于深度强化学习的微能源网能量管理与优化策略研究（Python代码实现）
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录1概述一、微能源网能量管理的基本概念与核心需求二、深度强化学习（DRL）在微能源网中的应用优势三、关键技术挑战四、现有基于DRL的优化策略案例五、相关研究文档的典型结构与撰写规范六、结论与未来方向2运行结果2.1有/无策略奖励2.2训练结果12.2训练结果23参考文献
强化学习贝尔曼方程推导愤怒的可乐强化学习人工智能概率论机器学习算法
引言强化学习中贝尔曼方程的重要性就不说了，本文利用高中生都能看懂的数学知识推导贝尔曼方程。回报折扣回报GtG_tGt的定义为：Gt=Rt+1+γRt+2+γ2Rt+3+⋯=∑k=0∞γkRt+k+1(1)G_t=R_{t+1}+\gammaR_{t+2}+\gamma^2R_{t+3}+\cdots=\sum_{k=0}^\infty\gamma^kR_{t+k+1}\tag1Gt=Rt+1+γR
强化学习RLHF详解贝塔西塔强化学习大模型人工智能深度学习机器学习算法语言模型
RLHF（ReinforcementLearningfromHumanFeedback）模型详解一、背景1.传统强化学习的局限性传统的强化学习（ReinforcementLearning,RL）依赖于预定义的奖励函数（RewardFunction），但在复杂任务（如自然语言生成、机器人控制）中，设计精确的奖励函数极为困难。例如：模糊目标：生成“高质量文本”难以量化，无法用简单的指标（如BLEU、R
强化学习【chapter0】-学习路线图明朝百晓生算法人工智能机器学习
前言：主要总结一下西湖大学赵老师的课程【强化学习的数学原理】课程：从零开始到透彻理解（完结）_哔哩哔哩_bilibili1️⃣基础阶段（Ch1-Ch7）：掌握表格型算法，理解TD误差与贝尔曼方程2️⃣进阶阶段（Ch8-Ch9）：动手实现DQN/策略梯度，熟悉PyTorch/TensorFlow3️⃣前沿阶段（Ch10：阅读论文（OpenAISpinningUp/RLlib文档）Chapter1：基
讯飞星火深度推理模型X1，为教育医疗带来革新
在科技飞速发展的今天，人工智能大模型已经成为推动各行业变革的重要力量。科大讯飞作为人工智能领域的佼佼者，其研发的星火深度推理模型X1，凭借独特的技术优势和强大的功能，为教育和医疗两大关乎国计民生的领域带来了前所未有的革新。技术原理与创新讯飞星火深度推理模型X1基于Transformer架构，并在此基础上进行了一系列创新。它通过大规模多阶段强化学习训练方法，在复杂推理、数学、代码、语言理解等场景全面
Instrct-GPT 强化学习奖励模型 Reward modeling 的训练过程原理实例化详解 John_今天务必休息一天 2_大语言模型基础 #2.2 生成式预训练语言模型GPT gpt log4j 语言模型人工智能自然语言处理算法
Instrct-GPT强化学习奖励模型Rewardmodeling的训练过程原理实例化详解一、批次处理的本质：共享上下文的比较对捆绑（1）为什么同一prompt的比较对必须捆绑？（2）InstructGPT的优化方案二、输入输出与损失函数的具体构造（1）输入输出示例（2）人工标注数据的处理（3）损失函数的计算过程（4）反向传播的核心逻辑三、为什么不需要人工标注分值？（1）排序数据的天然属性（2）避
人工智能-基础篇-2-什么是机器学习？（ML，监督学习，半监督学习，零监督学习，强化学习，深度学习，机器学习步骤等） weisian151 人工智能人工智能机器学习学习
1、什么是机器学习？机器学习（MachineLearning,ML）是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析等数学理论。其核心目标是让计算机通过分析数据，自动学习规律并构建模型，从而对未知数据进行预测或决策，而无需依赖显式的程序指令。基本思想：通过数据驱动的方式，使系统能够从经验（数据）中改进性能，形成对数据模式的抽象化表达。基本概念：模型：模型是对现实世界现
Keras环境复现代码（三） yanyiche_ keras 深度学习人工智能
DQN雅达利Breakout强化学习实验要求明确实验目的：学习和实现深度Q学习（DQN），这是一种结合了Q学习和深度神经网络的强化学习算法，用于解决复杂的决策问题。清楚实验原理：1、深度Q学习（DeepQ-Network）将卷积神经网络与Q学习结合，解决高维视觉输入的强化学习问题：2、经验回放：将状态转换存储到缓冲区，打破数据相关性，稳定训练。3、目标网络：定期更新目标Q值计算网络，减少训练中的目
Keras环境复现代码（二） yanyiche_ Keras 机器学习人工智能
PPOCartPole控制算法实践实验要求明确实验目的：学习和实现PPO算法，这是一种改进的策略梯度方法，通过限制策略更新的幅度来提高训练的稳定性。清楚实验原理：PPO算法是一种基于策略梯度的强化学习算法，它旨在解决传统策略梯度方法（如REINFORCE算法）在训练过程中可能出现的策略更新不稳定问题。PPO算法通过引入一种新的策略更新机制，限制每次更新的幅度，从而提高训练的稳定性和效率。PPO算法
行为正则化与顺序策略优化结合的离线多智能体学习算法
离线多智能体强化学习（MARL）是一个新兴领域，目标是在从预先收集的数据集中学习最佳的多智能体策略。随着人工智能技术的发展，多智能体系统在诸如自动驾驶、智能家居、机器人协作以及智能调度决策等方面展现了巨大的应用潜力。但现有的离线MARL方法也面临很多挑战，仍存在不协调行为和分布外联合动作的问题。为了应对这些挑战，中山大学计算机学院、美团履约平台技术部开展了学术合作项目，并取得了一些的成果，希望分享
利用视觉-语言模型搭建机器人灵巧操作的支架三谷秋水智能体大模型计算机视觉语言模型机器人人工智能计算机视觉机器学习
25年6月来自斯坦福和德国卡尔斯鲁厄理工的论文“ScaffoldingDexterousManipulationwithVision-LanguageModels”。灵巧机械手对于执行复杂的操作任务至关重要，但由于演示收集和高维控制的挑战，其训练仍然困难重重。虽然强化学习(RL)可以通过在模拟中积累经验来缓解数据瓶颈，但它通常依赖于精心设计的、针对特定任务的奖励函数，这阻碍了其可扩展性和泛化能力。
常见的强化学习算法分类及其特点 ywfwyht 人工智能算法分类人工智能
强化学习（ReinforcementLearning,RL）是一种机器学习方法，通过智能体（Agent）与环境（Environment）的交互来学习如何采取行动以最大化累积奖励。以下是一些常见的强化学习算法分类及其特点：1.基于值函数的算法这些算法通过估计状态或状态-动作对的价值来指导决策。Q-Learning无模型的离线学习算法。通过更新Q值表来学习最优策略。更新公式：Q(s,a)←Q(s,a)
星际争霸多智能体挑战赛（SMAC）资源存储库多智能体强化学习人工智能
目录TheStarCraftMulti-AgentChallenge星际争霸多智能体挑战赛Abstract摘要1Introduction1引言2RelatedWork2相关工作3Multi-AgentReinforcementLearning3多智能体强化学习Dec-POMDPs12-POMDPs（十二月-POMDP）Centralisedtrainingwithdecentralisedexec
AlphaStar 星际首秀，人工智能走向星辰大海谷歌开发者
文/王晶，资深工程师，GoogleBrain团队作者王晶，现为GoogleBrain团队的资深工程师，主要致力深度强化学习的研发，和DeepMind团队在强化学习的应用上有许多合作。北京时间1月25日凌晨2点，DeepMind直播了他们的AIAlphaStar和人类顶尖的职业电竞选手对战星际争霸2。根据DeepMind介绍，AlphaStar在2018年12月10日和19日先后以5：0全胜的战绩击
Deepoc大模型在半导体设计优化与自动化 Deepoch 自动化运维人工智能机器人单片机 ai 科技
大模型在半导体设计领域的应用已形成多维度技术渗透，其核心价值在于通过数据驱动的方式重构传统设计范式。以下从技术方向、实现路径及行业影响三个层面展开详细分析：参数化建模与动态调优基于物理的深度学习模型（如PINNs）将器件物理方程嵌入神经网络架构，实现工艺参数与电学性能的非线性映射建模。通过强化学习框架（如PPO算法）动态调整掺杂浓度、栅极长度等关键参数，在3nm节点下实现驱动电流提升18%的同时降
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {