Jayxbx

David Silver 强化学习Lecture4：Model-Free Prediction

David Silver强化学习系列博客的内容整理自David Silver 强化学习的PPT和知乎叶强强化学习专栏。

1 Introduction

前三节笔记中，通过动态规划能够解决环境已知的MDP问题，也就是已知 <S,A,P,R,γ> ，已知environment即已知转移矩阵 P 与reward函数 R 。但是很多问题中environment是未知的，不清楚做出了某个action之后会变到哪一个state，也不知道这个action好还是不好，在这种情况下需要解决的prediction和control问题就是Model-free prediction和Model-free control。显然这种新的问题只能从与environment的交互得到的experience中获取信息。
这一章节笔记要解决的问题是Model-free prediction，即未知environment的Policy evaluation，在给定的policy下，求解每个state的value function是多少。

2 Monte-Carlo Learning

2.1 Monte-Carlo Reinforcement Learning

    蒙特卡罗强化学习 (Monte-Carlo reinforcement learning, MC 学习)： 指在不清楚 MDP 状态转移概率和即时奖励的情况下，直接从经历完整的状态序列 (episode) 来估计状态的真实价值，通常情况下某状态的价值等于在多个episode中以该状态算得到的所有收获的平均。
    完整的状态序列 (complete episode)：指从某一个状态开始，agent与环境交互直到终止状态，环境给出终止状态的奖励为止。完整的状态序列不要求起始状态一定是某一个特定的状态，但是要求个体最终进入环境认可的某一个终止状态。
    比如，现评估某状态 s 的价值函数。我们采样了两个episode，从一个episode里面得到的回报是5，然后下一个episode里面的得到的回报是7，我们可以从起始状态来评估此状态的价值函数=（5+7）/2=6。
    注：收获不是针对Episode的，它存在于Episode内，针对于Episode中某一个状态。从这个状态开始经历完Episode时得到的有衰减的即时奖励的总和。从一个Episode中，我们可以得到该Episode内所有状态的收获。当一个状态在Episode内出现多次，该状态的收获有不同的计算方法，下文会讲到。
    蒙特卡罗强化学习有如下特点：不依赖状态转移概率，直接从经历过的完整的状态序列中学习，使用的思想就是用平均收获值代替状态价值。理论上完整的状态序列越多，结果越准确。

2.2 Monte-Carlo Policy Evaluation

    我们可以使用蒙特卡罗强化学习来评估一个给定的策略。基于特定策略 π 的一个 Episode信息可以表示为如下的一个序列： S1,A1,R2,S2,A2,...,St,At,Rt+1,...,Sk∼π
    其中， Rt+1 表示agent在状态 St 执行一个行为 At 后，离开该状态获得的即时奖励。很多时候，即时奖励只出现在Episode结束状态时，但不能否认在中间状态也可能有即时奖励。
     t 时刻状态 St 的收获可以表述为： Gt=Rt+1+γRt+2+...+γT−1RT
    其中， T 为终止时刻。该策略下某一状态 s 的价值： vπ(s)=Eπ[Gt|St=s]≈∑i=tNGiN
    在Monte-Carlo policy evaluation中，价值函数的取值从期望简化成了均值。当 N 逼近 ∞ 时，我们可以得到确切的函数期望值。

2.3 First-Visit Monte-Carlo Policy Evaluation

    不难发现，在蒙特卡罗算法评估策略时要针对多个包含同一状态的完整状态序列求收获继而再取收获的平均值。如果一个完整的状态序列中某一需要计算的状态出现在序列的多个位置，也就是说个体在与环境交互的过程中从某状态出发后又一次或多次返回到该状态。在这种情况下，根据收获的定义，在一个状态序列下，不同时刻的同一状态其计算得到的收获值是不一样的。我们有两种方法可以选择，一是仅把状态序列中第一次出现该状态时的收获值纳入到收获平均值的计算中；另一种是针对一个状态序列中每次出现的该状态，都计算对应的收获值并纳入到收获平均值的计算中。两种方法对应的蒙特卡罗评估分别称为：首次访问 (frst visit) 和每次访问 (every visit) 蒙特卡罗评估。
    首次访问蒙特卡罗评估： 给定一个策略，使用一系列完整Episode评估某一个状态s时，对于每一个Episode，仅当该状态第一次出现时列入计算。
    假设有 n 个episode，评估状态 s 。对于第一个episode，查找该episode中 s 第一次出现的位置，如果该episode中存在状态 s ，则计数器 N(s) 加1，并计算此时该状态的收获值 Gt 。对于第二个episode，也是如此…统计完 n 个episode后，计算平均值。

2.4 Every-Visit Monte-Carlo Policy Evaluation

    每次访问 (every visit) 蒙特卡罗评估：在给定一个策略，使用一系列完整Episode评估某一个状态 s 时，对于每一个Episode，计算 s 的每一次出现的平均值。


    在本算法中，不论是首次访问还是每次访问，都需要记录两个值：
    状态s被访问到的次数N(s)，每次访问时return之和S(s)；遍历完所有的episode之后，得到状态s的价值函数V(s)。
    其中，首次访问是在一个episode中只记录第一次访问到的s；每次访问是在一个episode中每次访问到s都记录下来。

2.5 Incremental Mean

在使用蒙特卡洛方法求解平均收获时，需要计算平均值。通常计算平均值要预先存储所有的数据，最后使用总和除以此次数。这里介绍了一种更简单实用的方法，使得在计算平均收获时不需要存储所有既往收获，而是每得到一次收获，就计算其平均收获。

累进更新平均值利用前一次的平均值和当前数据以及数据总个数来计算新的平均值。把这个方法应用于蒙特卡洛策略评估，就得到下面的蒙特卡洛累进更新。

3 Temporal-Difference Learning

    和蒙特卡洛学习一样，它也从Episode学习，不需要了解模型本身；但是它可以学习不完整的Episode，通过合理的引导（bootstrapping），先估计某状态在该状态序列完整后可能得到的收获，并在此基础上利用前文所述的累进更新平均值的方法得到该状态的价值，再通过不断的采样来持续更新这个价值。
    具体地说，在 TD 学习中，算法在估计某一个状态的收获时，用的是离开该状态的即时奖励 Rt+1 与下一时刻状态 St+1 的预估状态价值乘以衰减系数 γ 组成：
v(St)←v(St)+α(Rt+1+γv(St+1)−V(St))
    其中， Rt+1+γv(St+1) 称为TD目标值， Rt+1+γv(St+1)−V(St) 称为TD误差。
    引导 (bootstrapping)：指的是用 TD 目标值代替收获 Gt 的过程。

3.1 MC and TD

    MC和TD学习使用的都是通过个体与环境实际交互生成的一系列状态序列来更新状态的价值。这在解决大规模问题或者不清楚环境动力学特征的问题时十分有效。不过MC学习和TD学习两者也是有着很明显的差别的。
    下面通过一个例子来详细阐述这两种学习方法各自的特点。

    想象一下作为个体的你如何预测下班后开车回家这个行程所花费的时间。在回家的路上你会依次经过一段高速公路、普通公路、和你家附近街区三段路程。由于你经常开车上下班，在下班的路上多次碰到过各种情形，比如取车的时候发现下雨，高速路况的好坏、普通公路是否堵车等等。在每一种状态下时，你对还需要多久才能到家都有一个经验性的估计。表 1 的“既往经验预计（仍需耗时）”列给出了这个经验估计，这个经验估计基本反映了各个状态对应的价值，通常你对下班回家总耗时的预估是 30 分钟。
    假设你现在又下班准备回家了，当花费了 5 分钟从办公室到车旁时，发现下雨了。此时根据既往经验，估计还需要 35 分钟才能到家，因此整个行程将耗费 40 分钟。随后你进入了高速公路，高速公路路况非常好，你一共仅用了 20 分钟就离开了高速公路，通常根据经验你只再需要 15 分钟就能到家，加上已经过去的 20 分钟，你将这次返家预计总耗时修正为 35 分钟，比先前的估计少了 5 分钟。但是当你进入普通公路时，发现交通流量较大，你不得不跟在一辆卡车后面龟速行驶，这个时候距离出发已经过去 30 分钟了，根据以往你路径此段的经验，你还需要10 分钟才能到家，那么现在你对于回家总耗时的预估又回到了 40 分钟。最后你在出发 40 分钟后到达了家附近的街区，根据经验，还需要 3 分钟就能到家，此后没有再出现新的情况，最终你在 43 分钟的时候到达家中。经历过这一次的下班回家，你对于处在途中各种状态下返家的还需耗时（对应于各状态的价值）有了新的估计，但分别使用 MC 算法和 TD 算法得到的对于各状态返家还需耗时的更新结果和更新时机都是不一样的。
    如果使用 MC 算法，在整个驾车返家的过程中，你对于所处的每一个状态，例如“取车时下雨”，“离开高速公路”，“被迫跟在卡车后”、“进入街区”等时，都不会立即更新这些状态对应的返家还需耗时的估计，这些状态的返家仍需耗时仍然分别是先前的 35 分钟、 15 分钟、 10 分钟和 3 分钟。但是当你到家发现整个行程耗时 43 分钟后，通过用实际总耗时减去到达某状态的已耗时，你发现在本次返家过程中在实际到达上述各状态时，仍需时间则分别变成了： 38 分钟（43-5）、23 分钟（43-20）、 13 分钟（43-30）和 3 分钟（43-40）。如果选择修正系数为 1，那么这些新的耗时将成为今后你在各状态时的预估返家仍需耗时，相应的整个行程的预估耗时被更新为 43 分钟。
    如果使用 TD 算法，则又是另外一回事，当取车发现下雨时，同样根据经验你会认为还需要35 分钟才能返家，此时，你将立刻更新对于返家总耗时的估计，为仍需的 35 分钟加上你离开办公室到取车现场花费的 5 分钟，即 40 分钟。同样道理，当驶离高速公路，根据经验，你对到家还需时间的预计为 15 分钟，但由于之前你在高速上较为顺利，节省了不少时间，在第 20 分钟时已经驶离高速，实际从取车到驶离高速只花费了 15 分钟，则此时你又立刻更新了从取车时下雨到到家所需的时间为 30 分钟，而整个回家所需时间更新为 35 分钟。当你在驶离高速在普通公路上又行驶了 10 分钟被堵，你预计还需 10 分钟才能返家时，你对于刚才驶离高速公路返家还需耗时又做了更新，将不再是根据既往经验预估的 15 分钟，而是现在的 20 分钟，加上从出发到驶离高速已花费的 20 分钟，整个行程耗时预估因此被更新为 40 分钟。直到你花费了 40 分钟只到达家附近的街区还预计有 3 分钟才能到家时，你更新了在普通公路上对于返家还需耗时的预计为 13 分钟。最终你按预计 3 分钟后进入家门，不再更新剩下的仍需耗时。

3.2 Advantages and Disadvantages of MC vs. TD

    通过比较可以看出， MC 算法只在整个行程结束后才更新各个状态的仍需耗时，而 TD 算法则每经过一个状态就会根据在这个状态与前一个状态间实际所花时间来更新前一个状态的仍需耗时。
    TD 学习能比 MC 学习更快速灵活的更新状态的价值估计，这在某些情况下有着非常重要的实际意义。回到驾车返家这个例子中来，我们给驾车返家制定一个新的目标，不再以耗时多少来评估状态价值，而是要求安全平稳的返回家中。假如有一次你在驾车回家的路上突然碰到险情：对面开过来一辆车感觉要和你迎面相撞，严重的话甚至会威胁生命，不过由于最后双方驾驶员都采取了紧急措施没有让险情实际发生，最后平安到家。如果是使用蒙特卡罗学习，路上发生的这一险情可能引发的极大负值奖励将不会被考虑，你不会更新在碰到此类险情时的状态的价值；但是在 TD 学习时，碰到这样的险情过后，你会立即大幅调低这个状态的价值，并在今后再次碰到类似情况时采取其它行为，例如降低速度等来让自身处在一个价值较高的状态中，尽可能避免发生意外事件的发生。

    通过驾车返家这个例子，我们应该能够认识到： TD 学习在知道结果之前就可以学习，也可以在没有结果时学习，还可以在持续进行的环境中学习，而 MC 学习则要等到最后结果才能学习。 TD 学习在更新状态价值时使用的是 TD 目标值，即基于即时奖励和下一状态的预估价值来替代当前状态在状态序列结束时可能得到的收获，它是当前状态价值的有偏估计，而 MC 学习则使用实际的收获来更新状态价值，是某一策略下状态价值的无偏估计。 TD 学习存在偏差 (bias)的原因是在于其更新价值时使用的也是后续状态预估的价值，如果能使用后续状态基于某策略的真实 TD 目标值 (true TD target) 来更新当前状态价值的话，那么此时的 TD 学习得到的价值也是实际价值的无偏估计。虽然绝大多数情况下 TD 学习得到的价值是有偏估计的，但是其方差 (Variance) 却较 MC 学习得到的方差要低，且对初始值敏感，通常比 MC 学习更加高效，这也主要得益于 TD 学习价值更新灵活，对初始状态价值的依赖较大。
    继续通过一个示例来剖析 TD 学习和 MC 学习的特点。
    假设在一个强化学习问题中有 A 和 B 两个状态，模型未知，不涉及策略和行为，只涉及状态转换和即时奖励，衰减系数为 1。现有如下表所示 8 个完整状态序列的经历，其中除了第 1 个状态序列发生了状态转移外，其余 7 个完整的状态序列均只有一个状态构成。现要求根据现有信息计算状态 A、 B 的价值分别是多少？

    我们考虑分别使用 MC 算法和 TD 算法来计算状态 A、 B 的价值。
    首先考虑 MC 算法，在8 个完整的状态序列中，只有第一个序列中包含状态 A，因此 A 价值仅能通过第一个序列来计算，也就等同于计算该序列中状态 A 的收获：
V(A)=G(A)=RA+γRB=0
    状态 B 的价值，则需要通过状态 B 在 8 个序列中的收获值来平均。因为状态B没有后续可转移的状态，即 R(B′)=0，V(B′)=0 ，因此其结果是 6/8。
V(B)=18∑i=18Gi(B)=18∑i=18(RB+γR(B′)=18(0+1∗6+0)=68
    因此在使用 MC 算法时，状态 A、 B 的价值分别为 6/8 和 0
    再来考虑应用 TD 算法。TD算法试图利用现有的Episode经验构建一个MDP（如下图），由于存在一个Episode使得状态A有后继状态B，因此状态A的价值是通过状态B的价值来计算的，同时经验表明A到B的转移概率是100%，且A状态的即时奖励是0，并且没有衰减，因此A的状态价值等于B的状态价值。

    计算过程如下，可以看成一个MDP，求状态价值函数。
V(A)=π(a|A)[RaA+γPaABV(B)]=1∗[0+1∗1∗V(B)]=V(B)
V(B)=π(b1|B)[Rb1B+γPb1BB′V(B′)]+π(b2|B)[Rb2B+γPb2BB′V(B′)]=0.75∗[1+1∗1∗0]+0.25∗[0+1∗1∗0]=0.75
    因此在使用 TD 算法时，状态 A、 B 的价值均为 6/8。

3.3 Certainty Equivalence

MC算法

MC算法试图收敛至一个能够最小化状态价值与实际收获的均方差的解决方案，这一均方差用公式表示为： ∑k=1K∑t=1Tk(Gkt−V(Skt))2
其中， k 表示的是Episode序号， K 为总的Episode数量， t 为一个Episode内状态序号（第1,2,3…个状态等）， Tk 表示的是第 k 个Episode总的状态数， Gkt 表示第 k 个Episode里 t 时刻状态 St 获得的最终收获， V(Skt) 表示的是第 k 个Episode里算法估计的 t 时刻状态 St 的价值。

TD算法

    TD算法则收敛至一个根据已有经验构建的最大可能的马尔科夫模型的状态价值，也就是说TD算法将首先根据已有经验估计状态间的转移概率：

    同时估计某一个状态的即时奖励：

    最后计算该MDP的状态函数。

3.4 Unified View

    通过上面的示例，我们能体会到 TD 算法与 MC 算法之间的另一个差别： TD 算法使用了MDP 问题的马尔科夫属性，在具有马尔科夫性的环境下更有效；但是 MC 算法并不利用马尔科夫属性，适用范围不限于具有马尔科夫性的环境。
    现在为止所阐述的蒙特卡罗 (MC) 学习算法、时序差分 (TD) 学习算法和上一篇讲述的动态规划(DP) 算法都可以用来计算状态价值。他们它们的特点也是十分鲜明的，MC和TD是两种在不依赖模型的情况下的常用方法，这其中又以 MC 学习需要完整的状态序列来更新状态价值， TD 学习则不需要完整的状态序列； DP 算法则是基于模型的计算状态价值的方法，它通过计算一个状态 S 所有可能的转移状态 S’ 及其转移概率以及对应的即时奖励来计算这个状态 S 的价值。
    在是否使用引导数据上， MC 学习并不使用引导数据，它使用实际产生的奖励值来计算状态价值； TD 和 DP 则都是用后续状态的预估价值作为引导数据来计算当前状态的价值。
    在是否采样的问题上， MC 和 TD 不依赖模型，使用的都是个体与环境实际交互产生的采样状态序列来计算状态价值的，而 DP 则依赖状态转移概率矩阵和奖励函数，全宽度计算状态价值，没有采样之说。
    下图，非常直观的体现了三种算法的区别。

MC算法

TD算法

DP算法

综合上述三种学习方法的特点，可以小结如下：当使用单个采样，同时不经历完整的状态序列更新价值的算法是 TD 学习；当使用单个采样，但依赖完整状态序列的算法是 MC 学习；当考虑全宽度采样，但对每一个采样经历只考虑后续一个状态时的算法是 DP 学习；如果既考虑所有状态转移的可能性，同时又依赖完整状态序列的，那么这种算法是穷举 (exhausive search) 法。需要说明的是： DP 利用的是整个 MDP 问题的模型，也就是状态转移概率，虽然它并不实际利用采样经历，但它利用了整个模型的规律，因此也被认为是全宽度 (full width) 采样的。

4 TD(λ)

4.1 n-Step Prediction

先前所介绍的 TD 算法实际上都是 TD(0) 算法，括号内的数字 0 表示的是在当前状态下往前多看 1 步，要是往前多看 2 步更新状态价值会怎样？这就引入了 n-步预测的概念。

n-步预测指从状态序列的当前状态 ( St ) 开始往序列终止状态方向观察至状态 St+n−1 ，使用这 n 个状态产生的即时奖励 (Rt+1,Rt+2,...,Rt+n) 以及状态 St+n 的预估价值来计算当前状态 St 的价值。

4.2 n-Step Return

    TD 是 TD(0) 的简写，是基于1-步预测的。根据 n-步预测的定义，可以推出当 n=1,2 和 ∞ 时对应的预测值如下表所示。从该表可以看出， MC 学习是基于 ∞ -步预测的。

    定义 n-步收获为： G(n)t=Rt+1+γRt+2+...+γn−1Rt+n+γnV(St+n)
    由此可以得到 n-步 TD 学习对应的状态价值函数的更新公式为：
V(St)←V(St)+α(G(n)t−V(St))

4.3 Forward View of TD(λ)

当 n=1 时等同于 TD(0) 学习， n 取无穷大时等同于 MC 学习。由于 TD 学习和 MC 学习又各有优劣，那么会不会存在一个 n 值使得预测能够充分利用两种学习的优点或者得到一个更好的预测效果呢？研究认为不同的问题其对应的比较高效的步数不是一成不变的。选择多少步数作为一个较优的计算参数是需要尝试的超参数调优问题。
为了能在不增加计算复杂度的情况下综合考虑所有步数的预测，我们引入了一个新的参数 λ 。并定义 λ 收获。

λ 收获

     λ 收获 Gλt 综合考虑了从 1 到 ∞ 的所有步收获的和，它给其中的任意一个 n− 步收获施加一定的权重 (1−λ)λn−1 。通过这样的权重设计，得到如下的公式：
Gλt=(1−λ)∑n=1∞λn−1G(n)t
    对应的 λ 预测写成TD(λ)： V(St)←V(St)+α(G(λ)t−V(St))
    下图是各步收获的权重分配图，图中最后一列 λ 的指数是 T−t−1 。 T 为终止状态的时刻步数， t 为当前状态的时刻步数，所有的权重加起来为 1 。

    下图显示了 TD(λ) 中对于 n-收获的权重分配，左侧阴影部分是 3-步收获的权重值，随着n的增大，其 n-收获的权重呈几何级数的衰减。当在 T 时刻到达终止状态时，未分配的权重 (右侧阴影部分) 全部给予终止状态的实际收获值。如此设计可以使一个完整的状态序列中所有的 n-步收获的权重加起来为 1，离当前状态越远的收获其权重越小。

    前向认识 TD(λ)
    TD(λ) 的设计使得在状态序列中，一个状态的价值 V(St) 由 G(λ)t 得到，而后者又间接由所有后续状态价值计算得到，因此可以认为更新一个状态的价值需要知道所有后续状态的价值。也就是说，必须要经历完整的状态序列获得包括终止状态的每一个状态的即时奖励才能更新当前状态的价值。这和 MC 算法的要求一样，因此 TD(λ) 算法有着和 MC 方法一样的劣势。 λ 取值区间为 [0,1]，当 λ=1 时对应的就是 MC 算法。这个实际计算带来了不便。

4.4 Backward View TD(λ)

    反向认识 TD(λ) 为 TD(λ) 算法进行在线实时单步更新学习提供了理论依据。为了解释这一点，需要先引入“效用迹”这个概念。我们通过一个之前的一个例子来解释这个问题。老鼠在依次连续接受了 3 次响铃和 1 次亮灯信号后遭到了电击，那么在分析遭电击的原因时，到底是响铃的因素较重要还是亮灯的因素更重要呢？

    如果把老鼠遭到电击的原因认为是之前接受了较多次数的响铃，则称这种归因为频率启发式(原因归因于出现频率最高的状态)；而把电击归因于最近少数几次状态的影响，则称为就近启发式(将原因归因于较近的几次状态)。
    如果给每一个状态引入一个数值：效用 (eligibility, E) 来表示该状态对后续状态的影响，就可以同时利用到上述两个启发。而所有状态的效用值总称为效用迹 (eligibility traces,ES)。
    定义：
     E0(s)=0
     Et(s)=γλEt−1(s)+1(St=s)
    其中 1(St=s) 是一个条件判断表达式，表示当 St=s 时取值为 1，其余条件下取值为 0。
    下图给出了效用E对于时间t的一个可能的曲线：

    该图横坐标是时间，横坐标下有竖线的位置代表当前时刻的状态为 s，纵坐标是效用的值E。可以看出当某一状态连续出现， E 值会在一定衰减的基础上有一个单位数值的提高，此时认为该状态将对后续状态的影响较大，如果该状态很长时间没有经历，那么该状态的的 E 值将逐渐趋于 0，表明该状态对于较远的后续状态价值的影响越来越少。
    需要指出的是，针对每一个状态存在一个 E 值，且 E 值并不需要等到状态序列到达终止状态才能计算出来，它是根据已经经过的状态序列来计算得到，并且在每一个时刻都对每一个状态进行一次更新。 E 值存在饱和现象，有一个瞬时最高上限： Emax=11−γλ
    E 值是一个非常符合神经科学相关理论的、非常精巧的设计。可以把它看成是神经元的一个参数，它反映了神经元对某一刺激的敏感性和适应性。神经元在接受刺激时会有反馈，在持续刺激时反馈一般也比较强，当间歇一段时间不刺激时，神经元又逐渐趋于静息状态；同时不论如何增加刺激的频率，神经元有一个最大饱和反馈。
    如果我们在更新状态价值时把该状态的效用同时考虑进来，那么价值更新可以表示为：

    当 λ=0 时， St=s 一直成立，此时价值更新等同于 TD(0) 算法：
V(St)←V(St)+αδt
    当 λ=1 时，在每完成一个状态序列后更新状态价值时，其完全等同于 MC 学习；但在引入了效用迹后，可以每经历一个状态就更新状态的价值，这种实时更新的方法并不完全等同于MC。
    当 λ∈(0,1) 时，在每完成一个状态序列后更新价值时，基于前向认识的 TD(λ) 与基于反向认识的 TD(λ) 完全等效；不过在进行在线实时学习时，两者存在一些差别。

LLMs基础学习（八）强化学习专题（7）汤姆和佩琦 NLP 学习 Actor-Critic 算法
LLMs基础学习（八）强化学习专题（7）文章目录LLMs基础学习（八）强化学习专题（7）Actor-Critic算法基础原理算法流程细节算法优缺点分析算法核心总结视频链接：https://www.bilibili.com/video/BV1MQo4YGEmq/?spm_id_from=333.1387.upload.video_card.click&vd_source=57e4865932ea6c
强化学习-双臂老虎机 transuperb 强化学习人工智能
本篇文章模拟AI玩两个老虎机，AI需要判断出哪个老虎机收益更大，然后根据反馈调整对于不同老虎机的价值判断，如果把这个看作一个简单的强化学习的话，那么AI就是agent，两个老虎机就是environment，AI首先会对两台老虎机有一个预测值Q，预测哪一个的价值高，然后AI通过策略函数判断应该选择哪个老虎机，进行Action后根据Reward更新每个老虎机的价值Value，然后再进行下一次判断，直到
ROS2 强化学习：案例与代码实战芯动大师 ROS2学习目标检测人工智能
一、引言在机器人技术不断发展的今天，强化学习（RL）作为一种强大的机器学习范式，为机器人的智能决策和自主控制提供了新的途径。ROS2（RobotOperatingSystem2）作为新一代机器人操作系统，具有更好的实时性、分布式性能和安全性，为强化学习在机器人领域的应用提供了更坚实的基础。本文将通过一个具体案例，深入探讨ROS2与强化学习的结合应用，并提供相关代码实现。二、案例背景本案例以移动机器
解析AI算力网络与通信领域强化学习的算法 AI算力网络与通信 AI人工智能与大数据技术 AI算力网络与通信原理 AI人工智能大数据架构人工智能网络算法 ai
解析AI算力网络与通信领域强化学习的算法：从"快递员找路"到"智能网络大脑"关键词：AI算力网络、通信领域、强化学习、马尔可夫决策、资源调度摘要：本文将用"快递物流系统"的类比，带您理解AI算力网络与通信领域如何通过强化学习实现智能决策。我们会从核心概念讲起，逐步拆解强化学习在网络资源调度中的算法原理，结合Python代码实战，最后探索其在5G/6G、边缘计算等场景的应用。即使您没学过复杂数学，也
AI 在自动驾驶路径规划中的深度强化学习优化 QuantumWalker 人工智能自动驾驶机器学习
```htmlAI在自动驾驶路径规划中的深度强化学习优化在当今快速发展的科技领域中，人工智能（AI）的应用正在不断拓展其边界。特别是在自动驾驶技术中，AI的应用已经从简单的感知和识别发展到了复杂的决策和控制阶段。其中，深度强化学习作为AI的一个重要分支，在自动驾驶路径规划中发挥着越来越重要的作用。一、深度强化学习简介深度强化学习是一种结合了深度学习和强化学习的机器学习方法。它通过让智能体在环境中进
强化学习实战：从 Q-Learning 到 PPO 全流程荣华富贵8 程序员的知识储备2 程序员的知识储备3 人工智能算法机器学习
1引言随着人工智能的快速发展，强化学习（ReinforcementLearning,RL）凭借其在复杂决策与控制问题上的卓越表现，已成为研究与应用的前沿热点。本文旨在从经典的Q-Learning算法入手，系统梳理从值迭代到策略优化的全流程技术细节，直至最具代表性的ProximalPolicyOptimization（PPO）算法，结合理论推导、代码实现与案例分析，深入探讨强化学习的核心原理、算法演
基于CTDE MAPPO的无线通信资源分配强化学习实现 pk_xz123456 仿真模型深度学习算法 lstm 人工智能 rnn 深度学习开发语言
基于CTDEMAPPO的无线通信资源分配强化学习实现摘要本文提出了一种基于集中训练分散执行(CTDE)框架的多智能体近端策略优化(MAPPO)方法，用于解决无线通信网络中的资源分配问题。我们设计了一个多基站协作环境，其中每个基站作为独立智能体，通过分布式决策实现网络吞吐量最大化。实验结果表明，MAPPO算法在频谱效率和用户公平性方面显著优于传统启发式算法。1.引言1.1研究背景随着5G/6G通信技
强化学习系列——PPO算法 lqjun0827 算法深度学习算法人工智能
强化学习系列——PPO算法PPO算法一、背景知识：策略梯度&Advantage二、引入重要性采样（ImportanceSampling）三、PPO-Clip目标函数推导✅四、总结公式（一图总览）参考文献PPO示例代码实现补充内容：重要性采样一、问题背景：我们想估计某个期望❗问题：二、引入重要性采样（ImportanceSampling）三、离散采样形式（蒙特卡洛估计）四、标准化的重要性采样五、在强
人工神经网络：架构原理与技术解析 weixin_47233946 架构
##引言在深度学习和人工智能领域，人工神经网络（ArtificialNeuralNetwork,ANN）作为模拟人脑认知机制的核心技术，已在图像识别、自然语言处理和强化学习等领域实现了革命性突破。从AlphaGo击败人类顶尖棋手到ChatGPT的对话生成能力，ANN的进化持续推动技术边界的扩展。本文将深入剖析人工神经网络的核心原理、技术实现与发展趋势。##一、基础概念与数学模型###1.1生物启发
医疗AI新势力：自演进多智能体MAS的进击之路 Allen_Lyb 医疗高效编程研发人工智能健康医疗机器学习架构大数据
医疗AI新势力：自演进多智能体MAS的进击之路往期相关文章：Python在开放式医疗诊断多智能体系统中的深度应用与自动化分析基于多智能体强化学习的医疗AI中RAG系统程序架构优化研究自演进多智能体在医疗临床诊疗动态场景中的应用医疗AI的新变革在数字化与智能化飞速发展的时代，人工智能（AI）已经逐渐渗透到医疗领域的各个角落，成为推动医疗行业变革的重要力量。从疾病的早期诊断到个性化治疗方案的制定，从医
无线通信中的多智能体强化学习：基于CTDE-MAPPO的功率控制优化 pk_xz123456 仿真模型深度学习算法算法人工智能制造
无线通信中的多智能体强化学习：基于CTDE-MAPPO的功率控制优化摘要本文提出了一种基于集中训练分布式执行(CTDE)框架的多智能体近端策略优化(MAPPO)算法，用于解决无线通信网络中的分布式功率控制问题。通过将多个基站建模为协作智能体，我们设计了一个多智能体强化学习系统，能够在复杂动态环境中实现全局网络效用的优化。本文详细介绍了系统架构、算法实现、实验设置以及性能评估，展示了MAPPO在5G
传统蒙特卡洛（Monte Carlo, MC）方法在强化学习中直接把整条回报序列当作“真值”来估计价值函数，通常配合表格化存储，因此无需环境模型且估计无偏，但只能处理有限状态-动作空间且方差较大强化学习曾小健人工智能
传统蒙特卡洛（MonteCarlo,MC）方法在强化学习中直接把整条回报序列当作“真值”来估计价值函数，通常配合表格化存储，因此无需环境模型且估计无偏，但只能处理有限状态-动作空间且方差较大medium.comanalyticsvidhya.comincompleteideas.net。“深度蒙特卡洛”（DeepMonteCarlo,DMC）则保留“按回报直接更新”的思想，却用深度网络来逼近$Q(
使用Simulink结合MATLAB进行基于强化学习控制下的动态滤波器参数调节系统的仿真 amy_mhd matlab 开发语言
目录一、背景介绍二、所需工具和环境三、步骤详解步骤1：定义系统需求示例：定义系统需求步骤2：准备强化学习环境步骤3：训练强化学习代理步骤4：创建Simulink模型步骤5：添加信号源步骤6：合并信号步骤7：导入强化学习代理步骤8：设计滤波器步骤9：可视化结果步骤10：连接各模块步骤11：设置仿真参数步骤12：运行仿真并分析结果四、总结在现代信号处理领域，动态调整滤波器参数以适应不断变化的环境条件是
强化学习（Reinforcement Learning, RL）概览 MzKyle 人工智能人工智能强化学习机器学习机器人
一、强化学习的核心概念与定位1.定义强化学习是机器学习的分支，研究智能体（Agent）在动态环境中通过与环境交互，以最大化累积奖励为目标的学习机制。与监督学习（有标注数据）和无监督学习（无目标）不同，强化学习通过“试错”学习，不依赖先验知识，适合解决动态决策问题。2.核心要素智能体（Agent）：执行决策的主体，如游戏AI、机器人。环境（Environment）：智能体之外的一切，如棋盘、物理世界
无监督学习概览 MzKyle 人工智能人工智能无监督学习机器学习
一、无监督学习的本质与定位定义：无监督学习是机器学习的三大范式之一（另外两种为监督学习和强化学习），其核心特点是处理未标注数据，通过算法自动发现数据中的隐藏结构、模式或内在规律。与监督学习依赖"输入-输出"对不同，无监督学习仅以原始数据作为输入，目标是揭示数据的内在组织方式。与其他学习范式的区别：监督学习：依赖标签（如分类、回归任务），学习从输入到输出的映射关系强化学习：通过与环境交互获得奖励信号
基于分布式部分可观测马尔可夫决策过程与联邦强化学习的低空经济智能协同决策框架 pk_xz123456 算法无人机分布式算法 matlab 人工智能制造开发语言
基于分布式部分可观测马尔可夫决策过程与联邦强化学习的低空经济智能协同决策框架摘要：低空经济作为新兴战略产业，其核心场景（如无人机物流、城市空中交通、低空监测）普遍面临环境动态性强、个体观测受限、数据隐私敏感及多智能体协同复杂等挑战。本文创新性地提出一种深度融合分布式部分可观测马尔可夫决策过程（Dec-POMDP）与联邦强化学习（FederatedReinforcementLearning,FRL）
空间智能领域，AI人工智能如何大显身手 AI大模型应用之禅人工智能 ai
空间智能领域，AI人工智能如何大显身手关键词：空间智能、人工智能、计算机视觉、地理信息系统、自动驾驶、增强现实、智能城市摘要：本文深入探讨了人工智能在空间智能领域的应用与前景。空间智能作为理解、处理和利用空间信息的能力，正在被AI技术深刻变革。我们将从核心技术原理出发，分析计算机视觉、深度学习、强化学习等技术如何赋能空间智能，探讨其在自动驾驶、智能城市、AR/VR等领域的实际应用，并提供详细的算法
动手学强化学习第10章-Actor-Critic 算法训练代码 zhqh100 算法深度学习 pytorch 人工智能
基于Hands-on-RL/第10章-Actor-Critic算法.ipynbatmain·boyu-ai/Hands-on-RL·GitHub理论Actor-Critic算法修改了警告和报错运行环境DebianGNU/Linux12Python3.9.19torch2.0.1gym0.26.2运行代码Actor-Critic.py#!/usr/bin/envpythonimportgymimpo
Agent 处理流程成都犀牛人工智能大模型 Agent 深度学习神经网络 python Agent
Agent源于研究行为的强化学习，而大模型源于研究知识的深度学习多数情况下认为该系统中会存在下面的角色或名词用户（另一个人）上下文（记忆）变量（记忆）提示词（沟通方式）工具（手臂）大模型（大脑）这个图将着重表现Agent的决策循环，这是其与普通RAG流程最主要的区别。Agent核心工作流示意图用户提示词✏️Agent大模型上下文️变量%%工具️用户交互层AI核心层数据层工具层发送请求用户输入原始指
智能化设计工具链：深度学习与强化学习的全流程融合架构
一、技术架构设计智能化设计工具链的构建需要整合参数化建模、代理模型训练、强化学习优化与多物理场工艺仿真四大模块，形成从设计到制造的闭环系统。典型流程如下：
自适应限流算法实战双囍菜菜 #Go高吞吐架构算法 Golang
自适应限流算法实战文章目录自适应限流算法实战一、限流算法演进史：从静态到自适应1.1传统限流算法的致命缺陷1.2自适应限流的革命性突破二、自适应限流核心指标体系2.1黄金四维指标2.2指标融合公式三、经典自适应算法解析3.1TCPBBR带宽自适应算法核心限流应用3.2NetflixConcurrencyLimit梯度下降策略智能探针机制四、AI赋能的智能限流4.1LSTM预测模型架构4.2强化学习
从代码学习深度强化学习 - REINFORCE 算法 PyTorch版飞雪白鹿€ 深度强化学习 pytorch版 pytorch DRL
文章目录前言**一、理论基础：什么是策略梯度？****1.1基于价值vs.基于策略****1.2策略梯度（PolicyGradient）****1.3REINFORCE算法：蒙特卡洛策略梯度****1.4REINFORCE算法流程****二、PyTorch代码实践****2.1环境与辅助函数****2.2核心算法实现****2.3训练与结果****总结**前言欢迎来到“从代码学习深度强化学习”系列
生成本地微调 +强化学习 qwen3-4b 研究搭建流程步骤行云流水AI笔记人工智能
在本地微调并应用强化学习（RL）对Qwen-3-4B模型进行研究和搭建，是一个复杂但可行的过程。以下是一个详细的流程步骤，涵盖从环境准备、数据准备、模型微调到强化学习应用的各个阶段。一、环境准备硬件要求GPU：至少需要多块高性能GPU（如NVIDIAA100或V100），因为Qwen-3-4B模型参数量大，内存需求高。内存：建议至少128GBRAM，以确保数据处理和模型加载的流畅性。存储：高速SS
【无标题】行云流水AI笔记人工智能
在本地对Qwen-3-4B模型进行微调，并结合强化学习（RL）以提高其从自然语言（TXT）到结构化查询语言（SQL）的转换能力（即TXT2SQL），是一个复杂但非常有价值的任务。以下是一个详细的流程步骤，涵盖从环境准备、数据准备、模型微调到强化学习应用的各个方面。一、项目概述目标：通过微调和强化学习提升Qwen-3-4B模型在TXT2SQL任务上的表现，使其能够更准确地将自然语言查询转换为相应的S
Causal-aware Large Language Models: Enhancing Decision-Making Through Learning, Adapting and Acting UnknownBody LLM Daily Causal and Reasoning 语言模型人工智能自然语言处理
论文主要内容总结研究背景与问题大语言模型（LLMs）在决策领域展现出巨大潜力，但预训练模型存在推理能力不足、难以适应新环境的问题，严重制约了其在复杂现实任务中的应用。现有方法如强化学习（RL）单独使用或LLM辅助RL的方式，仍依赖token预测范式，缺乏结构化推理和快速适应性。核心框架与方法提出因果感知大语言模型（Causal-awareLLMs），将结构因果模型（SCM）整合到决策过程中，采用“
机器学习赋能多尺度材料模拟：前沿技术会议邀您共探 m0_75133639 复合材料机器学习人工智能分子动力学第一性原理深度学习 vasp 复合材料
在新能源与先进制造技术飞速发展的今天，材料科学的创新成为推动行业进步的关键力量。本次前沿技术会议聚焦“机器学习赋能的多尺度材料模拟与催化设计”，旨在为科研人员与工程师搭建一个深度交流与学习的平台。会议将深度融合分子动力学模拟（MD）、第一性原理计算（DFT）等微观模拟方法，以及机器学习（ML）与强化学习（DQN）等前沿算法，通过锂硫电池、压电催化、催化转化等实战案例，展示如何利用“数据驱动+物理建
AI转型指南 HeartException 人工智能学习机器学习
以下是为计算机学生/在职人员撰写《AI转型指南》的目录框架设计，兼顾系统性与实操性，采用模块化结构便于读者按需学习，前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站一、AI行业全景扫描（认知篇）技术图谱解构机器学习/深度学习/强化学习的技术边界NLP/CV/语音/推荐系统等细分赛道的就业热度对比传统计算机技能与AI能力的交叉点（如分布式计算、系统
论文笔记＜交通灯＞＜多智能体＞CoLight管理交通灯青椒大仙KI11 论文阅读
今天看的是论文Colight:学习网络级合作进行交通信号控制论文提出的CoLight模型是一种基于强化学习和图注意力网络的交通信号灯控制方法，旨在解决城市道路网络中的交通信号的写作问题，提升车辆通行效率。问题定义为：将交通信号控制问题建模为马尔可夫博弈，每个路口由一个智能体控制，智能体通过观察部分系统状态（当前相位和各车道车辆数），选择动作（下一时间段的相位），目标是最小化路口周围车道的平均队列长
AAAI2022国际顶会Workshop将会讨论些什么？ AINLPer 国际会议自然语言处理深度学习自然语言处理人工智能机器学习神经网络
来源:AINLPer微信公众号（每日论文干货分享！！）编辑:ShuYini校稿:ShuYini时间:2021-12-091、引言目前关于AAAI2022的论文List还没有贴出来，但是目前的WorkShop的日程已经出来了，今天整理了一下给大家分享。本次AAAI2022研讨会计划于2022年2月28日至3月1日，共有39个。其中在技术研究领域涉及：强化学习、图神经网络、交互式机器学习、模型
会议论文_AI会议 || 如何rebuttal学术论文?
深度强化学习实验室报道来源：https://zhuanlan.zhihu.com/p/104298923作者：魏秀参编辑：DeepRL最近，恰逢CVPR2020rebuttal之前，本文就rebuttle相关的内容进行总结，学术论文是发布自己或团队最新研究进展正式且最快捷的途径，也是和同行交流想法最方便、高效的方式。当同行评议(Peerreview)作为学术成果正式发布的必经之路已运行200余年[
Java开发中，spring mvc 的线程怎么调用？小麦麦子 spring mvc
今天逛知乎，看到最近很多人都在问spring mvc 的线程http://www.maiziedu.com/course/java/ 的启动问题，觉得挺有意思的，那哥们儿问的也听仔细，下面的回答也很详尽，分享出来，希望遇对遇到类似问题的Java开发程序猿有所帮助。问题：在用spring mvc架构的网站上，设一线程在虚拟机启动时运行，线程里有一全局
maven依赖范围 bitcarter maven
1.test 测试的时候才会依赖，编译和打包不依赖，如junit不被打包 2.compile 只有编译和打包时才会依赖 3.provided 编译和测试的时候依赖，打包不依赖，如：tomcat的一些公用jar包 4.runtime 运行时依赖，编译不依赖 5.默认compile 依赖范围compile是支持传递的，test不支持传递 1.传递的意思是项目A，引用
Jaxb org.xml.sax.saxparseexception : premature end of file darrenzhu xml premature JAXB
如果在使用JAXB把xml文件unmarshal成vo(XSD自动生成的vo)时碰到如下错误： org.xml.sax.saxparseexception : premature end of file 很有可能时你直接读取文件为inputstream，然后将inputstream作为构建unmarshal需要的source参数。InputSource inputSource = new In
CSS Specificity 周凡杨 html 权重 Specificity css
有时候对于页面元素设置了样式，可为什么页面的显示没有匹配上呢？ because specificity CSS 的选择符是有权重的，当不同的选择符的样式设置有冲突时，浏览器会采用权重高的选择符设置的样式。规则： HTML标签的权重是1 Class 的权重是10 Id 的权重是100
java与servlet g21121 servlet
servlet 搞java web开发的人一定不会陌生，而且大家还会时常用到它。下面是java官方网站上对servlet的介绍： java官网对于servlet的解释写道 Java Servlet Technology Overview Servlets are the Java platform technology of choice for extending and enha
eclipse中安装maven插件 510888780 eclipse maven
1.首先去官网下载 Maven： http://www.apache.org/dyn/closer.cgi/maven/binaries/apache-maven-3.2.3-bin.tar.gz 下载完成之后将其解压，我将解压后的文件夹：apache-maven-3.2.3，并将它放在 D:\tools目录下，即 maven 最终的路径是：D:\tools\apache-mave
jpa@OneToOne关联关系布衣凌宇 jpa
Nruser里的pruserid关联到Pruser的主键id，实现对一个表的增删改，另一个表的数据随之增删改。 Nruser实体类 //***************************************************************** @Entity @Table(name="nruser") @DynamicInsert @Dynam
我的spring学习笔记11-Spring中关于声明式事务的配置 aijuans spring 事务配置
这两天学到事务管理这一块，结合到之前的terasoluna框架，觉得书本上讲的还是简单阿。我就把我从书本上学到的再结合实际的项目以及网上看到的一些内容，对声明式事务管理做个整理吧。我看得Spring in Action第二版中只提到了用TransactionProxyFactoryBean和<tx:advice/>,定义注释驱动这三种，我承认后两种的内容很好，很强大。但是实际的项目当中
java 动态代理简单实现 antlove java handler proxy dynamic service
dynamicproxy.service.HelloService package dynamicproxy.service; public interface HelloService { public void sayHello(); } dynamicproxy.service.impl.HelloServiceImpl package dynamicp
JDBC连接数据库百合不是茶 JDBC编程 JAVA操作oracle数据库
如果我们要想连接oracle公司的数据库，就要首先下载oralce公司的驱动程序，将这个驱动程序的jar包导入到我们工程中; JDBC链接数据库的代码和固定写法; 1,加载oracle数据库的驱动; &nb
单例模式中的多线程分析 bijian1013 java thread 多线程 java多线程
谈到单例模式，我们立马会想到饿汉式和懒汉式加载，所谓饿汉式就是在创建类时就创建好了实例，懒汉式在获取实例时才去创建实例，即延迟加载。饿汉式： package com.bijian.study; public class Singleton { private Singleton() { } // 注意这是private 只供内部调用 private static
javascript读取和修改原型特别需要注意原型的读写不具有对等性 bijian1013 JavaScript prototype
对于从原型对象继承而来的成员，其读和写具有内在的不对等性。比如有一个对象A，假设它的原型对象是B，B的原型对象是null。如果我们需要读取A对象的name属性值，那么JS会优先在A中查找，如果找到了name属性那么就返回；如果A中没有name属性，那么就到原型B中查找name，如果找到了就返回；如果原型B中也没有
【持久化框架MyBatis3六】MyBatis3集成第三方DataSource bit1129 dataSource
MyBatis内置了数据源的支持，如： <environments default="development"> <environment id="development"> <transactionManager type="JDBC" /> <data
我程序中用到的urldecode和base64decode,MD5 bitcarter c MD5 base64decode urldecode
这里是base64decode和urldecode，Md5在附件中。因为我是在后台所以需要解码： string Base64Decode(const char* Data,int DataByte,int& OutByte) { //解码表 const char DecodeTable[] = { 0, 0, 0, 0, 0, 0
腾讯资深运维专家周小军：QQ与微信架构的惊天秘密 ronin47
社交领域一直是互联网创业的大热门，从PC到移动端，从OICQ、MSN到QQ。到了移动互联网时代，社交领域应用开始彻底爆发，直奔黄金期。腾讯在过去几年里，社交平台更是火到爆，QQ和微信坐拥几亿的粉丝，QQ空间和朋友圈各种刷屏，写心得，晒照片，秀视频，那么谁来为企鹅保驾护航呢？支撑QQ和微信海量数据背后的架构又有哪些惊天内幕呢？本期大讲堂的内容来自今年2月份ChinaUnix对腾讯社交网络运营服务中心
java-69-旋转数组的最小元素。把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素 bylijinnan java
public class MinOfShiftedArray { /** * Q69 旋转数组的最小元素 * 把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素。 * 例如数组{3, 4, 5, 1, 2}为{1, 2, 3, 4, 5}的一个旋转，该数组的最小值为1。 */ publ
看博客，应该是有方向的 Cb123456 反省看博客
看博客，应该是有方向的: 我现在就复习以前的，在补补以前不会的，现在还不会的，同时完善完善项目，也看看别人的博客. 我刚突然想到的: 1.应该看计算机组成原理，数据结构，一些算法，还有关于android,java的。 2.对于我，也快大四了，看一些职业规划的，以及一些学习的经验，看看别人的工作总结的. 为什么要写
[开源与商业]做开源项目的人生活上一定要朴素,尽量减少对官方和商业体系的依赖 comsci 开源项目
为什么这样说呢？因为科学和技术的发展有时候需要一个平缓和长期的积累过程，但是行政和商业体系本身充满各种不稳定性和不确定性，如果你希望长期从事某个科研项目，但是却又必须依赖于某种行政和商业体系，那其中的过程必定充满各种风险。。。所以，为避免这种不确定性风险，我
一个 sql优化（[精华] 一个查询优化的分析调整全过程！很值得一看） cwqcwqmax9 sql
见 http://www.itpub.net/forum.php?mod=viewthread&tid=239011 Web翻页优化实例提交时间: 2004-6-18 15:37:49 回复发消息环境： Linux ve
Hibernat and Ibatis dashuaifu Hibernate ibatis
Hibernate VS iBATIS 简介 Hibernate 是当前最流行的O/R mapping框架，当前版本是3.05。它出身于sf.net，现在已经成为Jboss的一部分了 iBATIS 是另外一种优秀的O/R mapping框架，当前版本是2.0。目前属于apache的一个子项目了。相对Hibernate“O/R”而言，iBATIS 是一种“Sql Mappi
备份MYSQL脚本 dcj3sjt126com mysql
#!/bin/sh # this shell to backup mysql #[email protected] (QQ:1413161683 DuChengJiu) _dbDir=/var/lib/mysql/ _today=`date +%w` _bakDir=/usr/backup/$_today [ ! -d $_bakDir ] && mkdir -p
iOS第三方开源库的吐槽和备忘 dcj3sjt126com ios
转自 ibireme的博客做iOS开发总会接触到一些第三方库，这里整理一下，做一些吐槽。目前比较活跃的社区仍旧是Github，除此以外也有一些不错的库散落在Google Code、SourceForge等地方。由于Github社区太过主流，这里主要介绍一下Github里面流行的iOS库。首先整理了一份 Github上排名靠
html wlwmanifest.xml eoems html xml
所谓优化wp_head()就是把从wp_head中移除不需要元素，同时也可以加快速度。步骤：加入到function.php remove_action('wp_head', 'wp_generator'); //wp-generator移除wordpress的版本号，本身blog的版本号没什么意义，但是如果让恶意玩家看到，可能会用官网公布的漏洞攻击blog remov
浅谈Java定时器发展 hacksin java 并发 timer 定时器
java在jdk1.3中推出了定时器类Timer,而后在jdk1.5后由Dou Lea从新开发出了支持多线程的ScheduleThreadPoolExecutor，从后者的表现来看，可以考虑完全替代Timer了。 Timer与ScheduleThreadPoolExecutor对比： 1. Timer始于jdk1.3,其原理是利用一个TimerTask数组当作队列
移动端页面侧边导航滑入效果 ini jquery Web html5 css javascirpt
效果体验：http://hovertree.com/texiao/mobile/2.htm可以使用移动设备浏览器查看效果。效果使用到jquery-2.1.4.min.js，该版本的jQuery库是用于支持HTML5的浏览器上，不再兼容IE8以前的浏览器，现在移动端浏览器一般都支持HTML5，所以使用该jQuery没问题。HTML文件代码： <!DOCTYPE html> <h
AspectJ+Javasist记录日志 kane_xie aspectj javasist
在项目中碰到这样一个需求，对一个服务类的每一个方法，在方法开始和结束的时候分别记录一条日志，内容包括方法名，参数名+参数值以及方法执行的时间。 @Override public String get(String key) { // long start = System.currentTimeMillis(); // System.out.println("Be
redis学习笔记 MJC410621 redis NoSQL
1)nosql数据库主要由以下特点：非关系型的、分布式的、开源的、水平可扩展的。 1，处理超大量的数据 2，运行在便宜的PC服务器集群上， 3，击碎了性能瓶颈。 1)对数据高并发读写。 2)对海量数据的高效率存储和访问。 3)对数据的高扩展性和高可用性。 redis支持的类型： Sring 类型 set name lijie get name lijie set na
使用redis实现分布式锁 qifeifei
在多节点的系统中，如何实现分布式锁机制，其中用redis来实现是很好的方法之一，我们先来看一下jedis包中，有个类名BinaryJedis,它有个方法如下： public Long setnx(final byte[] key, final byte[] value) { checkIsInMulti(); client.setnx(key, value); ret
BI并非万能，中层业务管理报表要另辟蹊径张老师的菜大数据 BI 商业智能信息化
BI是商业智能的缩写，是可以帮助企业做出明智的业务经营决策的工具，其数据来源于各个业务系统，如ERP、CRM、SCM、进销存、HER、OA等。 BI系统不同于传统的管理信息系统，他号称是一个整体应用的解决方案，是融入管理思想的强大系统：有着系统整体的设计思想，支持对所有
安装rvm后出现rvm not a function 或者ruby -v后提示没安装ruby的问题 wudixiaotie function
1.在~/.bashrc最后加入 [[ -s "$HOME/.rvm/scripts/rvm" ]] && source "$HOME/.rvm/scripts/rvm" 2.重新启动terminal输入： rvm use ruby-2.2.1 --default 把当前安装的ruby版本设为默

David Silver 强化学习Lecture4：Model-Free Prediction

1 Introduction

2 Monte-Carlo Learning

2.1 Monte-Carlo Reinforcement Learning

2.2 Monte-Carlo Policy Evaluation

2.3 First-Visit Monte-Carlo Policy Evaluation

2.4 Every-Visit Monte-Carlo Policy Evaluation

2.5 Incremental Mean

3 Temporal-Difference Learning

3.1 MC and TD

3.2 Advantages and Disadvantages of MC vs. TD

3.3 Certainty Equivalence

MC算法

TD算法

3.4 Unified View

MC算法

TD算法

DP算法

4 TD(λ)

4.1 n-Step Prediction

4.2 n-Step Return

4.3 Forward View of TD(λ)

λ λ 收获

4.4 Backward View TD(λ)

你可能感兴趣的:(强化学习)

λ 收获