xyk_hust

David Silver《强化学习RL》第七讲策略梯度

前一讲主要讲解的是价值函数的近似，然后根据价值函数来制定策略。本讲中策略P(a|s)将从一个概率集合摇身变成函数本身π(s,a)，通过借助策略相关的目标函数梯度的引导，寻找与目标函数的极值，进而得到最优策略。

本讲组织架构如下：先提出价值函数在某些情况下不能很好的解决问题，同时直接基于策略的分析在某些场合具有价值函数不能替代的优点，接着引入了直接基于策略学习所需要的目标函数的设计，引入了策略梯度的概念，从有限差分法、理论分析两种途径解释了策略梯度的计算原理，介绍了两种基本的策略及梯度计算方法。在以上内容基础上，提出了应用策略梯度进行强化学习的Actor-Critic算法，给出了其算法流程并一些算法改善的方法。同样，随着深度学习库的发展，本讲中提到的一些策略的梯度计算公式在实际应用中不多，但对于理论理解还是非常有帮助的。与对价值函数的近似优化一样，基于策略函数的优化同样是不依赖模型（Model Free）的。

由于本讲的视频中少了David Silver的现场讲解，因此对于理解部分内容增加了难度，特别是本讲后期的一些讲解，我没有完全弄明白，理解不深，只是按照字面做了一些翻译。这其中可能存在较大的错误。我会阅读一些相关文献以加深对这部分内容的理解，而后逐渐修改完善这部分内容，使得其尽可能准确。同时我在理解本讲时做了较多的编程实践，其中有很多次不好的结果，结合这些实践，写了较多的“个人体会”，这些体会也可能是不准确的，欢迎读者批评指正。

简介 Introduction

上一讲主要内容是如何对价值函数进行近似的参数化表达，包括状态价值函数和行为价值函数：

随后一个策略可以直接从价值函数中产生，比如使用Ɛ-greedy探索方法。

本节将直接参数化策略本身，同时参数化的策略将不再是一个概率集合而是一个函数：

上式将策略函数理解成参数化的策略函数。策略函数确定了在给定的状态和一定的参数设置下，采取任何可能行为的概率，因此事实上它是一个概率密度函数。在实际应用策略产生行为时，是按照这个概率分布进行行为采样的。策略函数里的参数决定了概率分布的形态。

参数化的目的是为了解决大规模问题。在大规模的问题里，把每一个状态严格的独立出来指出某个状态下应该执行某个行为是不太可能的。因此我们需要参数化，用少量的参数来合理近似实际的函数。

我们要做的是利用参数化的策略函数，通过调整这些参数来得到一个较优策略，遵循这个策略产生的行为将得到较多的奖励。具体的机制是设计一个目标函数，对其使用梯度上升（Gradient Ascent）算法优化参数以最大化奖励。

回顾：基于价值和基于策略的强化学习

比较了Value-Based和Policy-Based的强化学习，指出前者通过学习价值函数指导策略制定（例如Ɛ-greedy执行方法）；后者则没有价值函数，直接学习策略；还有一种既学习价值函数也学习策略的方法，叫Actor-Critic强化学习，本讲稍后会讲解它。

基于策略学习的优缺点

优点：

1. 基于策略的学习可能会具有更好的收敛性，这是因为基于策略的学习虽然每次只改善一点点，但总是朝着好的方向在改善；但是上讲提到有些价值函数在后期会一直围绕最优价值函数持续小的震荡而不收敛。

2. 在对于那些拥有高维度或连续状态空间来说，使用基于价值函数的学习在得到价值函数后，制定策略时，需要比较各种行为对应的价值大小，这样如果行为空间维度较高或者是连续的，则从中比较得出一个有最大价值函数的行为这个过程就比较难了，这时候使用基于策略的学习就高效的多。

3. 能够学到一些随机策略，下文举了一个很好的例子；但是基于价值函数的学习通常是学不到随机策略的。

4. 有时候计算价值函数非常复杂。比如当小球从从空中某个位置落下你需要左右移动接住时，计算小球在某一个位置时采取什么行为的价值是很难得；但是基于策略就简单许多，你只需要朝着小球落地的方向移动修改策略就行。

缺点：

原始的、未经改善（Naive）的基于策略的学习有时候效率不够高，有时候还有较高的变异性（方差，Variance）。因为基于价值函数的策略决定每次都是推促个体去选择一个最大价值的行为；但是基于策略的，更多的时候策略的选择时仅会在策略某一参数梯度上移动一点点，使得整个的学习比较平滑，因此不够高效。有时候计算朝着梯度方向改变的增量也会有较高的变异性（方差），以至于拖累了整个算法速度，但是通过一些修饰，可以改进。

在具体解决问题时，需要评估问题的特点来决定是主要使用基于价值的学习还是基于策略的学习。

随机策略有时是最优策略

对于石头剪刀布的游戏，只要一方有一个确定性的策略，就会被对手抓住进而整体上输掉。这个时候最好的策略就是随机选择每次出法，以得到最大可能的总体奖励。

再举一个例子：在下图的格子世界中，个体需要避免碰到骷髅而尽可能找到钱袋子。在上方的5个格子组成的“长廊”中，当以某些对个体来说较容易观测的特征来描述状态空间时，灰色的两个格子将会是无法区分的。

比如我们用某一个格子的某个方向是否有墙挡住这些特征来描述格子状态，也就是作为格子世界状态空间的特征时，就会发生灰色格子状态一样的情况，这就是状态重名（Aliased）。

又比如我们可以用“某格子在北面有墙，同时向东移步”来作为状态行为空间的特征时，也会发生上述情况。

基于价值函数的策略有时无法得到最优策略

在上述情况中，发生了格子重名的（Aliased）情况，如果采用确定性的策略话，在个体处于无论哪个灰色格子时，都只能选取相同的行为。假设个体现在学到了一个价值函数，在这个价值函数里状态就是基于上述特征的参数化表示，此时当个体处在灰色格子中，如果采取的是greedy执行的方式，价值函数给出的策略要么都是向东，要么都是向西。如果是向西，那么当个体处在左侧灰色格子时，它将一直（对于greedy执行）或很长时间（对于Ɛ-greedy执行）徘徊在长廊左侧两个格子之间而无法到达有钱袋子的格子，因而很长时间得不到奖励。

当发生状态重名情况时，随机策略将会优于确定性的策略。之前的理论告诉我们对于任何MDP总有一个确定性的最优策略。不过那是针对状态可完美观测、或者使用的特征可以完美描述状态的情况下的。当发生状态重名无法区分或者使用的近似函数里描述状态的特征限制了对状态的完美描述时，个体得到的状态信息等效于部分观测的环境信息，问题将不具备马儿可夫性。此时最优策略将不再是确定性的。而直接基于策略的学习将能学习到最优策略，这就是我们为什么要直接基于策略进行强化学习的原因。

策略目标函数

那么直接基于策略的学习是如何优化策略的呢？要搞清楚这个问题，我们得搞清楚下面这个问题：我们优化策略的最终目的是什么？尽可能获得更多的奖励。我们设计一个目标函数来衡量策略的好坏，针对不同的问题类型，这里有三个目标函数可以选择：

1. Start value：在能够产生完整Episode的环境下，也就是在个体可以到达终止状态时，我们可以用这样一个值来衡量整个策略的优劣：从某状态s1算起直到终止状态个体获得的累计奖励。这个值称为start value. 这个数值的意思是说：如果个体总是从某个状态s1开始，或者以一定的概率分布从s1开始，那么从该状态开始到Episode结束个体将会得到怎样的最终奖励。这个时候算法真正关心的是：找到一个策略，当把个体放在这个状态s1让它执行当前的策略，能够获得start value的奖励。这样我们的目标就变成最大化这个start value：

2. Average Value：对于连续环境条件，不存在一个开始状态，这个时候可以使用 average value。意思是考虑我们个体在某时刻处在某状态下的概率，也就是个体在该时刻的状态分布，针对每个可能的状态计算从该时刻开始一直持续与环境交互下去能够得到的奖励，按该时刻各状态的概率分布求和：

注：是在当前策略下马尔科夫链的关于策略的一个静态分布。

个人体会：对于持续状态，此时要确定个体在某一时刻某个状态开始持续与环境交互能够得到的奖励已经无法得到一个真实确切的结果了，因为要持续交互下去。这里已经用到了状态的价值，而不是收获，并且必须要考虑衰减系数。

3. Average reward per time-step：又或者我们可以使用每一个时间步长在各种情况下所能得到的平均奖励，也就是说在一个确定的时间步长里，查看个体出于所有状态的可能性，然后每一种状态下采取所有行为能够得到的即时奖励，所有奖励按照概率求和得到：

个人体会：这里的time-step不是说一定长度的时间平均，而是指一个确定的时刻。其实这三个式子的目标都是同一个目标，都是试图描述（衡量）个体在某一时刻的价值。

优化目标函数

找到目标函数，下一步的工作是优化策略参数然后使得目标函数值最大化。因此可以说基于策略的强化学习实际上是一个优化问题，找到参数θ来最大化目标函数。有些算法使用梯度，有些则不使用梯度。如果有机会得到梯度，那么使用梯度上升的算法通常更加优秀一些。理解了使用梯度的算法的使用，那么也将很容易将不基于梯度的算法应用到策略优化中。

本讲内容将主要聚焦于使用梯度的策略优化，同时使用基于序列结构片段（equential structure）的方法。怎么理解基于序列结构呢？打个比方，我们不会去让个体持续与环境交互直至耗光其整个生命周期，然后得到一个结果，根据这个结果来优化策略，这类似于遗传算法。这样做对于个体来说就没有意义了。我们选取个体与环境交互中的一个序列结构片段，通过这种序列结构片段来学习，优化策略进而指导个体后续与环境的交互。

以上就是本讲的简介，下面将终点介绍目标函数、梯度上升等。

有限差分策略梯度Finite difference Policy Gradient

策略梯度 Policy Gradient

令J(θ)可以是任何类型的策略目标函数，策略梯度算法可以使J(θ)沿着其梯度上升至局部最大值。同时确定获得最大值时的参数θ：

上式中▽θ J(θ)是策略梯度：

α是步长参数，又称学习率。

有限差分法计算策略梯度

这是非常常用的数值计算方法，特别是当梯度函数本身很难得到的时候。具体做法是，针对参数θ的每一个分量 $\theta_k$ ，使用如下的公式粗略计算梯度：

是一个单位向量，仅在第k个维度上值为1，其余维度为0。

有限差分法简单，不要求策略函数可微分，适用于任意策略；但有噪声，且大多数时候不高效。

举了一个利用有限差分法训练机器人足球运动员，指出其训练参数是控制机器人运动的12个参数，其目标是让其跑得最快，因为跑得快在机器人足球比赛里非常重要。

注：该方法在可以用来检验机器器学习中一些梯度算法是否正确。

蒙特卡罗策略梯度 Monte-Carlo Policy Gradient

现在我们将理论分析并计算策略梯度。这要求策略在执行行为时刻是可微分的，并且其梯度是能计算出来的。

这里借用了Likelihood ratios（似然比、似然系数）这个概念。

函数在某个变量θ处的梯度等于该处函数值与该函数的对数函数在此处梯度的乘积：

这里使用到了一个关系：

我们定义Score function为：

举了两个例子来解释Score function 函数：

Softmax策略

Softmax策略是针对一些具有离散的行为常用的一个策略。我们希望使用平滑的参数化的策略来决策：针对每一个离散的行为，应该以什么样的概率来执行它。

为此，我们把行为看成是多个特征在一定权重下的线性代数和：

而我们采取某一具体行为的概率与e的该值次幂成正比：

举个例子：假设我们在玩一个Atari类游戏，我们想知道应该朝左还是朝右移动。Softmax策略如何做呢？结合下图来解释：

注：这个例子是我自己添加的，旨在解释如何计算Score，其实针对两个离散行为其实不必设计2个输出，读者可以把它看成两个以上的输出来理解。

先为个体能够观测到的状态信息选定一些特征假设现在有f1-f5共5个特征，这些特征可以是人为选取的，也可以是算法计算得到的（例如可以是把观测状态信息作为输入送入神经网络得到的隐藏层数据）。向左走与其中的某些特征联系比较紧，向右走与另外一些特征关系比较紧，图中两个行为与每个特征都有联系，这种联系的紧密程度就用参数θ表示，参数θ不是一个值，而是针对每一个特征行为对都有一个具体的数值，因此它可以看成是一个矩阵，现在当环境以每个特征不同强度的形式展现在个体面前时，个体会针对向左、向右两个行为同时计算其带权重的线性代数和，假设算得向左的值为5，向右的为6。向左（右）这个行为发生的概率就与（）成正比。Softmax策略下Score函数的值容易计算，可以写成如下的形式：

上式中，等号右边第一部分是采取某行为的Score，第二部分是当前状态的期望分值。拿回刚才的例子来说，这个期望就是5和6的分别乘以其概率的和：

因此，向左走的Score值是-0.73（5 - 5.73），向右走的Score值是0.27（6 - 5.73），说明向左走比随机行为的价值要低，向右走比随机行为的价值要高。假如此时个体选择了向左走并且得到了一个正的即时奖励，个体将要提高向左这一行为被采样的概率，也就是提高向左走的分值。那么确定向左走分值的参数如何调整呢？根据每一个参数对应的输入（也就是特征值）的大小做相应的调整，特征值为正，参数值增大；特征值为负，参数值减小。

高斯策略

与Softmax策略不同的是，高斯策略常应用于连续行为空间，打个比方：如果控制机器人行走，要调整流经控制某个电机的电流值，而这是一个连续的取值。

使用高斯策略时，我们通常对于均值有一个参数化的表示，同样可以是一些特征的线性代数和：

方差可以是固定值，也可以用参数化表示。

行为对应于一个具体的数值，该数值从以μ(s)为均值、σ为标准差的高斯分布中随机采样产生：

对应的Score函数是：

其形式也相对简单。下图是引自Karpathy一篇博文的直观解释：

图解翻译：使用score function估计梯度的可视化。左：高斯分布下的一些采样（蓝点），针对每一个蓝点也画出了根据高斯分布均值得到的概率对数的梯度。箭头指示的方向是能够增加该采样点采样概率的分布的均值（对于高斯分布来说，是等值线的中心点）移动的方向；中：大多数采样点对应的score function值是-1，除了一小块区域是+1（score function可以是任意、并且不要求可微的标量函数），此时箭头用不同颜色表示，在随后的更新中，我们将要把所有绿色的值和负的红色值进行平均来更新分布参数（均值）；右：参数更新后，绿色箭头的方向和红色箭头的反方向推动了行程均值朝着左下方移动的新的高斯分布，从这个新分布的采样将会按照预期有一个较高的score。

以上只是给了关于Score函数的直观表示，更深入的理解需要结合策略梯度学习来讲解。不过有了这些常用的策略，我们可以看看这些公式是如何体现在优化策略的目标函数里的，这就是后文要介绍的：策略梯度定理。

Softmax策略和高斯策略的编程体会：利用这两个策略进行实际编程时，要特别注意梯度消失或梯度爆炸的现象，Score Function通常应用于当下代码很难得到梯度的时候；当使用一些机器学习库的时候，可以通过带入损失值，直接计算得出目标函数的梯度，此时就不需要计算Score Function的值了。

策略梯度定理 Policy Gradient Theorem

先考虑如下一个非常简单的单步MDP问题：从一个分布中采样得到一个状态s，从s开始，采取一个行为a，得到即时奖励然后终止。整个MDP只有一个状态、行为、即时奖励。在这个MDP过程中，如何最大化奖励？

由于是单步过程，因此三种目标函数的形式是一样的：

相应的梯度是：

可以看出目标函数的梯度等于策略函数对数梯度与即时奖励两部分乘积的期望，而根据之前的介绍，这两部分都是较为容易确定的。因此参数的更新就变得容易了。一个问题是单步MDP的情况是否适用于多步MDP呢？

答案是肯定的。唯一要变动的就是把即时奖励值换成目标的Q值，而且这对于三种目标函数都是通用的。有如下定理：

定理：对于任何可微的策略 ，对于任何策略的目标函数 ，或者 ，策略梯度都是：

David在此略微解释了目标函数梯度在强化学习里的特点。如果在监督学习里，目标函数的梯度不包括价值函数，当前状态、行为的好坏将有监督信息告知；而在强化学习里，需要通过价值函数来估计当前状态行为的好坏。

有了上述公式，我们就可以着手设计算法，解决实际问题了。记住在强化学习里，在谈到学习算法时，应该马上能想到三大类算法：动态规划（DP）、蒙特卡洛（MC）学习和时序差分（TD）学习。DP适用于中小规模问题，不是本讲的重点。我们先从MC学习开始讲起。

蒙特卡洛策略梯度

针对具有完整Episode的情况，我们应用策略梯度理论，使用随机梯度上升来更新参数，对于公式里的期望，我们通过采样的形式来替代，即使用t时刻的收获（return）作为当前策略下行为价值的无偏估计。

算法描述是这样的：我们先随机初始化策略函数的参数θ，对当前策略下的一个Episode：

从t=1到t=T-1间的每一个时刻，计算个体获得的收获，然后更新参数θ。如此然后重复每一个Episode，直到结束。具体算法如下：

注：上面描述中就是收获，这里使用而不是可能考虑的是用它来作为价值的期望，从这里也可以看出这是有噪声的采样。

示例——Puck世界：

举了一个在区域里追踪一个目标的例子：有一个五边形的目标物体，同时还有一个Agent：

状态空间：个体观察自己的位置(x,y),速度(vx,vy)以及目标物体（图中的五角形）的位置（tx,ty），共6个特征。

行为空间：个体控制自己在上、下、左、右四个方向上的油门（速率的增量），和不操作5个行为。

环境动力学：将个体的行为转化为其速度和位置的变化。目标物体出现位置随机，且每30秒时间更新位置。

奖励：奖励值的大小基于个体与目标物体之间的距离，距离越小奖励越大。

Puck世界还有很多变种，例如在世界里再增加一个惩罚目标，个体需要在躲避该目标的同时尽可能接近要靠近的目标（请参考这里）。

使用蒙特卡洛策略梯度算法收敛速度慢，需要的迭代次数长，还存在较高的变异性。那么尝试基于TD的学习算法呢？

Actor-Critic策略梯度

使用蒙特卡洛策略梯度方法使用了收获作为状态价值的估计，它虽然是无偏的，但是噪声却比较大，也就是变异性（方差）较高。如果我们能够相对准确地估计状态价值，用它来指导策略更新，那么是不是会有更好的学习效果呢？这就是Actor-Critic策略梯度的主要思想。

Actor-Critic的字面意思是“演员-评论”，相当于演员在演戏的同时有评论家指点继而演员演得越来越好。即使用Critic来估计行为价值：

基于Actor-Critic策略梯度学习分为两部分内容：

1. Critic：参数化行为价值函数

2. Actor：按照Critic部分得到的价值引导策略函数参数θ的更新。

这样，Actor-Critic算法遵循的是一个近似的策略梯度：

可以明显看出，Critic做的事情其实是我们已经见过的：策略评估，他要告诉个体，在由参数确定的策略到底表现得怎么样。关于策略评估我们之前已经学过如何做了，你可以使用蒙特卡洛策略评估、TD学习以及TD(λ)等，你也可以使用上一讲介绍的最小方差方法。

一个简单的actor-critic算法可以使用基于行为价值的critic，它使用一个线性价值函数来近似状态行为价值函数：

其中Critic通过线性近似的TD(0)更新w，Actor通过策略梯度更新θ。具体算法流程如下：

注：该算法仅是基于线性价值函数的近似的Actor-Critic算法。

这是一个在线实时算法，针对每一步进行更新，不需要等到Episode结束。

在基于策略的学习算法中，算法挑选策略的时候不需使用Ɛ-贪婪搜索，策略是直接根据参数θ得到的。同时在对策略参数更新时有一个学习率α，它体现了在梯度方向上更新参数θ的步长（step size），一般的我们在更新参数时是按梯度方向只更新由α确定的一定量。打个比方，当前策略在更新时提示梯度方向倾向于选择“向左”的行为，那么在更新策略参数时，可以朝着向左的方向更新一定的值，如果这个α取值增大，则导致决策朝着更容易选择“向左”的行为倾斜，这其实就相当于没有探索的贪婪决策行为。而只要学习在持续，就有可能因为梯度变化而尝试更多的行为，这一过程中参数α控制了策略更新的平滑度。

David还回答了一个很好的提问：如果使用策略梯度方法，是否还能确保发现唯一的全局最优解，还是会陷入一个局部最优解？

他的回答是：如果基于价值函数制定策略，使用查表（table look-up)的方式可以保证能收敛到全局最优解，即虽然使用直接基于策略的学习方法，当仍然使用查表的方式时，比如使用softmax策略是可以得到全局最优解的；但是如果使用一些通用化的近似函数表示方法，比如神经网络等，则无论是基于价值函数还是基于策略，都可能陷入局部最优解。对于介于两者之间的部分方法，还没有完整的研究结果。

用特征的线性组合来近似进而求解策略梯度的方法引入了偏倚，一个偏倚的价值下得到的策略梯度不一定能最后找到较好的解决方案，例如当近似价值函数的使用可能会引起状态重名的特征时，还能解决那个格子世界问题吗（指前文提到的在格子世界里找钱袋子的问题），答案是不一定了。不过幸运的是，如果我们小心设计近似的函数，是可以避免引入偏倚的，这样我们相当于遵循了准确的策略梯度。

注：table look-up方式表明没有近似。

兼容近似函数 Compatible Function Approximation

那么怎样才算是一个小心设计了的呢？需要满足下面两个条件:

1. 近似价值函数的梯度完全等同于策略函数对数的梯度，即不存在重名情况：

2. 价值函数参数w使得均方差最小：

符合这两个条件，则认为策略梯度是准确的，此时：

在这个理论的基础上，我们对Actor-Critic方法做一些改进，其中一个方法是：

通过使用基线的方式来减少变异性 Reducing Variance Using Baseline.

其基本思想是从策略梯度里抽出一个基准函数B(s)，要求这一函数仅与状态有关，与行为无关，因而不改变梯度本身。 B(s)的特点是能在不改变行为价值期望的同时降低其Variance。当B(S)具备这一特点时，下面的推导成立：

推导过程解释：策略函数对数的梯度与基准函数乘积的期望可以表示为第一行等式对策略函数梯度与B(s)的乘积对所有状态及行为分布的形式，这步推导主要是根据期望的定义，以及B是关于状态s的函数而进行的。由于B(s)与行为无关，可以将其从针对行为a的求和中提出来，同时我们也可以把梯度从求和符号中提出来（梯度的和等于和的梯度），从而后一项求和则变成：策略函数针对所有行为的求和，这一求和根据策略函数的定义肯定是1，而常数的梯度是0。因此总的结果等于0 。那么如何设计或者寻找这样一个B(s)呢？

原则上，和行为无关的函数都可以作为B(s)。一个很好的B(s)就是基于当前状态的状态价值函数：

这样我们通过使用一个advantage function（便利函数？称为A函数吧），定义：

这个便利函数的现实意义在于，当个体采取行为a离开s状态时，究竟比该状态s总体平均价值要好多少？

如此一来，目标函数的梯度可以写成：

现在目标函数梯度的意义就改变成为了得到那个“好多少”，我应该怎么做（改变策略参数）

Advantage 函数可以明显减少状态价值的变异性，因此算法的Critic部分可以去估计advantage函数而不是仅仅估计行为价值函数。在这种情况下，我们需要两个近似函数也就是两套参数，一套用来近似状态价值函数，一套用来近似行为价值函数，以便计算advantage函数，并且通过TD学习来更新这两个价值函数。数学表示如下：

不过实际操作时，并不需要这样做。这是因为：

根据定义，TD误差可以根据真实的状态价值函数算出：

这样得到的TD误差是advantage函数的无偏估计，这同样是根据行为价值函数的定义推导成立的，即：

如此，我们就可以使用TD误差来计算策略梯度：

实际运用时，我们使用一个近似的TD误差，即用状态函数的近似函数来代替实际的状态函数：

这样做的好处就是，我们只需要一套参数描述状态价值函数，而不再需要针对行为价值近似函数了。

针对Critic过程使用TD(λ)

随后介绍了通过计算不同时间范围内（步长）的TD 误差来更新状态价值函数 $V_\theta(s)$ ，此时的Critic过程可以根据时间范围的的长短（步长的多少）来分为

MC - 直至Episode结束：

TD(0) - 一步：

TD(λ)的前向视角 - 需要至Episode结束：

TD(λ)的后向视角 - 实时，具备频率记忆和近时记忆功能：

针对Actor过程使用TD(λ)

同样在Actor过程中也可以把时间范围考虑进去用来更新参数，具体公式为：

策略梯度可以表示为。

类似的，

MC - 直至Episode结束：

TD(0) - 一步：

TD(λ)的前向视角 - 需要至Episode结束：

TD(λ)的后向视角 - 实时，具备频率记忆和近时记忆功能：

对于Critic和Actor，将TD(λ)的后向视角算法应用于实际问题时，可以在线实时更新，而且不需要完整的Episode。

【start: 下面的内容由于理解不深，故而仅作了字面翻译，字面翻译可能与作者实际要表达的意思存在较大差异，请酌情阅读】

再认识Compatible Function Approximation和Score函数（从视频1:24:00开始)

用带参数的函数去近似真实状态函数，相当于产生了一些带参数的梯度去代替实际的梯度。但是如果我们小心设计了近似价值函数的特征，那么是可以保证两者梯度是同一的。难点在于近似价值函数特征的选择。事实上我们在构建近似价值函数时选用的特征本身其实是从某一个角度对策略进行评估的Score Function。通过对这些具备Score function特点的特征进行线性求和，我们能确保两者的梯度是一致的。

体会：可以看出兼容近似函数体现了状态价值的特征，而Score function，就如同其名字，是评价这些特征的得分。

近期进展（从视频1:26:20开始）

到目前为止，我们考虑的都是较为随机的策略，像高斯策略等，我们在估计策略梯度时用的都是一些加入了噪声的随机采样。事实上，这种想法其实是很不好的。当你基于高斯策略开始学习时，你会发现随着策略的不断优化，也就是希望高斯分布越来越窄（集中于均值附近）。当策略随着时间优化时，你会发现高斯分布的方差越来越大，准确地估计策略梯度变得越来越困难，这就导致最后并不能找到最优策略，这是目前我们介绍的所有策略梯度算法的不幸的一面。

似乎有一种替代方案，这也是我们最近的发现。与其引入随机策略，使用有噪声的采样，不如直接从有限的确定性的策略开始学习。我们根据这些确定性的策略来调整策略参数。当我们使用在有限Episode(case)中使用确定性的策略学习，我们得到的关于参数的更新表达式和之前介绍的会有些不一样。不过我们可以仅仅把他看成是另一种重写形式。通过这种方式，我们可以把噪声的影响降为0 。

在Critic部分，关于实际Q函数的参数化近似也可以体现对策略更新的方向，我们需要做的事是在设计近似函数时尽可能的考虑每一个参数对于Q的意义。

这相当与一个链式规则：朝着可以得到更多的Q值的方向调整策略。

以上就是确定性策略理论，通常比随机策略效果要好。

Natural Policy Gradient

Natural actor-critic没详细展开讲。

总结

重提了许许多多形式的策略梯度函数的形式，都是用随机梯度上升算法；同样Critic部分使用策略评估来实现，这个在之前的lecture里讲过，可以使用MC或者TD,TD(λ)等去估计状态价值函数、行为价值函数或advantage函数等。

个人体会：虽然上述算法是等效的，但是在实际编程实现时效果却相差很多，个人觉得要主要归因于超参数的设置以及一些具体的调参技术。

本讲完。本讲是我个人认为的第二部分最具亮点同时也是比较难的一部分内容。下一讲将讲解个体如何构建一个模型，并依赖该模型整合学习与规划，这一讲里将接触到AlphaGo战胜人类围棋大师使用的主要算法思想。敬请期待。

你可能感兴趣的:(强化学习理论,强化学习理论,策略梯度,David,Silver,强化学习,价值函数,目标函数)

现代前端开发流程：CI/CD与自动化部署实战天天进步2015 前端开发 ci/cd 自动化运维
目录引言现代前端开发面临的挑战CI/CD基础概念前端CI/CD流程设计实战案例：构建前端CI/CD管道自动化部署策略监控与回滚机制最佳实践与优化建议总结引言随着前端技术的飞速发展，现代Web应用变得越来越复杂。前端项目不再只是简单的HTML、CSS和JavaScript文件的集合，而是演变成了包含众多依赖项、构建工具和框架的复杂系统。在这种情况下，持续集成和持续部署（CI/CD）流程成为了确保前端
Delphi EDI 需求分析与对接指南
德尔福科技（DelphiTechnologies）是全球领先的汽车零部件及系统顶级供应商之一，尤其在动力总成和电子电气技术领域实力雄厚。如今，德尔福科技专注于燃油喷射系统、电气化解决方案、售后市场部件等。本文将主要介绍Delphi的EDI需求以及如何基于知行之桥EDI系统实现与Delphi的EDI对接。DelphiEDI需求分析成功对接DelphiEDI，供应商必须满足以下核心目标，这些正是知行之
C语言基础（5）穆霖祎 c语言开发语言
一、条件表达式表达格式为表达式1？表达式2：表达式执行顺序为自左向右表达式1为逻辑或关系表达式，判断表达式1为真，输出结果为2，若1为假，则输出结果3。例如intx=10，inty=9a=（--x==y++）？--x：++y其中式子1为真，所以输出--x，a的输出结果为8。二、循环控制2.1goto语句goto语句又称无条件跳转语句，用法为goto+自定义函数名，执行到该语句时自动跳转到自定义函数
Rsync自动协商同步数据陈大为_d962
Rsync命令使用#rsync-av[源目录][目标目录]//归档方式进行全部文件复制#rsync-aruv[源目录][目标目录]//归档方式进行增量复制#rsync-aruv--delete[源目录][目标目录]//增量复制并会删除源目录中被删除的目录或文件，用于切换前的最后一次增量同步使用nohup可以将进程放置在后台并记录日志:nohup>/tmp/rsync-xxxx-xx-xx.logr
小目标2021-11-17 卢队长
今天大盘指数都是收涨，在趋势当中，关注每天的指数涨跌其实意义不大，更要关注的是个股行情，今天军工和我预料的一样，开盘下跌进行洗盘，后面拉升暴涨收盘，队长也是在低位进行了一个加仓，又吃到一波肉，但是，在股市要想活得长久就得时刻注意风险，赚比不赚好，不亏比亏好，目前军工板块应该在中上点位，任何股票最大的风险就是涨得过多，所以目前来说继续大涨就要进行仓位控制，降低仓位，如果大跌就增加仓库，这样灵活机动，
『阅读•思考•灵性新苑‖第十辑/302/1001』《心灵的潜能:硅谷亿万富翁成功秘钥》 4 查尔斯·哈奈尔著梁红李艳红译景熙惟
第6章（部分节选）英国著名诗人乔治·赫伯特说过，意识到我们是什么人比我们已经做了什么重要得多。如果不能够十分确定选择的目标是否合乎正义、个性需求或者具有合理性，就应该及时放弃那个目标。今天人们很容易将错误、不当的事物加以粉饰，不断地伪装，使其看起来很像正确的事物。这种做法现在已经成为习以为常的事情，也是一种令人感到司空见惯的现象。一个人在面对压力和挑战的时候，那种镇定自若的理性竟然能够战胜天然的是
【商城实战(45)】商城系统优化：从蹒跚学步到健步如飞奔跑吧邓邓子商城实战商城实战商城系统优化
【商城实战】专栏重磅来袭！这是一份专为开发者与电商从业者打造的超详细指南。从项目基础搭建，运用uniapp、ElementPlus、SpringBoot搭建商城框架，到用户、商品、订单等核心模块开发，再到性能优化、安全加固、多端适配，乃至运营推广策略，102章内容层层递进。无论是想深入钻研技术细节，还是探寻商城运营之道，本专栏都能提供从0到1的系统讲解，助力你打造独具竞争力的电商平台，开启电商实战
Zephyr_FileSystems LikeShadows zephyr filesystem zephyr api RTOS 文件系统
1.文件系统（FileSystems）ZephyrRTOS的虚拟文件系统开关允许应用程序在不同的挂载点（如：/fatfs和/nffs）挂载多个文件系统。挂载点数据结构包含实例化、挂载和操作文件系统所需的所有必要的信息。文件系统开关通过引入文件系统注册机制，将应用程序从直接访问一个文件系统指定的API或内部函数分离开。在Zephyr中，任何文件系统的实现或库可以通过一个文件系统注册API插入或拔出。
经营十二条系列：志在必得-经营取决于坚强的意志山东求是达明
“经营取决于坚强的意志”是稻盛和夫老先生经营十二条的第七条，稻盛老先生认为，所谓经营就是经营者意志的表达。一旦确定目标，无论发生什么情况，目标非实现不可，这种坚强的意志在经营中必不可缺。经营没有任何借口不少经营者眼看目标不能达成，或寻找借口，或修正目标，甚至将目标、计划全盘撤销。经营者这种轻率的态度，不仅使实现目标变得根本不可能，而且给予员工极大的消极影响。“没有任何借口”是美国西点军校200年来
2021.7.1 菲儿瑜伽
今天早早的就开始工作了，可有点不开心给自己定的目标没有完成，唉～感觉自己的加资源好像还是会有些不适应，心理防线还是蛮难突破的，我想还是给自己一点时间，跟着店长的节奏，不能着急，不然会让自己失去信心的，所以调整好心态，明天定个35吧！
C#复习资料洁辉 c#java jvm
核心目标：理解原理、掌握应用、避开陷阱、应对提问。一、类型系统(TypeSystem)-面试基石&高频考点值类型(ValueTypes)vs引用类型(ReferenceTypes)本质区别：值类型(struct,enum,基本类型如int,double,bool,char,decimal,DateTime):存储：数据本身直接存储在变量位置（通常栈上，或嵌入在引用类型对象中）。赋值/传参：复制整个
C语言-动态内存管理第三世界的诗人动态内存管理 c语言 c语言
目录C语言-动态内存管理相关库函数内存耗尽野指针野指针产生原因：动态内存分配应用经验C语言-动态内存管理动态内存管理，就是程序执行的过程中，由程序编写者动态的申请和回收内存空间。C语言内存的动态分配一般通过库函数实现，主要有malloc和free函数。位置：在堆上。连接：https://blog.csdn.net/USA_AM_1966/article/details/89509589相关库函数1
Python练习（6）Python面向对象编程三大特性：封装、继承与多态的15道实战练习题（含答案与深度解析）一个天蝎座白勺程序猿 python 开发语言
目录引言封装篇（5题）练习1：银行账户安全封装练习2：属性装饰器控制练习3：私有方法调用练习4：受保护属性继承练习5：类属性封装继承篇（5题）练习6：单继承与方法重写练习7：多继承与MRO练习8：抽象基类实现练习9：Mixin模式练习10：super()函数应用多态篇（5题）练习11：接口多态练习12：鸭子类型练习13：多态与异常处理练习14：多态与类型检查练习15：多态与装饰器总结Python爬
你2018年的小目标完成了吗？阿钵
说完了十大人生清单，再来看看今年年初定的计划目标，眼看一年过半不能实现，只好拿出来吹吹水。一、统一祖国，振兴中华。这年头说祖国统一都会被人取笑，真觉得这群人很肤浅。没有国哪来家？早日实现祖国统一是中华民族的大愿，尽管对我们没有直接的影响个联系，但祖国永远在我心中。今年不行明年再努力！一直到愿望实现。二、家庭合睦，家人身体健康。这个年年都有祝福。三、每月至少阅读4本书，一年阅读40本。其实这已经很低
奔跑【Day21/21】彩翼322
坚持日更21天之最后一天！先伸出手指做一个胜利✌的手势，坚持日更21天，我做到了，奖励自己小雀幸，买个又红又大又甜的苹果。结束的同时也是一个全新的开始！图片发自App从最初是不太相信自己能做到的，所以参加自律写作营借助外力来督促自己，借助大家的力量助推自己去完成。到现在准时完成，虽然输出的文字没那么完美流畅，虽然有的时候思绪会卡，会词不达意，这正是要坚持练习的原因，重要的是这个阶段性的目标完成了，
起早贪黑黎福生一品味人生
没规划的人生叫拼图，有规划的人生叫蓝图；没目标的人生叫流浪，有目标的人生叫航行！每天给自己一点时间沉淀，当你可以直面自己身体里与生俱来的笨拙与孤独，你便能够彻底谅解过去的自己！！早上好！各位宗亲们美好的一天从周一开始
1.16，77 知行思合一
七项重要的感知力和技能1、对个人能力的感知力--我能行；2、对自己在重要关系中的价值的感知力--我的贡献有价值，大家确实需要我。3、对自己在生活中的力量或影响的感知力--我能够影响发生在自己身上的事情。4、内省能力强：有能力理解个人的情绪，并能利用这种理解做到自律以及自我控制。5、人际沟通能力强：善于与他人合作，并在沟通、协作、协商、分享、共情和倾听的基础上建立友谊。6、整体把握能力强：以有责任感
MATLAB最优滤波器设计函数firpm的使用详解 codersnote 编程小识 matlab 算法最优滤波器 firpm kaiserord
窗函数法设计的缺点无法选择过渡带、通带、阻带衰减等指标阶数不是最优的凯塞窗[n,wn,beta,ftype]=kaiserord(f,a,dev);h_kaiser=fir1(n,wn
46. 携带研究材料（01背包二维数组） 46. 携带研究材料（01背包一维数组）LeetCode 416. 分割等和子集 Leetcode 1049. 最后一块石头的重量II Tiny番茄算法动态规划
46.携带研究材料（01背包二维数组）题目是给定一个物品的重量数组weight，和物品对应的价值数组value。另外给了背包需要装多少种物品，和背包的容量（即输入两个数组+背包所考虑的物品种类category和背包的容量bagweight）dp数组的定义，下标表示什么含义。dp[i][j]表示容量为j的背包从编号[0,i]之间选取物品进行存放所能达到的最大价值。其中，横轴上的坐标可以考虑为是背包的
2023-5-18晨间日记仓鼠zhi轮_2
今天是坚守日子起床：5：35就寝：23：30天气：多云心情：还行纪念日：假如爱有天意任务清单昨日完成的任务，最重要的三件事：一是八段锦完成一遍，二是完成一遍英语，三是组织会场改进：成立好习惯督导群习惯养成：抓紧做应该做的事情周目标·完成进度：解决难题学习·信息·阅读：宁静致远健康·饮食·锻炼：坚持就是胜利人际·家人·朋友：忙中突进工作·思考：稳住最美好的三件事：1.八段锦2.做饭送餐3.睡觉思考·
21天趁早手账学习之旅 Sugar_沫沫
结缘趁早，是因为朋友推荐使用趁早日程记录本，18年入手后，只是作为日程安排的记录，还有重点工作的梳理和记录。新的一年目标中有一个是要完成Eva老师视觉基础课程，学习和实践视觉记录。无意中看到了趁早发起的活动内容，觉得很有助于新年视觉学习的目标，带着好奇和怀疑报名了（怀疑自己可能无法打满卡，再之后就满怀期待的等着开营，把这作为新年第一个Flag。一晃眼，21天过去了，与其他小伙伴们一起坚持学习和打卡
IDP-L5-学习心得 swag_ae02
进入进阶课，我们的好朋友林菠萝也开启了职业生涯的新的阶段。在回顾她的成长经历时，她有一句话让我印象特别深刻，“我要给工作赋予意义。”而在这当中牵扯到的一个概念就是内驱目标。与之相对应的就是外驱目标。自我决定理论当中提到过我们做一件事情是因为我们自己想做，而不是被迫或者受到强迫而不得不做。因为我们想，我们就会有更强的目标认同感，更敏捷的行动，这样，我们才能实现真正的改变。当我们突然收到上级的紧急任务
分享学焦点生活更美好（137）佳山_b9a5
长沙崔秀凌坚持原创分享第143次2021.3.1第三次咨询实操研习笔记感恩两位老师带来的真诚精彩展示！感动C老师对先生深沉的爱！感动做为一个儿子为父亲及家人的付出！课程收获及感悟：1、咨询思路清晰流畅。2、咨询师基本功扎实。3、咨询师聚焦正向，赞美恰当。4、不断赋能持续推进咨询。5、贴着来访者感觉走，真诚陪伴来访者探索答案。6、评量问句扩大来访者觉知，对厘清咨询目标起到推动作用。7、关注眼前人，看
采取行动张林川_479b
一旦你知道自己想要什么还有目前拥有什么，下一步就是采取行动。但是要采取什么行动呢？创造就是创新，有异于守旧。教育向来强调守住旧传统，所以一般学生的创新经验有限。创新也是一种可以培养出来的技能。当你以实现创造理念为目标来采取行动，但行动可能成功，也可能失败。当行动奏效了，你可以继续同样的行动，或者喊停。有时候，继续会有功效，有时不会。藉由观察当下成效的改变，你可以知道接下来要怎么做。这一切行动，不管
波的时频分析方法——短时傅里叶变换（STFT）变换详解 DuHz 傅立叶分析数学建模信号处理信息与通信算法人工智能概率论
短时傅里叶变换：理论基础、数学原理与信号分析应用1.引言时频分析是现代信号处理的核心技术之一，旨在同时描述信号在时间和频率域的局部特性。传统的傅里叶变换虽然能够完美描述信号的频域特征，但其全局性质使其无法处理非平稳信号的时变特性。短时傅里叶变换通过引入窗函数的概念，在保持傅里叶变换优良性质的同时，实现了时频域的局部化分析，为非平稳信号处理提供了重要的理论工具。STFT自1946年由Gabor提出以
到底DB::listen(function ($query) { ... })；为什么是回调函数？快点好好学习吧 Laravel 数据库
DB::listen(function($query){...});是Laravel中用于监听数据库查询的一个方法。它的核心作用是通过回调函数捕获和处理每个执行的SQL查询及其相关信息。这种设计的选择（使用回调函数）是基于灵活性、解耦性和事件驱动架构的考虑。1.为什么使用回调函数？在DB::listen()方法中，使用回调函数的主要原因包括：a)灵活性回调函数允许开发者以灵活的方式处理每个查询事件
Linux中Centos和Ubuntu的区别是什么? 老男孩IT教育 linux centos ubuntu
Linux是一种免费使用和自由传播的类UNIX操作系统，拥有众多发行版本，其中最受欢迎的就是Centos和Ubuntu，各自具有独特的特点和优势，那么Linux中Centos和Ubuntu的区别是什么?具体请看下文。CentOS和Ubuntu都是流行的Linux发行版，但它们在用途和目标用户方面存在一些关键差异。起源和目标CentOS是RedHatEnterpriseLinux的一个免费和开源版本
window显示驱动开发—在 Direct3D 10 基础上的更改程序员王马 windows图形显示驱动开发驱动开发 java 开发语言
Kernel-Mode服务的驱动程序回调函数当运行时调用用户模式显示驱动程序的CreateDevice(D3D10)函数时，Direct3D版本11运行时在D3DDDI_DEVICECALLBACKS结构中提供的特定于设备的回调函数将驱动程序与内核句柄和内核函数签名隔离开来。Direct3D版本11运行时更改了回调语义，因此，回调函数的实现支持自由线程操作模式，而以前的Direct3D版本运行时不
Java 大视界 -- Java 大数据机器学习模型在金融市场情绪分析与投资策略制定中的应用青云交大数据新视界 Java 大视界 java 大数据机器学习情绪分析智能投资多源数据
Java大视界--Java大数据机器学习模型在金融市场情绪分析与投资策略制定中的应用）引言：正文：一、金融情绪数据的立体化采集与治理1.1多模态数据采集架构1.2数据治理与特征工程二、Java机器学习模型的工程化实践2.1情感分析模型的深度优化2.2强化学习驱动的动态投资策略三、顶级机构实战：Java系统的金融炼金术四、技术前沿：Java与金融科技的未来融合4.1量子机器学习集成4.2联邦学习在合
Python爬虫【二十四章】分布式爬虫架构实战：Scrapy-Redis亿级数据抓取方案设计程序员_CLUB Python入门到进阶 python 爬虫分布式
目录一、背景：单机爬虫的五大瓶颈二、Scrapy-Redis架构深度解析1.架构拓扑图2.核心组件对比三、环境搭建与核心配置1.基础环境部署2.Scrapy项目配置四、分布式爬虫核心实现1.改造原生Spider2.布隆过滤器集成五、五大性能优化策略1.动态优先级调整2.智能限速策略3.连接池优化4.数据分片存储5.心跳监控系统六、实战：新闻聚合平台数据抓取1.集群架构2.性能指标七、总结1.核心收
戴尔笔记本win8系统改装win7系统 sophia天雪 win7 戴尔改装系统 win8
戴尔win8 系统改装win7 系统详述第一步：使用U盘制作虚拟光驱： 1）下载安装UltraISO：注册码可以在网上搜索。 2）启动UltraISO，点击“文件”—》“打开”按钮，打开已经准备好的ISO镜像文
BeanUtils.copyProperties使用笔记 bylijinnan java
BeanUtils.copyProperties VS PropertyUtils.copyProperties 两者最大的区别是： BeanUtils.copyProperties会进行类型转换，而PropertyUtils.copyProperties不会。既然进行了类型转换，那BeanUtils.copyProperties的速度比不上PropertyUtils.copyProp
MyEclipse中文乱码问题 0624chenhong MyEclipse
一、设置新建常见文件的默认编码格式，也就是文件保存的格式。在不对MyEclipse进行设置的时候，默认保存文件的编码，一般跟简体中文操作系统（如windows2000，windowsXP）的编码一致，即GBK。在简体中文系统下，ANSI 编码代表 GBK编码;在日文操作系统下，ANSI 编码代表 JIS 编码。 Window-->Preferences-->General -
发送邮件不懂事的小屁孩 send email
import org.apache.commons.mail.EmailAttachment; import org.apache.commons.mail.EmailException; import org.apache.commons.mail.HtmlEmail; import org.apache.commons.mail.MultiPartEmail;
动画合集换个号韩国红果果 html css
动画指一种样式变为另一种样式 keyframes应当始终定义0 100 过程 1 transition 制作鼠标滑过图片时的放大效果 css .wrap{ width: 340px;height: 340px; position: absolute; top: 30%; left: 20%; overflow: hidden; bor
网络最常见的攻击方式竟然是SQL注入蓝儿唯美 sql注入
NTT研究表明，尽管SQL注入（SQLi）型攻击记录详尽且为人熟知，但目前网络应用程序仍然是SQLi攻击的重灾区。信息安全和风险管理公司NTTCom Security发布的《2015全球智能威胁风险报告》表明，目前黑客攻击网络应用程序方式中最流行的，要数SQLi攻击。报告对去年发生的60亿攻击行为进行分析，指出SQLi攻击是最常见的网络应用程序攻击方式。全球网络应用程序攻击中，SQLi攻击占
java笔记2 a-john java
类的封装： 1，java中，对象就是一个封装体。封装是把对象的属性和服务结合成一个独立的的单位。并尽可能隐藏对象的内部细节（尤其是私有数据） 2，目的：使对象以外的部分不能随意存取对象的内部数据（如属性），从而使软件错误能够局部化，减少差错和排错的难度。 3，简单来说，“隐藏属性、方法或实现细节的过程”称为——封装。 4，封装的特性： 4.1设置
[Andengine]Error：can't creat bitmap form path “gfx/xxx.xxx” aijuans 学习Android遇到的错误
最开始遇到这个错误是很早以前了，以前也没注意，只当是一个不理解的bug，因为所有的texture，textureregion都没有问题，但是就是提示错误。昨天和美工要图片，本来是要背景透明的png格式，可是她却给了我一个jpg的。说明了之后她说没法改，因为没有png这个保存选项。我就看了一下，和她要了psd的文件，还好我有一点
自己写的一个繁体到简体的转换程序 asialee java 转换繁体 filter 简体
今天调研一个任务，基于java的filter实现繁体到简体的转换，于是写了一个demo，给各位博友奉上，欢迎批评指正。实现的思路是重载request的调取参数的几个方法，然后做下转换。
android意图和意图监听器技术百合不是茶 android 显示意图隐式意图意图监听器
Intent是在activity之间传递数据;Intent的传递分为显示传递和隐式传递显式意图：调用Intent.setComponent() 或 Intent.setClassName() 或 Intent.setClass()方法明确指定了组件名的Intent为显式意图，显式意图明确指定了Intent应该传递给哪个组件。隐式意图;不指明调用的名称,根据设
spring3中新增的@value注解 bijian1013 java spring @Value
在spring 3.0中，可以通过使用@value，对一些如xxx.properties文件中的文件，进行键值对的注入，例子如下： 1.首先在applicationContext.xml中加入： <beans xmlns="http://www.springframework.
Jboss启用CXF日志 sunjing log jboss CXF
1. 在standalone.xml配置文件中添加system-properties： <system-properties> <property name="org.apache.cxf.logging.enabled" value=&
【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码 bit1129 centos
编译必需的软件 Firebugs3.0.0 Maven3.2.3 Ant JDK1.7.0_67 protobuf-2.5.0 Hadoop 2.5.2源码包 Firebugs3.0.0 http://sourceforge.jp/projects/sfnet_findbug
struts2验证框架的使用和扩展白糖_ 框架 xml bean struts 正则表达式
struts2能够对前台提交的表单数据进行输入有效性校验，通常有两种方式： 1、在Action类中通过validatexx方法验证，这种方式很简单，在此不再赘述； 2、通过编写xx-validation.xml文件执行表单验证，当用户提交表单请求后，struts会优先执行xml文件，如果校验不通过是不会让请求访问指定action的。本文介绍一下struts2通过xml文件进行校验的方法并说
记录-感悟 braveCS 感悟
再翻翻以前写的感悟，有时会发现自己很幼稚，也会让自己找回初心。 2015-1-11 1. 能在工作之余学习感兴趣的东西已经很幸福了； 2. 要改变自己，不能这样一直在原来区域，要突破安全区舒适区，才能提高自己，往好的方面发展； 3. 多反省多思考；要会用工具，而不是变成工具的奴隶； 4. 一天内集中一个定长时间段看最新资讯和偏流式博
编程之美-数组中最长递增子序列 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class LongestAccendingSubSequence { /** * 编程之美数组中最长递增子序列 * 书上的解法容易理解 * 另一方法书上没有提到的是，可以将数组排序（由小到大）得到新的数组， * 然后求排序后的数组与原数
读书笔记5 chengxuyuancsdn 重复提交 struts2的token验证
1、重复提交 2、struts2的token验证 3、用response返回xml时的注意 1、重复提交 (1)应用场景 (1-1)点击提交按钮两次。 (1-2)使用浏览器后退按钮重复之前的操作，导致重复提交表单。 (1-3)刷新页面 (1-4)使用浏览器历史记录重复提交表单。 (1-5)浏览器重复的 HTTP 请求。 (2)解决方法 (2-1)禁掉提交按钮 (2-2)
[时空与探索]全球联合进行第二次费城实验的可能性 comsci
二次世界大战前后,由爱因斯坦参加的一次在海军舰艇上进行的物理学实验 -费城实验至今给我们大家留下很多迷团..... 关于费城实验的详细过程,大家可以在网络上搜索一下,我这里就不详细描述了在这里,我的意思是,现在
easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符 daizj oracle ORA-12154
用easy connect连接出现“tns无法解析指定的连接标示符”的错误，如下： C:\Users\Administrator>sqlplus username/[email protected]:1521/orcl SQL*Plus: Release 10.2.0.1.0 – Production on 星期一 5月 21 18:16:20 2012 Copyright (c) 198
简单排序:归并排序 dieslrae 归并排序
public void mergeSort(int[] array){ int temp = array.length/2; if(temp == 0){ return; } int[] a = new int[temp]; int
C语言中字符串的\0和空格 dcj3sjt126com c
\0 为字符串结束符，比如说： abcd (空格)cdefg；存入数组时，空格作为一个字符占有一个字节的空间，我们
解决Composer国内速度慢的办法 dcj3sjt126com Composer
用法：有两种方式启用本镜像服务： 1 将以下配置信息添加到 Composer 的配置文件 config.json 中（系统全局配置）。见“例1” 2 将以下配置信息添加到你的项目的 composer.json 文件中（针对单个项目配置）。见“例2” 为了避免安装包的时候都要执行两次查询，切记要添加禁用 packagist 的设置，如下 1 2 3 4 5
高效可伸缩的结果缓存 shuizhaosi888 高效可伸缩的结果缓存
/** * 要执行的算法，返回结果v */ public interface Computable<A, V> { public V comput(final A arg); } /** * 用于缓存数据 */ public class Memoizer<A, V> implements Computable<A,
三点定位的算法 haoningabc c 算法
三点定位，已知a,b,c三个顶点的x,y坐标和三个点都z坐标的距离，la，lb,lc 求z点的坐标原理就是围绕a,b,c 三个点画圆，三个圆焦点的部分就是所求但是，由于三个点的距离可能不准，不一定会有结果，所以是三个圆环的焦点，环的宽度开始为0，没有取到则加1 运行 gcc -lm test.c test.c代码如下 #include "stdi
epoll使用详解 jimmee c linux 服务端编程 epoll
epoll - I/O event notification facility在linux的网络编程中，很长的时间都在使用select来做事件触发。在linux新的内核中，有了一种替换它的机制，就是epoll。相比于select，epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中，它是采用轮询来处理的，轮询的fd数目越多，自然耗时越多。并且，在linu
Hibernate对Enum的映射的基本使用方法 linzx0212 enum Hibernate
枚举 /** * 性别枚举 */ public enum Gender { MALE(0), FEMALE(1), OTHER(2); private Gender(int i) { this.i = i; } private int i; public int getI
第10章高级事件（下） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
孙子兵法 roadrunners 孙子兵法
始计第一孙子曰：兵者，国之大事，死生之地，存亡之道，不可不察也。故经之以五事，校之以计，而索其情：一曰道，二曰天，三曰地，四曰将，五曰法。道者，令民于上同意，可与之死，可与之生，而不危也；天者，阴阳、寒暑、时制也；地者，远近、险易、广狭、死生也；将者，智、信、仁、勇、严也；法者，曲制、官道、主用也。凡此五者，将莫不闻，知之者胜，不知之者不胜。故校之以计，而索其情，曰
MySQL双向复制 tomcat_oracle mysql
本文包括: 主机配置从机配置建立主-从复制建立双向复制背景按照以下简单的步骤: 参考一下：在机器A配置主机(192.168.1.30) 在机器B配置从机(192.168.1.29) 我们可以使用下面的步骤来实现这一点步骤1：机器A设置主机在主机中打开配置文件 ,
zoj 3822 Domination(dp) 阿尔萨斯 Mina
题目链接：zoj 3822 Domination 题目大意：给定一个N∗M的棋盘，每次任选一个位置放置一枚棋子，直到每行每列上都至少有一枚棋子，问放置棋子个数的期望。解题思路：大白书上概率那一张有一道类似的题目，但是因为时间比较久了，还是稍微想了一下。dp[i][j][k]表示i行j列上均有至少一枚棋子，并且消耗k步的概率（k≤i∗j）,因为放置在i+1~n上等价与放在i+1行上，同理

David Silver《强化学习RL》第七讲 策略梯度

简介 Introduction

有限差分策略梯度Finite difference Policy Gradient

蒙特卡罗策略梯度 Monte-Carlo Policy Gradient

总结

你可能感兴趣的:(强化学习理论,强化学习理论,策略梯度,David,Silver,强化学习,价值函数,目标函数)

David Silver《强化学习RL》第七讲策略梯度