Ton10

强化学习课程笔记之policy-based方法

Policy-based和Value-based是RL中Model-free的两大分支，关于value-based的课程笔记，点这里(个人认为将李宏毅教授的强化学习笔记结合Sutton强化学习书籍一起学习会更好)。本篇是关于Policy-based的课程笔记。
课程笔记参考：
李宏毅笔记(github版)、叶强pdf、Morvan、刘建平博客园
论文阅读
Sutton强化学习书籍

常见的Policy-based方法：

REINFORCE(Vanilla-PG)
A2C
A3C
DDPG
TD3
Smoothie
SAC系列(SQL)
PPO系列(TRPO、DPPO)

为什么要学习policy-based，value-based缺陷在哪？

对受限状态下的问题处理能力不足。在使用特征来描述状态空间中的某一个状态时，有可能因为个体观测的限制或者建模的局限，导致真实环境下本来不同的两个状态却再我们建模后拥有相同的特征描述，进而很有可能导致我们的value-based方法无法得到最优解。
value-based的最优策略是确定性策略，是通过最大化值函数所对应的动作产生的。但有些需要RL的最优策略确实随机策略。比如“石头剪刀布”游戏，如果你一直遵循确定性策略，那么就会被对手掌握规律，但如果输出随机性策略，那么对手就不会掌握到你的出手规律。
综上所述，对于连续动作空间、状态表达受限、输出随机策略的RL任务来说，policy-based方法的优势就很明显了。

Policy-based算法

0 PG算法原理
1 REINFORCE算法
2 Vanilla Policy Gradient
3 A2C算法
- 3.1 算法简介
- 3.2 伪代码
- 3.3 小结
4 A3C算法
- 4.1 A3C简介
- 4.2 伪代码
- 4.3 小结
5 DDPG系列算法
- 5.1 DPG算法
- 5.2 DDPG算法
- - 5.2.1 DDPG简介
  - 5.2.2 DDPG框架结构
  - 5.2.3 DDPG解析
  - 5.2.4 DDPG伪代码
6 TD3算法
7 Smoothie算法
8 SAC系列算法
- 8.1 SQL算法
- 8.2 SAC算法
9 PPO系列算法
- 9.1 TRPO算法
- 9.2 PPO算法
- - 9.2.1 IS化PG
  - 9.2.2 引入KL散度
  - 9.2.3 PPO的两大变体
  - - 9.2.3.1 PPO-Penalty
    - 9.2.3.2 PPO-Clip

0 PG算法原理

在policy-based方法中，我们有三大成分：actor（即Agent）、环境、奖励函数。value-based如Q-learning算法是一种输出值函数，然后根据最大值函数来求解动作。而policy-based是直接输出动作的，故其可以解决连续动作的RL问题。在强化学习里面，环境跟奖励函数不是你可以控制的，环境跟奖励函数是在开始学习之前，就已经事先给定的。你唯一能做的事情是调整演员里面的策略(policy)，使得演员可以得到最大的奖励。演员里面会有一个策略，这个策略决定了演员的行为。策略就是给一个外界的输入，然后它会输出演员现在应该要执行的行为。
Note:

在policy-based中，我么将策略看成一个神经网络。
输入就是游戏的画面，它通常是由像素(pixels)所组成的。
输出就是有哪些选项是你可以去执行的，输出层就有几个神经元，假设你现在可以做的行为有 3 个，输出层就是有 3 个神经元。每个神经元对应到一个可以采取的行为。
输入一个东西后，网络就会给每一个可以采取的行为一个分数。你可以把这个分数当作是概率。演员就是看这个概率的分布，根据这个概率的分布来决定它要采取的行为。比如说 70% 会向左走，20% 向右走，10% 开火等等。概率分布不同，演员采取的行为就会不一样。

Policy-gradient算法是整个policy-based算法的基础，它的功能就是让策略网络参数 $\theta$ 的更新朝着性能度量 $J(\theta)$ 上升的方向移动，所以他是个梯度上升：
$\theta_{t+1}=\theta_t+\alpha\widehat{\nabla_{\theta_t}J(\theta_t)}\\ \nabla_{\theta_t}J(\theta_t)\propto\mathbb{E}[\widehat{\nabla_{\theta_t}J(\theta_t)}]$
对于性能度量 $J$ 通常会取值函数，这样也符合RL的目标——最大化期望累计奖励。根据这个特性，在一般的policy-based算法中，策略梯度上升也经常作为策略提升处理。
现在的目标就是将值函数代入上述公式的 $J$ 中，参考Sutton强化学习的推导可得出：
$\nabla J(\theta)=\nabla V^\pi(\theta)\propto\sum_s\mu(s)\sum_a\nabla\pi_\theta(a|s)Q^\pi(s,a)$ Note：

$\mu(s)$ 为同轨策略分布。
对于连续随机变量，也可以写成 $J(\theta)=\int_\mathcal{S}\mu(s)\int_\mathcal{A}\pi_\theta(a|s)Q^\pi(s,a)\mathrm{d}a\mathrm{d}s$

所以我们的PG单样本更新进一步变成：
$\theta_{t+1}=\theta_t+\alpha\sum_a\nabla_\theta\pi_\theta(a|s_t)Q^\pi(s_t,a)$

1 REINFORCE算法

REINFORCE算法将从PG算法的 $Q$ 改成期望累计奖励 $G$ ，详细推导见Sutton强化学习。李宏毅老师通过另一种方法也推出了REINFORCE算法的更新公式：
我们都知道，RL的目的就是最大化累计奖励。但是由于actor处于一个陌生环境中，她一开始并不知道会怎么走，会获得多少奖励，动作都是随机的，因此相应获得的奖励也是随机的。故我们的目标就是累计奖励的估计值，即求它的期望。将他的期望当作我们的目标。因此我们就要最大化这个期望累积奖赏。policy-based通过梯度上升的方式去达到这个目标，具体的：在某一场游戏里面，某一个回合里面，我们会得到R。我们要做的事情就是调整演员内部的参数 $\theta$ 使得R的值越大越好。具体公式推导为：Note：

这里用对数函数 $\log$ ，是因为对数函数有更好的收敛性。

具体实现过程：Note：

首先actor与环境交流，获取第一串轨迹。
我们将数据带入我们推导的这个梯度式子中，然后更新 $\theta$ 。
将更新过的网络继续去采集下一串轨迹，重复步骤②③。
每一串轨迹只使用一次，用完就丢掉了。

将Policy Gradient看成是神经网络的分类问题：
经典的多分类问题通过Cross-Entropy 这个Loss function来求解，而我们的policy gradient也可以看成是分类问题：
Note：

每串轨迹中的每个状态------>每个图片样本（同理每串轨迹------>1个batch图片样本）；输出每个动作的概率------>每个数字类别的概率；实际采样输出的动作 $a$ ------>每个样本的标签。
这个实际的动作 $a$ 只是我们输出的真实的动作，它并不一定是正确的动作，它不能像手写数字识别一样作为一个正确的标签来去指导神经网络朝着正确的方向去更新，所以我们需要乘以一个奖励回报 $G_t$ 。这个奖励回报相当于是对这个真实动作的评价：①如果 $G_t$ 越大，未来总收益越大，那就说明当前输出的这个真实的动作就越好，这个 loss 就越需要重视。②如果 $G_t$ 越小，那就说明做这个动作 $a$ 并没有那么的好，loss的权重就要小一点，优化力度就小一点。从这里就可以看出，为什么叫“强化”学习！

从上面我们就可以看出policy gradient存在的4个问题！
Q1：
既然这个奖励回报是crisis，只要在同一个回合里面，在同一场游戏里面，所有的状态跟动作的对都会使用同样的奖励项(term)进行加权，这件事情显然是不公平的，因为在同一场游戏里面也许有些动作是好的，有些动作是不好的。 假设整场游戏的结果是好的，并不代表这个游戏里面每一个行为都是对的。若是整场游戏结果不好，但不代表游戏里面的所有行为都是错的。所以我们希望可以给每一个不同的动作前面都乘上不同的权重。每一个动作的不同权重，它反映了每一个动作到底是好还是不好。因此改动的做法就是：只计算从这一个动作执行以后所得到的奖励。因为这场游戏在执行这个动作之前发生的事情是跟执行这个动作是没有关系的，所以在执行这个动作之前得到多少奖励都不能算是这个动作的功劳。跟这个动作有关的东西，只有在执行这个动作以后发生的所有的奖励把它加起来，才是这个动作真正的贡献。这个我们已经很熟悉了，因为之前在value-based里面，每个状态值函数的G就是从当前状态开始的，并且考虑到未来的不确定性，还加了 $\gamma$ 进行衰减，如下图所示：我们前面说过policy-based的目标就是求解出策略网络，通过更新网络参数 $\theta$ 来最大化期望累计奖赏。那么如何将上述步骤融入到PyTorch的正向推理和反向传播中去呢？
其实就一句话：最小化交叉熵就是最大化对数似然。意思就是，我们现在的目标是最大化：那就等效于最小化：而后面这个式子与PyTorch中的Cross-Entropy loss function非常类似，我们只需稍微改动，就可以利用这个Loss function进行优化。
那么现在这个式子是我们一串轨迹样本的Loss，是Loss而不再是奖励。我们不妨一个一个样本考虑（把求和号去掉）：如果当前样本产生的G很大，那么其Loss也会很大，那么梯度值就会很大，经过反向传播，然后梯度下降更新参数，那么再次正向推理的时候，之前那个动作输出的概率就会得到加强提升。反之，若G很小，那么概率的提升就会很小。当G是负数时，那么梯度下降就会往反方向去，那么之前那个动作输出的概率就会下降，这就是G起到评价输出动作的作用，也就是policy gradient的核心思想。
Note:

加负号的原因是为了让其看起来更像是“loss”， $P y T o r c h$ 或TF中的优化器都是梯度下降，都是最小化目标函数的，他只有min这个功能。
这里有个小技巧，就是将一串轨迹开始训练的时候，将送入网络的这个G进行nomalization（即标准化），为什么这么做呢？根据Karpathy大神的博客：意思就是标准化可以抑制策略梯度算法回合间各个相同状态所对应衰减奖励之间的方差。个人认为这样有利于收敛，因为我们在做这个单样本梯度下降时，构建loss的时候，对Gt做标准化有利于将loss锁定在小范围内，防止较大的loss值造成网络参数更新过大，那么就会造成参数更新不稳定，幅度过大，当然做批处理也可以缓解这个问题。标准化处理如下：

Q2：
既然说 $G_t$ 是评判家，那么如果某个RL任务的奖励都是大于0的，经过反向传播，那岂不是某个状态s的所有动作a的概率都会上升吗，几个动作的概率和为1这个constrain的存在会使得比如说，3个动作 $a_1、a_2、a_3$ ，我采样到了 $a_1$ ，使得输出 $a_1$ 的概率上升了，那么没采样到的 $a_2、a_3$ 就可能会下降，但是这样对a2、a3岂不是不公平吗，如果说a2是一个很好的动作，那么 $a_2$ 的下降岂不是不合理吗？解决这个的办法就是引入baseline，引入之后：这个b是怎么工作的呢？
如果得到的总奖励大于 b 的话，就让它的概率上升。如果这个总奖励小于 b，就算它是正的，正的很小也是不好的，你就要让这一项的概率下降。如果小于b ，你就要让这个状态采取这个动作的概率下降。所以在实现训练的时候，你会不断地把每个G记录下来然后你会不断地去计算 G的平均值，你会把这个平均值，当作你的b来用。（平均值可以考虑用增量式计算来缩小存储）
R-b这一项合起来，称为优势函数 $A^\pi(s,a)=Q^\pi(s,a)-V^\pi(s)$ 。它取决于s和a。在后续的Actor-Crisis里面，这个A是用叫做critic网络估计出来的。你需要有一个模型去跟环境做互动，你才知道接下来得到的奖励会有多少。A的上标是 $\theta$ ，说明使用θ参数的网络去和环境互动，然后得到一串轨迹，各个状态计算各自的优势函数，然后去更新 $\theta$ 。Note:

1、引入baseline还有一个作用是减小方差，增强梯度更新的稳定性(类似方法还有期望、标准化、归一化、minibatch、KL散度等)
优势函数第一次出现应该是在Dueling Network中，A=Q-V。
Baseline的减小方差可以使得收敛速度加快。(参考sutton强化学习书籍P40)

Q3：
我们的目标是设计一个最佳的策略函数π，这个π在前面一直是以符号或者网络图形展现的，具体咋设计呢？针对行为是否连续，分为Softmax策略和高斯策略：两者处理方式如下：
离散下按概率采样动作即可，不用多说。连续下，我们通常需要知道动作的最大值action_lim，比如拉力在[-2,2]，action_lim=2，我们一般都通过tanh将输出归一在[-1,1],然后乘以action_lim输出具体动作值。PG是On-policy算法，Actor先去跟环境互动去搜集资料，搜集很多的，根据它搜集到的资料，会按照policy gradient的式子去更新 policy 的参数。所以 policy gradient 是一个on-policy的算法。

Q4：

这是REINFORCEMENT的核心公式，我么已经知道，这是一种on-policy算法，这没有问题，因为采集信息和更新都是一个策略。那么这种on-policy就有个问题，从公式中我们看出，他必须等采集了完整一条轨迹之后，再更新参数，这个过程耗时不说，更要命的是更新后，刚才那条轨迹就不能在用了，是disposable的，根源在下标 $\tau\sim p_\theta(\tau)$ 。
也就是说花了很久去采样的东西，只能用一次，就要被迫丢掉，效率低且浪费严重。要知道实际上我们都是用nn去做PG的，他有个学习率，学习率的存在使得一份数据光一次训练是无法直接收敛的，原理上每多用一次，就会更接近目标。所以如果让一个策略去采集信息，另一个策略就来训练，那么他采他的，我训练我的，我可以抽空把同一条轨迹多训练几遍，那么是很nice，此外你在采集的时候，我训练，不耽误功夫，效率也高。这里的典型代表就是REINFORCE和PPO。

REINFORCE算法流程：
常见2种REINFORCE算法：可见我们上述所研究的policy gradient其实是结合MC的回合更新的思想，将他具体化一个算法就是-----REINFORCE算法，也是最简单的policy gradient算法。
伪代码如下：
Note：

根据我们之前所说，一个步伐的可以看成一个样本，上面显然是单样本更新，类似于SGD，我们其实有更快的方法，参考小批量梯度下降，就是将一串轨迹整体做梯度下降。

REINFORCE算法的缺陷：

效率低，因为采用回合更新。
方差大，采用G作为目标，而之前在value-based中说过，G作为目标，其不稳定，同一个状态的同一个动作，其G=100，有时候G=-10。故可以对G求期望，因为均值相对会稳定些，根据值函数的定义，可以采用Q来代替。
解决办法：结合①②，最佳方案就是就是将MC取代为TD。采用actor-critic算法，它融合了TD的思想，不采用回合更新，而是单步更新，故效率高，此外，TD算法方差小，更加稳定。

REINFORCE实战，点这里

2 Vanilla Policy Gradient

你可能经常在论文中看到Vanilla policy gradient(REINFORCE)或者Vanilla policy gradient/REINFORCE这样的写法，那是因为VPG和REINFORCE几乎是完全一样，只不过有一丢丢的区别，你可以近似理解为这两个只是名字不同。
直接上VPG伪代码：
Note：

红圈红线部分是VPG区别于REINFORCE的地方，在REINFORCE算法中，我们利用蒙特卡洛方法去计算一条轨迹 $\tau$ 的累计奖励 $R$ ，然后把这个奖励放到梯度上升的式子里去做优化，从而迭代更新 $\theta$ ；而在VPG里面，他把 $R$ 拿过来去使用最小二乘损失，用mini-batch梯度下降优化出一个 $V$ 函数。因此本质上VPG和REINFORCE是相同的算法，并没有很大的区别。
关于VPG有2个比较热门的开源库，分别是OpenAI Spinning Up以及rllab。
有关VPG进一步解读或者公式推导，也可以参考另一位博主的(点这里)，因为和REINFORCE类似，我就不详细介绍VPG了。

3 A2C算法

A2C：Advantage Actor Critic算法。
policy gradient结合MC的思想就是REFORCEMENT算法，采用回合更新策略网络。
REINFORCEMENT缺陷就是：
①：效率低。
②：直接用累计奖励做critic，其方差较大，收敛过程不稳定，回合间相同状态的累计奖励之间可以通过nomalization来缓解不稳定性。
针对这两点，Actor critic算法就诞生了，其用policy gradient结合TD的思想，采用步进更新策略网络。

3.1 算法简介

根据critic的不同，大致可将Actor critic分为A2C(Advantage actor critic)、A3C(Asynchronous advantage actor critic)、QAC(Q Advantage actor critic)三类。
如上图所示，在做policy gradient的时候，就算以衰减G为critic，其方差大问题还是存在，造成了收敛的不稳定性，因此我们需要将这个critic换成其期望的形式，即E(G),这样可以抑制方差大带来的不稳定。
看到G，首先想到的就是value-based方法中的Q值函数，没错这里我们就是用Q值来取代G，至于后面的b，即baseline我们可以用V值函数来替代。
这样的话，优势函数Advantage function就变成了Q-V，而V是Q的期望值，故Q-V也是有正负的，这也符合我们设计baseline的初衷。
但是这样也存在一个小问题，除了策略网络以外，你还需要设计2个网络：即Q网络和V网络，为了简化成一个网络，可以对Q做个变式：回忆一下贝尔曼等式：这里可以进一步简化，根据期望公式，可转换成：虽然都说贝尔曼等式在有模型下才能用，但是上述这个等式在推导过程中可以约去转移概率P，故可以成立。
因此我们的优势函数就变成了：这样我们设计一个网络就可以了，这其实就是TD error的值函数表达式。整个AC算法结构：
最后你会发现，其实就是用TD error代替了G，其实V也可以充当TD目标值。只不过我们当初选择Q是因为，一是Q能选择动作而V不能；第二是因为当初用V做的时候，经过预测和控制之后，V仍需要转成Q，有了贝尔曼公式就很方便，然后用贪心策略从Q中选出了动作，那么model-free没有贝尔曼公式中的转移概率P，故为了省去这一步，我们直接选择了Q。但是现在动作有policy网络输出，故我们可以不用Q了。其实Q和V从定义就可以看出没啥大差别，就相差了个动作而已，都表达了未来价值的期望值。
上图是网络结构图，和Dueling网络一样之后，由共享网络和子网络组成，子网络分别为策略网络和V估计网络。

3.2 伪代码

A2C算法流程：以下伪代码是on-policy版的A2C，因为行为策略和目标策略均为一个策略，A2C没有官方的伪代码，但是从A3C的代码中看出A2C是如下所示，现在网上实现的A2C都是这种形式。
需要注意的是，不管要不要加IS，A2C都是on-policy算法，因为更新的关键在于，Critci只是辅助作用。
正因为只有一个策略（on-policy），因此Critic估计的V值不需要再加IS修正，即伪代码第7行的中不需要加IS修正因子。
虽然A2C在实现上是TD error的形式，但实现上这种需要估计Q、V网络的做法是不可取的，因为如果估计不准确的话，会造成双倍的风险。
其实就是根据定义，看策略网络有几种策略输出，AC需要判断Actor和Critic各自是否off-policy。但两者是联合的，也就是说，一个是on-policy，另一个一定不是off-policy。一般以判断Actor为主，有2个策略的，则是off-policy的AC算法，如DDPG：确定性策略和带噪声的确定性策略。on-policy的AC典型的就是上面这个A2C，因为Actor只输出一个策略。

下面这个Critic基于Sarsa的on-policy算法，我觉得也行，根据QAC对应改编的。Note：

从实战效果来看，第一个A2C效果略好于第二个，存在少数的收敛，第二种几乎不收敛。

另一种直接利用Q的是QAC，即Critic是Q值，这是一种on-policy AC算法，因为其Critic是Sarsa，故如下所示：

3.3 小结

除了使用优势函数作为critic以外，还可以使用其它的，比如：
基本版的Actor-Critic算法虽然思路很好，但是由于难收敛的原因，还需要做改进。Actor-Critic 涉及到了两个神经网络, 而且每次都是在连续状态中更新参数, 每次参数更新前后都存在相关性, 导致神经网络只能片面的看待问题, 甚至导致神经网络学不到东西。Google DeepMind 为了解决这个问题, 修改了 Actor Critic 的算法,
目前改进的比较好的有两个经典算法，一个是DDPG算法，使用了双Actor神经网络和双Critic神经网络的方法来改善收敛性。这个方法我们在从DQN到Nature DQN的过程中已经用过一次了。另一个是A3C算法，使用了多线程的方式，一个主线程负责更新Actor和Critic的参数，多个辅线程负责分别和环境交互，得到梯度更新值，汇总更新主线程的参数。而所有的辅线程会定期从主线程更新网络参数。这些辅线程起到了类似DQN中经验回放的作用，但是效果更好。

A2C实战部分，点这里

4 A3C算法

A3C论文笔记，点这里

4.1 A3C简介

A3C：即Asynchronous Adavantage Actor-Critic

针对A2C难以收敛原因之一的输入连续性问题，就出了2大分支，一个是DDPG，采用Experience Reply。另一个是A3C，采用多线程并行更新网络参数的方式。体现2种不同的解决问题的思想。A3C是针对多块CPU上的，GA3C是针对多块GPU上的，GA3C相对A3C速度更快，且节省内存。

下图是A3C的示意图：
Note：

Google DeepMind提出的一种解决 Actor-Critic 不收敛问题的算法. 它会创建多个并行的环境, 让多个拥有副结构的 agent 同时在这些并行环境上更新主结构中的参数. 并行中的 agent 们互不干扰, 而主结构的参数更新受到子结构提交更新的不连续性干扰, 所以更新的相关性被降低, 收敛性提高。
主Agent汇聚了所有人的经验，多个子Agnet并行更新主Agent的双网络参数，使得这种算法不需要像DQN、DDPG那样有经验回访池。
A3C的核心思路，它利用多线程的方法，同时在多个线程里面分别和环境进行交互学习，每个线程都把学习的成果汇总起来，整理保存在一个公共的地方。并且，定期从公共的地方把大家的齐心学习的成果拿回来，指导自己和环境后面的学习交互。
通过这种方法，A3C避免了经验回放相关性过强的问题，同时做到了异步并发的学习模型。线程之间互不干扰，独立运行。
每个线程和环境交互到一定量的数据后，就计算在自己线程里的神经网络损失函数的梯度，但是这些梯度却并不更新自己线程里的神经网络，而是去更新公共的神经网络。也就是n个线程会独立的使用累积的梯度分别更新公共部分的神经网络模型参数。每隔一段时间，线程会将自己的神经网络的参数更新为公共神经网络的参数，进而指导后面的环境交互。
公共部分的网络模型就是我们要学习的模型，而线程里的网络模型主要是用于和环境交互使用的。
每一个 actor 跟环境做互动，互动完之后，你就会计算出梯度。计算出梯度以后，你要拿梯度去更新你的参数。你就计算一下你的梯度，然后用你的梯度去更新 global network 的参数。就是这个 worker 算出梯度以后，就把梯度传回给中央的控制中心，然后中央的控制中心就会拿这个梯度去更新原来的参数。
所有的 actor 都是平行跑的，每一个 actor 就是各做各的，不管彼此。所以每个人都是去要了一个参数以后，做完就把参数传回去。所以当第一个worker做完想要把参数传回去的时候，本来它要的参数是，等它要把梯度传回去的时候。可能别人已经把原来的参数覆盖掉，变成了。但是没有关系，它一样会把这个梯度就覆盖过去就是了，这个就是 A3C。

4.2 伪代码

4.3 小结

A3C解决了Actor-Critic难以收敛的问题，同时更重要的是，提供了一种通用的异步的并发的强化学习框架，也就是说，这个并发框架不光可以用于A3C，还可以用于其他的强化学习算法。这是A3C最大的贡献。目前，已经有基于GPU的A3C框架，这样A3C的框架训练速度就更快了。

5 DDPG系列算法

5.1 DPG算法

DPG主要的四大贡献：

①：确定性策略a=(s),而非之前的随机策略，e.g. 高斯策略和softmax策略
②：调整策略参数θ朝着值函数Q梯度上升的方向。
③：确定性策略梯度的performance objective只对状态积分，相比于随机性策略，对动作的积分空间大大减少，意味着无需对动作进行采样了，大大提高了效率。
④：Actor使用确定性策略，其对动作不积分不采样，不需要IS修正因子。

关于DPG论文笔记，点这里

5.2 DDPG算法

DDPG的论文主要是介绍DQN + DPG的结合，然后给出一套伪代码以及实验，全文比较简单，读者可以自行去简要看下。

5.2.1 DDPG简介

DPG：引入点，随机策略对于高维动作空间不适用，即上述DPG的第②个贡献点。

5.2.2 DDPG框架结构

确定性指的是策略网络输出的动作是确定性的，当然后期为了在这个确定性的基础上，会有一定的上下浮动，即噪声，用于增强一定的探索能力。在之前的softmax或者高斯策略中，一个用于离散动作，一个用于连续动作，其动作实在这两个策略的输出分布中采样获取，是随机性策略。而Determinister就好像说：“softmax兄弟，既然你最终都是要输出一个动作的，为啥要这么犹豫去随机选取呢，直接输出一个确定的动作不就好啦”。

DDPG核心思想：如上图框架结构所示，将Nature DQN的思想与policy gradient结合在一起，构建四个网络：策略网络、策略目标网络、Q估计网络、Q目标网络。

5.2.3 DDPG解析

DDPG由DQN和DPG组成，DQN（指Nature DQN）采用了Experience Reply以及Target Network两项关键技术，分别解决了RL中样本输入连续、相关性强，导致无法通过nn训练的问题以及TD目标值和Q估计值难以靠近的不收敛问题。
DDPG是DQN的扩展版本，专门用于解决DQN解决不了的连续动作空间问题。其两大网络Actor和Critic网络（就是上述的DQN）都采用了Target Network技术，以及用Experience Reply来打破输入样本连续性问题，以便更好地去训练网络。
因此DDPG由策略网络、策略目标网络、Q估计网络、Q目标网络四大网络组成。具体网络结构如下：

Critic网络：输出为1个神经元Q(s,a)，是一个标量，离散动作常用另一种值函数近似器是输入为状态，输出为各个动作的Q值。
Actor网络：输出个数为动作的特征维数，每个维度下都是连续的值，比如拉力[-2,2]。是一个向量。当然也可以采用CNN、RNN等网络结构，这里只是最简单的入门结构。

Note：

经验池里的经验是怎么来的？在状态s由策略网络在一定噪声基础上输出确定性动作a（以前DQN中是由-greedy策略输出的随机性动作），与环境交流，输出s’,r，以及done信息，将这一个Trans信息存入池中。
Q网络的输入是什么？从经验池中随机打乱抽取的batch份trans，取出每一份的s，a作为Q估计网络的输入。
策略网络的输入是什么？从经验池中随机打乱抽取的batch份trans，取出每一份的s作为策略网络的输入。
TD error由哪几部分组成？TD目标值中Q是Target Q网络，其输入s’为来自于经验池的batch份数据，a’来自于Target 策略网络。
为何设置Target网络？和为啥设置Target Q网络一样，a’不能直接来自于策略网络，因为TD目标值的输出是作为标签存在的，为了避免难收敛，我们让其处于一定时间内不改变或者微改变，而a‘决定了TD目标值的大小，a’若来自于策略网络，策略网络在训练后是要和Q网络一样及时更新的，一旦及时更新后，a’的值势必会改变，意味着标签变动了，那么之前的那次Q值更新就变得毫无意义了，即收敛不稳定。
策略网络是怎么优化的？策略网络参数调整是沿着Q值梯度上升的方向，这是DPG的第一大贡献。这里的Q值为Q估计网络，输入为经验池中抽取的batch份的s，以及 $\mu_\theta(s)$ ,与Critic更新不同，Actor网络的更新是不涉及2个Target网络的。此外，由于PyTorch中网络参数得更新是基于Mnimise的，即梯度下降，故performance前还要加个负号，然后做backforward。
4个网络的参数如何更新？初始化的时候，采用硬更新，即主网络参数完全复制给Target网络。其余时候，2个Target网络微更新，或者说软更新，就是更新一点点，具体见伪代码。2个主网络采用步进更新，每一个step都要更新。
既然是off-policy算法，那么其两个策略是咋样的？行为策略是策略网络输出的基础上设置一定的噪声（常见Ornstein-Uhlenbeck、高斯噪声）来实现一定程度的探索。在之前DQN的离散动作空间下，选择状态s’下最大Q值对应的动作，而由于是连续动作空间，故不能这样做，因此，为了挑选状态s’下最大的Q值，Sutton在DPG论文中提出另一种新的思想，即DPG的第一大贡献，根据目标策略其实类似于之前的贪婪策略，它换了一种形式，通过策略网络的训练使得Q值不断变大，那么在状态s’下，这样的Q值选出来的确定性动作a’才能使Q值最大化。此外，Sutton在DPG中还给出更加formal的证明方式。
DDPG噪声的选择有2种，一种是OU噪声：其中 $\mu、\theta、\phi$ 为需要调节的超参数，超参数的调节也成为了DDPG被人诟病的地方。一维高斯噪声就直接用PyTorch的内置函数输出即可。

5.2.4 DDPG伪代码

Note：

①：DDPG仿照DQN，主网络参数到Target网络参数有2种赋值方式，一种是软更新，或者说微更新，即每次只更新一点点（相当于DQN中的过一阵子再更新），另一种是硬更新，即算法刚开始的时候，保持主网络和Target网络参数完全一致。
②：也是仿照DQN，DDPG设置了Experience Reply，勇于打破数据相关性，便于nn学到东西。
③：和DQN不用，DQN中我们的行为策略采用-greedy策略，而DDPG采用策略网络，因此是在确定性策略基础上增加了O-U噪声（或者李宏毅说的高斯噪声也不错）来增加探索能力。DQN的目标策略是贪心策略，而DDQN也是“贪心策略”，但换了一种思想，参照Sutton DPG论文，他的方式是调整网络参数朝着Q值梯度上升的方向。那么当我们在计算TD目标值的时候，输入s’,那么此时用策略目标网络选择输出的动作a’一定能弄出一个比较大的Q值来，他以这种方式来取代贪心策略的max用法。根本原因还是在于连续动作空间下，你用max策略是无法选出最大Q值对应的那个动作action的，即globally maximize。
④：在测试的时候，回忆下DQN或者Q-learning，我么是直接采用贪心策略的，去掉了-greedy中的探索性，这是我们的目标策略，而且必须是个确定性策略。那么在DDPG中，我们的目标策略就是我们网络直接输出的确定性策略，经过策略网络参数的训练，此时的策略网络能根据输出状态s，输出具有很大Q值得动作a，这其实就几乎等价于贪心策略的效果啦！具体措施就是拿掉噪声的加成，直接输出网络的结果。
⑤：注意绿色框，在actor网络的更新中，构建Q值并使参数沿着Q值梯度上升的方向更新，这个构建Q值的动作a并不是来自于经验回放池，而是来自于经验回访池的s经过actor网络输出的实时动作a。参考Silver论文中推导出的公式：，这也就是上述伪代码中的Actor网络更新部分。

总结：DDPG中。Critic给Actor提供准确的Q值，从而更新参数θ。Actor给Critic提供行为策略和目标策略（max化Q），两者相辅相成，共同进步，最终Critic能估计出Q真实值，而Actor能输出最优策略。

DDPG实战，点这里

6 TD3算法

TD3算法是DDPG的进阶版，训练稳定性更强，且缓解了AC算法Critic过估计问题。
TD3理论部分：TD3论文笔记
TD3实战部分：TD3实战

7 Smoothie算法

Smoothie算法引入了一种新的 $Q$ ——平滑 $Q$ ，其策略网络是多维高斯分布，要训练三个网络 $\mu、\Sigma、\omega$ ，分别是高斯分布的均值网络、协方差网络以及Critic网络。总的来说其结构还是基于DDPG。
Smoothie论文笔记，点这里

8 SAC系列算法

和Smoothie算法一样，SAC系列算法引入了新的 $Q$ —— $Q_{soft}$ ，而且其改变了RL的目标函数为——最大化含熵目标，因此需要重新设计软贝尔曼等式。

8.1 SQL算法

SQL论文笔记，点这里

8.2 SAC算法

SAC论文笔记，点这里
SAC提升版算法笔记，点这里

9 PPO系列算法

PPO系列算法旨在设计一种策略单调不减的算法，是为了解决PG中学习率大小的算法。这个系列算法的不直接优化传统的RL目标 $\eta$ ，而是去优化 $\eta$ 的近似替代函数。

9.1 TRPO算法

TRPO论文笔记，点这里

9.2 PPO算法

PPO比TRPO更加实用，对于TRPO我们只要掌握其理论即可，实战还得靠PPO，因此我们详细介绍PPO
PPO论文笔记，点这里
Note：

PPO论文的导出是直接来源于TRPO，这里我们采用李宏毅老师的推导，用另一个角度来看PPO。

PPO，即Proximal Policy Optimization（近端策略优化），根据OpenAI的官博，PPO已经成为他们在RL上的默认算法。在OpenAI提出TRPO(Trust Region Policy Optimization)后，DeepMind和OpenAI先后发布了DPPO(Distributed PPO)和PPO算法。PPO算法是一种On-policy算法，即和环境交流的策略与目标（训练用的）策略不是一个策略。

PPO = Policy-Gradient + Importance Sampling + KL散度，意思就是说PPO是一种在on-policy PG算法上使用IS技术，并用KL散度消除因IS新旧分布相差过大导致方差较大缺陷的一种算法。

因此，PPO算法的推出需要历经2个步骤：

引入IS因子，提高采样效率。
引入KL散度，保证IS的有效性以及提高算法稳定性。

9.2.1 IS化PG

这里我们使用对PG改进版本的PG算法，即用优势函数A代替G：
通过重要性采样（关于IS，可查看我的另一篇博客），我们可以将上面这个on-policy改成：Note：

这里的 $\frac{p_\theta}{p_{\theta'}}$ 是新旧策略的比值。

进一步转换：这里第二步到第三步是直接忽略掉了，不是啥数学原因，纯粹为了方便计算。此外，看到什么状态往往跟你会采取什么样的动作是没有太大的关系的。比如说你玩不同的 Atari 的游戏，其实你看到的游戏画面都是差不多的，所以也许不同的策略对状态的概率是差不多的，比值为1。
因此我们可以通过求导的链式法则和 $\nabla f(x)=f(x)\cdot\nabla\log f(x)$ ,推导出目标函数：接下来，我们将这个新旧策略的比值看成是新策略 $\theta_{new}$ 和旧策略(当前策略) $\theta_{old}$ 的比值。

9.2.2 引入KL散度

IS采样的缺陷在于2个新旧分布不能相差太大，否则会导致方差相差很大（即稳定性降低），从而使得两者的样本均值不一样。PPO为了解决这个问题，使得2个分布相差不大，就引入了一个约束条件，这个约束就是KL散度，用来衡量和有多相似。
KL散度就相当于L2正则化项一样，像约束着 $\omega$ 尽量小一样约束 $\theta_{old}$ 和 $\theta_{new}$ 尽量相似。
PPO的前身是TRPO，两者不同在于KL的位置，TRPO将constrain放在约束条件上，PPO略微简单，像加L2正则化一样将约束加到了performance objective一起优化。具体如下图所示：
引入KL后，上图就是PPO算法！KL的引入使得方差不会相差很大，也就是保证了算法的稳定性。
Note：

我们让新旧两个分布尽量相似目的是让他们在同一个状态下，输出的动作值尽量相似，而不是让2个参数和的2-范数有多小（即距离小），这就是KL在做的事，它描述得是行为距离，而不是参数距离。
$K L$ 散度又叫相对熵。

9.2.3 PPO的两大变体

9.2.3.1 PPO-Penalty

PPO设定了可自动调节的 $K L$ 因子 $\beta$ ：

我们一开始会自己设定一个 $KL_{max}、KL_{min}$ ，如果参数更新完后，我们的KL项比我们设定的值大，那么就增加，否则就减小。这个就叫做Adaptive KL Penalty。

9.2.3.2 PPO-Clip

这个算法比上面这个算法更容易实现，因为他用clip函数巧妙避开了KL的计算。
顾名思义，PPO-Clip中涉及到了Clip函数，就是如果x大于max值，则输出max，x小于min值，输出为min值，否则输出为x。
Clip版本目标函数：

那么它是如何使得2个动作分布相差不大的呢？

A是优势函数，A>0说明我们需要加强这个动作，A<0，代表这个动作相对不太好，我们要抑制这个动作的概率。

如上面2张图所示，绿色线是蓝色线是，红色线就是他们当中的最小值，也就是我们直接去利用的数，这里简记为Target。
分析：假设 $\epsilon=0.2$

当A>0时，我们要加强这个动作，因此我们的更新会使得 $p_\theta$ 变大，如果没有造成 $\frac{p_\theta}{p_{\theta^k}}$ 大于1.2，那么就让 $p_\theta$ 提升吧。如果大于1.2的话，我们的参数更新就停留在Target=1.2这个值了，再也不会往上上升。
当A<0时，我们要抑制这个动作，因此我们的更新会使得 $p_\theta$ 变小，如果没有造成 $\frac{p_\theta}{p_{\theta^k}}$ 小于0.8，那么就让 $p_\theta$ 下降吧。如果小于0.8的话，我们的参数更新就停留在Target=0.8这个值了，再也不会往下下降。

总结：
PPO是一个实现起来较容易且在连续动作空间环境下表现效果不错的算法，是一个很不错的baseline。

你可能感兴趣的:(强化学习,优化,人工智能,决策,算法)

AI驱动的个人工作革命：基于DeepSeek构建全场景智能工作助理（含源代码+多应用场景） AI_DL_CODE DeepSeek深度应用人工智能 DeepSeek 个人智能助理 LangChain 任务自动化知识管理大模型应用
摘要：本文详细阐述基于DeepSeek大模型构建个人工作助理的完整技术方案，通过LangChain实现任务分解、知识检索与工具调用的智能协同。方案融合向量数据库、多模态交互与个性化学习算法，构建涵盖邮件处理、会议管理、文档生成等15大核心工作场景的自动化系统。文中提供可运行代码、完整部署指南及效能测试数据，实现邮件处理效率提升13倍、会议纪要生成时间缩短100%、任务安排错误率降低83%的显著优化
基于Deepseek+RAG构建企业知识库：文档预处理与数据整理大势下的牛马搭建本地gpt 人工智能 RAG Deepseek 知识库
在当今数字化时代，企业知识库的构建对于知识管理和高效决策至关重要。基于Deepseek+RAG（Retrieval-AugmentedGeneration）技术构建企业知识库，能够有效整合企业内外部知识资源，实现知识的快速检索和精准应用。而在这一过程中，文档预处理与数据整理是关键的基础环节，直接关系到知识库的质量和后续应用效果。一、文件预处理：格式转换与数据清洗（一）支持格式与转换要求优先格式：在
2025 Next.js项目提前编译并在服务器风吹落叶花飘荡前端 javascript 服务器开发语言
要让一个Next.js项目提前编译并在服务器上运行，可以按照以下步骤操作：1.本地构建项目首先在开发环境中完成构建：#安装依赖pnpminstall#生产环境构建（生成优化版本）npmrunbuild这会生成：.next/目录（包含编译后的应用）public/目录（静态资源）node_modules/（生产依赖）2.准备部署文件需要上传到服务器的文件：.next/public/package.js
异物检测的计算机视觉算法技术路线思绪漂移计算机视觉算法人工智能
异物检测的计算机视觉算法技术路线在现代智能监测系统中，异物检测有着其必要性和运维重要性，通过计算机视觉算法，可以实时识别各种异常物体，为设备安全运行提供有力保障。本文将介绍异物检测的主要技术路线。一、分类识别适应场景分类识别技术主要适用于已知目标类别的异物检测场景。在运维环境中，这类场景包括：固定区域内的障碍物监测（如轨道区域的石块、工具、动物等）关键部件的异物附着检测（如固定装置上的杂物）安全通
[特殊字符] AlphaGo：“神之一手”背后的智能革命与人机博弈新纪元大千AI助手人工智能 Python #OTHER 人工智能算法数据挖掘机器学习 alphago google 围棋
从围棋棋盘到科学前沿的通用人工智能范式突破本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！一、核心定义与历史意义AlphaGo是由谷歌DeepMind团队开发的围棋人工智能程序，其里程碑意义在于：首破人类围棋壁垒：2016年以4:1击败世界冠军李世石九段，成为首个在完整对局中战胜人类顶尖棋手的AI。
PageRank：互联网的马尔可夫链平衡态大千AI助手人工智能 Python #OTHER 人工智能机器学习条件概率贝叶斯 PageRank 马尔科夫链 MC
本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！PageRank算法本质上是一个在网页图上定义的离散时间马尔可夫链（DTMC），其核心思想是将网页间的链接关系转化为状态转移概率。以下是详细分析：一、马尔可夫链的核心要素在PageRank中的体现马尔可夫链要素PageRank对应数学描述状态空间网页集
MCMC：高维概率采样的“随机游走”艺术大千AI助手人工智能 Python #OTHER 人工智能数据挖掘机器学习算法 MCMC 马尔科夫概率论
MCMC（马尔可夫链蒙特卡洛）是一种从复杂概率分布中高效采样的核心算法，它解决了传统采样方法在高维空间中的“维度灾难”问题。以下是其技术本质、关键算法及实践的深度解析：本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！一、MCMC要解决的核心问题目标：从目标分布(π(x)\pi(\mathbf{x})
【目标检测】Yolov7 的 ELAN 和 E-ELAN 模块演进（涉及到分组卷积，cardinality，梯度路径） Jiangnan_Cai 深度学习目标检测 YOLO 人工智能
感觉从YOLOv6开始，YOLOv6系列感觉优化点都着重于推理速度上面，YOLOv6的RepBlock重参数化，给我的感觉就是算子融合进行加速。而YOLOv7，为了在各种架构的边缘设备上获得极致的推理速度。YOLOv7的工作：新的bagoffreebies（有效的训练技巧，不会增加推理的计算量）有规划的重参数化模型（不同边缘设备架构，不同的重参数化方法）新的动态标签分配方法为了更好的理解YOLOv
LeetCode 刷题：数据结构与算法的实战经验分享
LeetCode刷题：数据结构与算法的实战经验分享关键词：LeetCode、数据结构、算法、刷题经验、实战摘要：本文将围绕LeetCode刷题展开，深入探讨数据结构与算法在实际刷题过程中的应用。通过分享实战经验，帮助读者更好地理解和掌握数据结构与算法知识，提升解题能力。文章将从背景介绍入手，阐述刷题的目的和意义，接着详细解释核心概念，分析它们之间的关系，然后介绍核心算法原理和具体操作步骤，结合数学
小程序领域设计中的用户体验优化小程序开发2020 小程序 ux ai
小程序领域设计中的用户体验优化：从"用得上"到"用得爽"的进阶指南关键词：小程序设计、用户体验优化、交互流畅性、性能调优、用户行为分析摘要：本文以"用户体验优化"为核心，结合小程序的特性与用户真实使用场景，系统讲解从性能加速到交互设计的全链路优化方法。通过生活案例类比、技术原理拆解与实战代码演示，帮助开发者/设计师理解"用户体验"的底层逻辑，掌握可落地的优化技巧，最终实现小程序从"能用"到"好用"
高压电缆护层电流监测系统的技术实现李子圆圆人工智能
目录文章目录概要高精度电流监测的技术实现多级预警机制的构建逻辑极端环境下的稳定运行技术远程运维的技术支撑概要高压电缆护层作为电力传输的关键防护结构，其接地电流的异常变化是判断设备状态的重要指标。TLKS-PLGD高压电缆护层电流监测系统通过传感器技术与智能算法的结合，构建了一套完整的电缆安全监测方案。高精度电流监测的技术实现高精度电流监测的技术实现护层电流监测的核心在于数据采集的精准性。该系统采用
电线杆拉线智能警示装置的技术实现路径李子圆圆人工智能
目录前言一、光源选择与警示效率优化二、光导技术的场景适配性设计三、智能控制与低功耗技术方案四、安全与耐用性保障前言电线杆斜拉固定线作为保障输电线路稳定性的关键结构，其夜间可视性不足一直是安全防护的痛点。TLKS-PLSA-VII电线杆拉线智能警示装置通过激光与光导技术的创新融合，为这一问题提供了技术解决方案。一、光源选择与警示效率优化夜间警示的核心在于信号的精准传递，该装置选用660nm波段红色激
Web 前端性能优化：从代码到加载速度的全面剖析码力无边-OEC 前端性能优化 web
Web前端性能优化：从代码到加载速度的全面剖析当用户访问你的网站时，如果页面加载时间超过3秒，跳出率会飙升至40%以上。更糟糕的是，移动端用户的耐心只有2秒。这意味着性能优化不仅仅是技术问题，更直接关系到业务成果。经过多年的前端开发实践，我发现很多开发者在性能优化时存在一个误区：过分关注工具和框架的选择，却忽略了最基础但最关键的优化策略。今天我们就来深入剖析前端性能优化的核心要点。性能优化的核心指
Rust BSS段原理与实践解析萧曵丶 Rust rust 开发语言后端内存模型
在Rust中，BSS段（BlockStartedbySymbol）是程序内存布局的关键部分，专门用于存储未初始化或零初始化的全局/静态变量。以下是从原理到实践的深入解析：一、BSS的核心特性零初始化BSS段中的所有变量在程序加载时自动初始化为0（或对应类型的零值：0、null、false等）。staticmutCOUNTER:usize=0;//实际存储在BSS段磁盘空间优化BSS段在可执行文件中
一个实例用全创建型模式-优化（冗余消除）科学的发展-只不过是读大自然写的代码 #c++ubuntu开发 java 算法前端
1.关联链接上一篇：一个实例用全创建型模式-CSDN博客目录：《一个实例讲完23种设计模式》2.内容当前：单件+抽象工厂+创建者+工厂方法+优化需求：坦克大战创建两种坦克坦克类型射程速度b7070米时/70公里b5050米时/50公里设计说明1.抽象工厂承担了创建部件的任务2.创建者承担了将部件组装的任务3.工厂方法类相当于创建者模式的导演，但是他是并未给用户提供选择创建者的接口。而是通过自己的多
【人工智能】Spring AI Alibaba，一个面向 Java 开发者的开源框架，它旨在简化将人工智能（AI）功能集成到应用程序中的过程。本本本添哥 A -AIGC 人工智能大模型人工智能 java spring
一、SpringAIAlibaba介绍SpringAIAlibaba是一个面向Java开发者的开源框架，它旨在简化将人工智能（AI）功能集成到应用程序中的过程。该项目基于SpringAI构建，并且是阿里云通义系列模型及服务在JavaAI应用开发领域的最佳实践。SpringAIAlibaba的目标是为开发者提供一套高层次的AIAPI抽象以及与云原生基础设施的深度集成方案，从而帮助他们快速构建智能应用
构建安全密码存储策略：核心原则与最佳实践 weixin_47233946 信息安全安全
密码是用户身份认证的第一道防线，其存储安全性直接关系到用户隐私和企业信誉。近年来频发的数据泄露事件揭示了密码管理的关键性。本文将深入探讨从加密算法到系统性防护的完整密码存储方案，帮助开发者构建企业级安全防御体系。一、密码存储基本准则绝对禁止明文存储：即使采用数据库加密措施，直接存储用户原始密码仍存在不可逆泄露风险。运维人员权限滥用或备份文件泄露都可能成为突破口。加密≠安全：AES等对称加密存在密钥
模型融合与人机协同：构建人机共生的智能未来 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍在科技日新月异的今天，人工智能（AI）已经成为了我们生活中不可或缺的一部分。从智能手机，到自动驾驶汽车，再到医疗诊断，AI的应用已经渗透到了我们生活的方方面面。然而，尽管AI的发展已经取得了显著的成就，但是我们仍然面临着一个重大的挑战：如何让AI系统更好地理解和适应人类的需求，以实现人机共生的智能未来。为了解决这个问题，越来越多的研究者开始探索模型融合和人机协同的方法。2.核心概念与联
数据结构实验解析(C++版)——实验一复杂度分析拯救三金数据结构 c++算法
目录一、实验例题例题1例题2二、实验原理与背景知识1、实验原理2、背景知识三、解题思路与算法1、解题思路2、算法四、代码实现例题1代码例题2代码五、实验结果分析与总结1、实验结果分析2、该实验与数据结构的联系一、实验例题例题1时间空间限制时间限制：1SEC空间限制：128MB问题描述分析以下代码：for(i=1;iusingnamespacestd;intmain(){longlongn;//输入
vLLM 优化与调优：提升模型性能的关键策略强哥之神人工智能深度学习计算机视觉 deepseek 智能体 vllm
在当今人工智能领域，大语言模型（LLM）的应用日益广泛，而优化和调优这些模型的性能成为了至关重要的任务。vLLM作为一种高效的推理引擎，提供了多种策略来提升模型的性能。本文将深入探讨vLLMV1的优化与调优策略，帮助读者更好地理解和应用这些技术。抢占式调度（Preemption）由于Transformer架构的自回归特性，有时键值缓存（KVcache）空间不足以处理所有批量请求。在这种情况下，vL
Spring Data Neo4j 与后端人工智能算法的数据交互 AI大模型应用实战 spring neo4j 人工智能 ai
SpringDataNeo4j与后端人工智能算法的数据交互关键词：SpringDataNeo4j、图数据库、人工智能算法、数据交互、知识图谱、图神经网络、数据集成摘要：本文深入探讨了如何利用SpringDataNeo4j框架实现后端人工智能算法与图数据库的高效数据交互。文章首先介绍了图数据库和人工智能算法的基本概念，然后详细解析了SpringDataNeo4j的核心架构和原理。接着，通过实际代码示
Python 爬虫实战：抓取华尔街日报付费文章摘要的全方位指南 Python爬虫项目 python 爬虫开发语言信息可视化数据分析
引言在全球化的信息时代，获取高质量的新闻内容对于研究、投资和决策具有重要意义。《华尔街日报》（TheWallStreetJournal，简称WSJ）作为国际知名的财经媒体，其文章内容备受关注。然而，WSJ的大部分内容属于付费订阅，普通用户无法直接访问。本文将深入探讨如何使用Python爬虫技术，结合最新的工具和方法，抓取WSJ的付费文章摘要。一、了解目标网站结构1.1WSJ网站结构分析WSJ的官方
【数据结构】复杂度分析
目录一、算法1.基本概念2.描述方法3.算法效率二、算法的时间复杂度三、算法的空间复杂度一、算法1.基本概念通俗的讲，算法是解决问题的方法，比如在现实生活中一道菜谱，一个安装轮椅的操作指南等。严格的说，算法是对特定问题求解步骤的一种描述，是指令的有限序列。算法具有的基本特性有：（1）有穷性。一个算法必须总是在执行有穷步之后结束，且每一步都在有求时间内完成。（2）确定性。算法中的每一条指令必须有确切
Python 爬虫实战：实时采集外汇汇率数据的全方位指南 Python爬虫项目 python 爬虫开发语言信息可视化数据分析
引言在全球化的金融市场中，外汇汇率的实时数据对于投资者、企业和研究人员来说至关重要。通过自动化的方式获取这些数据，不仅可以提高效率，还能为决策提供及时的支持。本文将深入探讨如何使用Python爬虫技术，结合最新的工具和方法，实时采集外汇汇率数据。一、外汇汇率数据的获取途径1.1使用官方API接口许多金融机构和数据提供商提供了官方的API接口，供开发者获取外汇汇率数据。例如：AlphaVantage
视觉算法之卷积神经网络清风AI 深度学习算法详解及代码复现计算机视觉 cnn 神经网络深度学习 python 课程设计毕业设计
定义与特点卷积神经网络(ConvolutionalNeuralNetwork,CNN)是一种专为处理具有网格结构的数据而设计的深度学习模型。其独特的结构和功能使其在图像处理、语音识别等领域展现出卓越的性能:CNN的核心设计理念源于对生物视觉系统的模仿。通过模拟大脑皮层中视网膜和视觉皮层的层次化结构,CNN能够有效地捕捉图像中的局部特征并逐步抽象为高层语义信息。这种设计使得CNN特别擅长处理图像和音
nRF52832 低功耗设计与优化 mftang zephyr架构蓝牙应用笔记 Nordic MCU系列笔记 Zephyr RTOS zephyr架构蓝牙应用笔记
目录概述1技术背景2优化策略2.1系统级电源管理2.2时钟系统优化2.3GPIO配置优化3蓝牙协议栈优化3.1连接参数优化3.2广播优化4电源管理实践4.1功耗状态转换图4.2典型功耗分布5低功耗设计最佳实践5.1事件驱动架构5.2定时任务管理5.3数据批处理6高级优化技术6.1电压调节优化6.2RAM保持策略6.3动态功耗分析7功耗测量与验证8常见问题解决8.1功耗高于预期8.2唤醒延迟过长8.
心理健康语音分析AI模型：开启心理评估新时代 AI大模型应用实战人工智能语音识别 ai
心理健康语音分析AI模型：开启心理评估新时代关键词：心理健康评估、语音信号处理、情感计算、AI模型、多模态融合摘要：传统心理评估依赖量表问卷和人工观察，存在主观性强、效率低、难以实时监测等局限。本文将带您走进“心理健康语音分析AI模型”的世界，从基础概念到核心技术，从算法原理到实战案例，揭秘AI如何通过“听声音”读懂心理状态，开启心理评估的智能化新时代。背景介绍目的和范围心理健康问题已成为全球公共
mac安装docker 段帅星 PC使用问题 macos docker
1、下载docker-desktophttps://www.docker.com/products/docker-desktop/2、安装，双击安装3、优化docker配置默认配置cat~/Library/Group\Containers/group.com.docker/settings-store.json{"AutoStart":false,"DockerAppLaunchPath":"/A
【AI大模型】深入解析预训练：大模型时代的核心引擎我爱一条柴ya 学习AI记录深度学习人工智能 ai python AI编程算法
预训练已成为现代人工智能，尤其是自然语言处理和计算机视觉领域的基石技术。它彻底改变了模型开发范式，催生了BERT、GPT等革命性模型。本文将系统阐述预训练的核心概念、原理、方法、应用及挑战。一、预训练的本质：为何需要它？核心问题：数据标注的瓶颈监督学习依赖海量高质量标注数据，获取成本极高（时间、金钱、专业知识）。对于复杂任务（如理解语义、生成文本），标注难度呈指数级上升。标注数据稀缺导致模型泛化能
MySQL存储结构深度解析：Buffer Pool与Page管理 hdzw20 mysql复习 mysql 数据库
MySQL存储结构解析：BufferPool与Page管理在MySQL的InnoDB存储引擎中，BufferPool是其核心组件之一，它极大地提升了数据库的性能。理解BufferPool的内部结构和工作机制，对于优化MySQL数据库至关重要。本文将讨论BufferPool的结构、三大链表、改进型LRU算法以及ChangeBuffer机制。1.BufferPool结构：控制块与缓存页BufferPo
桌面上有多个球在同时运动，怎么实现球之间不交叉，即碰撞？换个号韩国红果果 html 小球碰撞
稍微想了一下，然后解决了很多bug，最后终于把它实现了。其实原理很简单。在每改变一个小球的x y坐标后，遍历整个在dom树中的其他小球，看一下它们与当前小球的距离是否小于球半径的两倍？若小于说明下一次绘制该小球（设为a）前要把他的方向变为原来相反方向（与a要碰撞的小球设为b），即假如当前小球的距离小于球半径的两倍的话，马上改变当前小球方向。那么下一次绘制也是先绘制b，再绘制a，由于a的方向已经改变
《高性能HTML5》读后整理的Web性能优化内容白糖_ html5
读后感先说说《高性能HTML5》这本书的读后感吧，个人觉得这本书前两章跟书的标题完全搭不上关系，或者说只能算是讲解了“高性能”这三个字，HTML5完全不见踪影。个人觉得作者应该首先把HTML5的大菜拿出来讲一讲，再去分析性能优化的内容，这样才会有吸引力。因为只是在线试读，没有机会看后面的内容，所以不胡乱评价了。
[JShop]Spring MVC的RequestContextHolder使用误区 dinguangx jeeshop 商城系统 jshop 电商系统
在spring mvc中，为了随时都能取到当前请求的request对象，可以通过RequestContextHolder的静态方法getRequestAttributes()获取Request相关的变量，如request, response等。在jshop中，对RequestContextHolder的
算法之时间复杂度周凡杨 java 算法时间复杂度效率
在计算机科学中，算法的时间复杂度是一个函数，它定量描述了该算法的运行时间。这是一个关于代表算法输入值的字符串的长度的函数。时间复杂度常用大O符号表述，不包括这个函数的低阶项和首项系数。使用这种方式时，时间复杂度可被称为是渐近的，它考察当输入值大小趋近无穷时的情况。这样用大写O()来体现算法时间复杂度的记法，
Java事务处理 g21121 java
一、什么是Java事务通常的观念认为，事务仅与数据库相关。事务必须服从ISO/IEC所制定的ACID原则。ACID是原子性（atomicity）、一致性（consistency）、隔离性（isolation）和持久性（durability）的缩写。事务的原子性表示事务执行过程中的任何失败都将导致事务所做的任何修改失效。一致性表示当事务执行失败时，所有被该事务影响的数据都应该恢复到事务执行前的状
Linux awk命令详解 510888780 linux
一. AWK 说明 awk是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。它在命令行中使用，但更多是作为脚本来使用。 awk的处理文本和数据的方式：它逐行扫描文件，从第一行到
android permission 布衣凌宇 Permission
<uses-permission android:name="android.permission.ACCESS_CHECKIN_PROPERTIES" ></uses-permission>允许读写访问"properties"表在checkin数据库中，改值可以修改上传 <uses-permission android:na
Oracle和谷歌Java Android官司将推迟 aijuans java oracle
北京时间 10 月 7 日，据国外媒体报道，Oracle 和谷歌之间一场等待已久的官司可能会推迟至 10 月 17 日以后进行，这场官司的内容是 Android 操作系统所谓的 Java 专利权之争。本案法官 William Alsup 称根据专利权专家 Florian Mueller 的预测，谷歌 Oracle 案很可能会被推迟。　　该案中的第二波辩护被安排在 10 月 17 日出庭，从目前看来
linux shell 常用命令 antlove linux shell command
grep [options] [regex] [files] /var/root # grep -n "o" * hello.c:1:/* This C source can be compiled with:
Java解析XML配置数据库连接(DOM技术连接 SAX技术连接) 百合不是茶 sax技术 Java解析xml文档 dom技术 XML配置数据库连接
XML配置数据库文件的连接其实是个很简单的问题,为什么到现在才写出来主要是昨天在网上看了别人写的,然后一直陷入其中,最后发现不能自拔所以今天决定自己完成 ,,,,现将代码与思路贴出来供大家一起学习 XML配置数据库的连接主要技术点的博客; JDBC编程 : JDBC连接数据库 DOM解析XML: DOM解析XML文件 SA
underscore.js 学习（二） bijian1013 JavaScript underscore
Array Functions 所有数组函数对参数对象一样适用。1.first _.first(array, [n]) 别名: head, take 返回array的第一个元素，设置了参数n，就
plSql介绍 bijian1013 oracle 数据库 plsql
/* * PL/SQL 程序设计学习笔记 * 学习plSql介绍.pdf * 时间：2010-10-05 */ --创建DEPT表 create table DEPT ( DEPTNO NUMBER(10), DNAME NVARCHAR2(255), LOC NVARCHAR2(255) ) delete dept; select
【Nginx一】Nginx安装与总体介绍 bit1129 nginx
启动、停止、重新加载Nginx nginx 启动Nginx服务器，不需要任何参数u nginx -s stop 快速(强制)关系Nginx服务器 nginx -s quit 优雅的关闭Nginx服务器 nginx -s reload 重新加载Nginx服务器的配置文件 nginx -s reopen 重新打开Nginx日志文件
spring mvc开发中浏览器兼容的奇怪问题 bitray jquery Ajax springMVC 浏览器上传文件
最近个人开发一个小的OA项目,属于复习阶段.使用的技术主要是spring mvc作为前端框架,mybatis作为数据库持久化技术.前台使用jquery和一些jquery的插件. 在开发到中间阶段时候发现自己好像忽略了一个小问题,整个项目一直在firefox下测试,没有在IE下测试,不确定是否会出现兼容问题.由于jquer
Lua的io库函数列表 ronin47 lua io
1、io表调用方式：使用io表，io.open将返回指定文件的描述，并且所有的操作将围绕这个文件描述　　io表同样提供三种预定义的文件描述io.stdin,io.stdout,io.stderr 　　2、文件句柄直接调用方式,即使用file:XXX()函数方式进行操作,其中file为io.open()返回的文件句柄　　多数I/O函数调用失败时返回nil加错误信息,有些函数成功时返回nil
java-26-左旋转字符串 bylijinnan java
public class LeftRotateString { /** * Q 26 左旋转字符串 * 题目：定义字符串的左旋转操作：把字符串前面的若干个字符移动到字符串的尾部。 * 如把字符串abcdef左旋转2位得到字符串cdefab。 * 请实现字符串左旋转的函数。要求时间对长度为n的字符串操作的复杂度为O(n)，辅助内存为O(1)。 */ pu
《vi中的替换艺术》-linux命令五分钟系列之十一 cfyme linux命令
vi方面的内容不知道分类到哪里好，就放到《Linux命令五分钟系列》里吧！今天编程，关于栈的一个小例子，其间我需要把”S.”替换为”S->”(替换不包括双引号)。其实这个不难，不过我觉得应该总结一下vi里的替换技术了，以备以后查阅。 1 所有替换方案都要在冒号“:”状态下书写。 2 如果想将abc替换为xyz，那么就这样 :s/abc/xyz/ 不过要特别
[轨道与计算]新的并行计算架构 comsci 并行计算
我在进行流程引擎循环反馈试验的过程中，发现一个有趣的事情。。。如果我们在流程图的每个节点中嵌入一个双向循环代码段，而整个流程中又充满着很多并行路由，每个并行路由中又包含着一些并行节点，那么当整个流程图开始循环反馈过程的时候，这个流程图的运行过程是否变成一个并行计算的架构呢？
重复执行某段代码 dai_lm android
用handler就可以了 private Handler handler = new Handler(); private Runnable runnable = new Runnable() { public void run() { update(); handler.postDelayed(this, 5000); } }; 开始计时 h
Java实现堆栈（list实现） datageek 数据结构——堆栈
public interface IStack<T> { //元素出栈，并返回出栈元素 public T pop(); //元素入栈 public void push(T element); //获取栈顶元素 public T peek(); //判断栈是否为空 public boolean isEmpty
四大备份MySql数据库方法及可能遇到的问题 dcj3sjt126com DB backup
一：通过备份王等软件进行备份前台进不去？用备份王等软件进行备份是大多老站长的选择，这种方法方便快捷，只要上传备份软件到空间一步步操作就可以，但是许多刚接触备份王软件的客用户来说还原后会出现一个问题：因为新老空间数据库用户名和密码不统一，网站文件打包过来后因没有修改连接文件，还原数据库是好了，可是前台会提示数据库连接错误，网站从而出现打不开的情况。解决方法：学会修改网站配置文件，大多是由co
github做webhooks：[1]钩子触发是否成功测试 dcj3sjt126com github git webhook
转自: http://jingyan.baidu.com/article/5d6edee228c88899ebdeec47.html github和svn一样有钩子的功能，而且更加强大。例如我做的是最常见的push操作触发的钩子操作，则每次更新之后的钩子操作记录都会在github的控制板可以看到！工具/原料 github 方法/步骤
">的作用" target="_blank">JSP中的作用蕃薯耀
JSP中<base href="<%=basePath%>">的作用 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
linux下SAMBA服务安装与配置 hanqunfeng linux
局域网使用的文件共享服务。一.安装包： rpm -qa | grep samba samba-3.6.9-151.el6.x86_64 samba-common-3.6.9-151.el6.x86_64 samba-winbind-3.6.9-151.el6.x86_64 samba-client-3.6.9-151.el6.x86_64 samba-winbind-clients
guava cache IXHONG cache
缓存，在我们日常开发中是必不可少的一种解决性能问题的方法。简单的说，cache 就是为了提升系统性能而开辟的一块内存空间。　　缓存的主要作用是暂时在内存中保存业务系统的数据处理结果，并且等待下次访问使用。在日常开发的很多场合，由于受限于硬盘IO的性能或者我们自身业务系统的数据处理和获取可能非常费时，当我们发现我们的系统这个数据请求量很大的时候，频繁的IO和频繁的逻辑处理会导致硬盘和CPU资源的
Query的开始--全局变量,noconflict和兼容各种js的初始化方法 kvhur JavaScript jquery css
这个是整个jQuery代码的开始，里面包含了对不同环境的js进行的处理，例如普通环境，Nodejs，和requiredJs的处理方法。还有jQuery生成$, jQuery全局变量的代码和noConflict代码详解完整资源： http://www.gbtags.com/gb/share/5640.htm jQuery 源码： (
美国人的福利和中国人的储蓄 nannan408
今天看了篇文章，震动很大，说的是美国的福利。美国医院的无偿入院真的是个好措施。小小的改善，对于社会是大大的信心。小孩，税费等，政府不收反补，真的体现了人文主义。美国这么高的社会保障会不会使人变懒？答案是否定的。正因为政府解决了后顾之忧，人们才得以倾尽精力去做一些有创造力，更造福社会的事情，这竟成了美国社会思想、人
N阶行列式计算(JAVA) qiuwanchi N阶行列式计算
package gaodai; import java.util.List; /** * N阶行列式计算 * @author 邱万迟 * */ public class DeterminantCalculation { public DeterminantCalculation(List<List<Double>> determina
C语言算法之打渔晒网问题 qiufeihu c 算法
如果一个渔夫从2011年1月1日开始每三天打一次渔，两天晒一次网，编程实现当输入2011年1月1日以后任意一天，输出该渔夫是在打渔还是在晒网。代码如下： #include <stdio.h> int leap(int a) /*自定义函数leap()用来指定输入的年份是否为闰年*/ { if((a%4 == 0 && a%100 != 0
XML中DOCTYPE字段的解析 wyzuomumu xml
DTD声明始终以!DOCTYPE开头,空一格后跟着文档根元素的名称,如果是内部DTD,则再空一格出现[],在中括号中是文档类型定义的内容. 而对于外部DTD,则又分为私有DTD与公共DTD,私有DTD使用SYSTEM表示,接着是外部DTD的URL. 而公共DTD则使用PUBLIC,接着是DTD公共名称,接着是DTD的URL. 私有DTD <!DOCTYPErootSYST