Forlogen

Deep Reinforcement learning - Policy Gradient+PPO+TRPO

生物进化过程中为适应环境而进行的学习有两个特点

人从来不是静止的被动等待而是主动的对环境进行试探
环境对于人的试探动作产生一个反馈，人根据环境的反馈来调整以后的行为，是一种从环境状态到行为映射的学习

因此从自然界中的种种规律中得到启发，便有了强化学习。强化学习（Reinforcement Learning，RL）又被称为再励学习、增强学习，是指从环境状态到行为映射的学习，以使系统行为从环境中获得的累计奖励值最大的一种机器学习方法。

而所谓的深度强化学习是将强化学习和深度学习结合在一起，用强化学习来定义问题和优化目标，用深度学习来解决状态表示、策略表示等问题。两种不同的结合强化学习和深度学习的方式，分别用深度神经网络来建模强化学习中的值函数、策略，然后用误差反向传播算法来优化目标函数。因此可以有Deep Reinforcement Learning = RL + DL.

那如何简单的理解RL呢？在RL中有几个基本的概念:

$A g e n t$ ：表示当前学习的主体
$e n v i r o n m e n t$ ：表示与Agent交互的对象
$S$ ：表示环境的状态， $S_{t}$ 就表示 $t$ 时刻环境状态集中的某一个状态
$A$ ：表示个体的动作， $A_{t}$ 就表示 $t$ 时刻Agent的动作集中的某一个动作
$R$ ：表示采取某个动作后环境所给予的奖励， $t$ 时刻Agent在状态为 $S_{t}$ 的前提下采取动作 $A_{t}$ 所得到的的奖励 $R_{t+1}$ 会在 $t + 1$ 时刻得到
$\pi$ ：表示策略（policy）,Agent会根据 $\pi$ 来选择某一个动作，即根据条件概率 $\pi(a|s)$ 来在状态为 $s$ 时选择动作 $a$
$\gamma$ ：表示折扣因子，当 $\gamma$ 接近于0时，表示Agent更在意当下时刻的奖励，当 $\gamma$ 接近于1时，表示Agent更在意长期奖励
$P_{ss'}^a$ ：表示在状态 $s$ 时采取动作 $a$ 会转换到状态 $s^{'}$ 的概率
$\epsilon$ ：表示探索率，即在某个时刻Agent会以概率 $\epsilon$ 不选择当前迭代价值最大的动作，而是选择其他的动作

下面通过几个简单的例子进行一下阐述。假设Agent这里是一个孩子，environment为母亲，当孩子把水打翻时，母亲就会生气，并且会扣掉他的零花钱；那么孩子在观察到母亲的状态后就知道这样是不对的，那么他就会去把水擦干净，母亲此时就会变得开心，并多给他零花钱。因此经过多个这样的过程，孩子就知道不应该把水打翻或是打翻后要及时的擦干净，这样他就会获得最大的奖励。

Deep Reinforcement learning - Policy Gradient+PPO+TRPO_第2张图片

那么RL和supervised learning有什么区别呢，以下图为例进行说明。假设我们现在在下围棋，如果当前为上面的盘势时，我们就要在（5，5）落子；当是下面的盘势时，就需要在（3，3）落子。这一切的操作都是在有指导或是在有标签的数据集上进行的，但是更多时候人类也无法确定在某种盘势下怎样落子是最优的，因此就需要强化学习。RL不需要根据标签来进行学习，它会不断地进行对弈来学习可以获取到最大累计奖励的落子策略，但是学习到一个很好的策略往往需要进行极多次的对弈。例如在AlphaGo中就是先使用supervised learning学习一个较好的网络，然后再使用两个网络进行对弈，最后得到一个足以打败人类的模型。

Deep Reinforcement learning - Policy Gradient+PPO+TRPO_第3张图片

RL在近些年来受到了极大的关注，比较有名的便是Google的AlphaGo、AlphaZero和AlphaMaster，此外还有就是用来打电玩的OpenAI Five。

Deep Reinforcement learning - Policy Gradient+PPO+TRPO_第4张图片

下面就跟着李宏毅老师的深度强化学习-2018课程的PPT来做一个总结。当然还有很多其他的课程，仅供参考：

David Silver深度强化学习课程
2018 年秋季伯克利大学CS 294-112 《深度强化学习课程》

为了表述一致，下面统一使用Actor来替代Agent。

策略 $\pi$ 使用参数为 $\theta$ 的神经网络进行表示，它的输入是机器所观察的当前的状态，通过表示为向量或是矩阵的形式，输出就是下一时刻应该采取的动作。比如在小蜜蜂这个游戏中，输入就是当前的游戏画面，可以将其表示一个三维的张量输入到网络中，输入表示可以采取的动作的概率分布，通过选择的表示概率最大的动作

Deep Reinforcement learning - Policy Gradient+PPO+TRPO_第5张图片

然后在每一次采取动作后Actor都会得到一个奖励 $r$ ， $r$ 的值可能是正的、负的或是0，取决下一时刻的情况。经过非常多次的游戏，我们希望Actor所获得的累计奖励 $\sum_{t=1}^T r_{t}$ 最大。

下面我们将Actor状态的变换过程按时刻顺序展开，如下所示：在状态为 $s_{i}$ 时，Actor会采取动作 $a_{i}$ ，状态下一时刻就会转换到 $s_{t+1}$ 。这个过程可以表示为 $\tau=\left\{s_{1}, a_{1}, s_{2}, a_{2}, \cdots, s_{T}, a_{T}\right\}$ ，那么这一过程出现的概率可表示为: $\begin{array}{l}{p_{\theta}(\tau)} \\ {\quad=p\left(s_{1}\right) p_{\theta}\left(a_{1} | s_{1}\right) p\left(s_{2} | s_{1}, a_{1}\right) p_{\theta}\left(a_{2} | s_{2}\right) p\left(s_{3} | s_{2}, a_{2}\right) \cdots} \\ {=p\left(s_{1}\right) \prod_{t=1}^{T} p_{\theta}\left(a_{t} | s_{t}\right) p\left(s_{t+1} | s_{t}, a_{t}\right)}\end{array}$ 其中每一时刻状态的变化都依赖于前一时刻的状态，这样的过程类似于马尔科夫决策过程，更详细的的内容可参见强化学习（二）马尔科夫决策过程(MDP)

Deep Reinforcement learning - Policy Gradient+PPO+TRPO_第6张图片

如果在每一次动作的选择后给与Actor一个奖励,那么整个过程如下所示:

Deep Reinforcement learning - Policy Gradient+PPO+TRPO_第7张图片

用 $R(\tau) = \sum_{t=1}^T r_{t}$ l来表示累计奖励,那么目标就是求得奖励期望 $\overline{R}_{\theta}=\sum_{\tau} R(\tau) p_{\theta}(\tau)=E_{\tau \sim p_{\theta}(\tau)}[R(\tau)]$ 值最大。求解这个优化问题就需要用到梯度上升法，这里求解的梯度也称为策略梯度（Policy Gradient）。那么如何求解梯度 $\nabla \overline{R}_{\theta}$ 呢？ $\nabla \overline{R}_{\theta}$ 可写成如下的形式 $\nabla \overline{R}_{\theta}=\sum_{\tau} R(\tau) \nabla p_{\theta}(\tau)=\sum_{\tau} R(\tau) p_{\theta}(\tau) \frac{\nabla p_{\theta}(\tau)}{p_{\theta}(\tau)}$ 因为前一项表示奖励，并不涉及梯度的求解，所以求梯度只针对后一项。而且先除再乘一个相同的值并不改变值得大小。根据 $\nabla f(x)=f(x) \nabla \log f(x)$ 可将上式转换为 $\nabla \overline{R}_{\theta}=\sum_{\tau} R(\tau) p_{\theta}(\tau) \nabla \log p_{\theta}(\tau)$ 。

因为有 $P(\tau|\theta)=p(s_{1})\prod_{t=1}^Tp(a_{t}|s_{t},\theta)p(r_{t},s_{t+1}|s_{t},a_{t})$ ，取对数有 $P(\tau|\theta)=\log p\left(s_{1}\right)+\sum_{t=1}^{T} \log p\left(a_{t} | s_{t}, \theta\right)+\log p\left(r_{t}, s_{t+1} | s_{t}, a_{t}\right)$ 而第一项和第三项均与求解梯度无关，因此有 $\nabla \log P(\tau | \theta)=\sum_{t=1}^{T} \nabla \log p\left(a_{t} | s_{t}, \theta\right)$ ，为了表述简单，统一不再写参数 $\theta$ 。因此关于 $\nabla \overline{R}_{\theta}$ 的式子可进一步转换为 $\begin{aligned} \nabla \overline{R}_{\theta} &=E_{\tau \sim p_{\theta}(\tau)}\left[R(\tau) \nabla \log p_{\theta}(\tau)\right] \approx \frac{1}{N} \sum_{n=1}^{N} R\left(\tau^{n}\right) \nabla \log p_{\theta}\left(\tau^{n}\right) \\ &=\frac{1}{N} \sum_{n=1}^{N} \sum_{t=1}^{T_{n}} R\left(\tau^{n}\right) \nabla \log p_{\theta}\left(a_{t}^{n} | s_{t}^{n}\right) \end{aligned}$

最后根据梯度更新公式 $\theta \leftarrow\theta+\eta\nabla \overline{R}_{\theta}$ 进行参数更新。如果策略 $\tau^n$ 在状态 $s_{t}^n$ 时选择动作 $a_{t}^n$ 时的奖励 $R_{\tau}^n$ 为正时，就调整 $\theta$ 增加 $p(a_{t}^n|s_{t}^n)$ ，如果奖励为负值则需要减少 $p(a_{t}^n|s_{t}^n)$ 。

但有时在某种具体的任务中，奖励值总是为正时，就需要做一些改变 $\nabla \overline{R}_{\theta} \approx \frac{1}{N} \sum_{n=1}^{N} \sum_{t=1}^{T_{n}}\left(R\left(\tau^{n}\right)-b\right) \nabla \log p_{\theta}\left(a_{t}^{n} | s_{t}^{n}\right) \qquad$ 但是 $b$ 的值需要自己设定，通常使用 $\approx E[R(\tau)]$ 。另外在某个时刻 $t$ 采取动作后不会对于之前的奖励值造成影响，因此只需要关注这个时刻之后的情况，所以关于 $\nabla \overline{R}_{\theta}$ 的式子可写为 $\nabla \overline{R}_{\theta} \approx \frac{1}{N} \sum_{n=1}^{N} \sum_{t=1}^{T_{n}}\left(\sum_{t^{\prime}=t}^{T_{n}} r_{t^{\prime}}^{n}-b\right) \nabla \log p_{\theta}\left(a_{t}^{n} | s_{t}^{n}\right)$ 此外当对于不同时刻的奖励加上折扣因子时，上式进一步的可变为 $\nabla \overline{R}_{\theta} \approx \frac{1}{N} \sum_{n=1}^{N} \sum_{t=1}^{T_{n}}\left(\sum_{t^{\prime}=t}^{T_{n}} \gamma^{t^{\prime}-t} r_{t^{'}}^{n}-b\right) \nabla \log p_{\theta}\left(a_{t}^{n} | s_{t}^{n}\right)$

上面所讲的策略梯度属于on-policy的类别，此外还有off-policy的方法。那么两者之间如何区分呢？

on-policy：它指的是我们需要学习的Agent和训练过程中和环境进行交互的Agent是同一个
off-policy：它指的是我们需要学习的Agent和训练过程中真正和环境进行交互的Agent不是同一个

那么为什么会用到off-policy的策略，或者说on-policy的策略具有什么样的问题呢？虽然策略梯度在很多的RL任务中可以取得不错的效果，但是同样有一些难度。因为这样的方法对于迭代步骤次数十分的敏感：如果选的太小，训练过程将会极其的缓慢；如果选择的太大，反馈信号将会淹没在噪声中，甚至会让模型的效果雪崩式的下降。另外这样的方法采样的效率也很低，即使学习一个简单的任务也需要百万级乃至十亿级的总迭代次数。为了解决这些问题，研究者就提出了off-policy的策略，我们希望利用 $\pi_{\theta'}$ 来进行采样，使用采样得到的样本来训练 $\theta$ 所表示的Agent，这样采样得到的样本就可以被重复的使用。

在介绍具体的内容之前，我们先看一个很有用的工具重要性采样（Importance sampling），它是使用一种分布来逼近所求分布的一种方法。假设我们想要求取目标分布 $p$ 下的函数 $f (x)$ 所满足的分布，如果 $p$ 可以直接采样，那么使用蒙特卡洛方法有如下的计算 $E_{x \sim p}[f(x)]=\int_{x} p(x) f(x) d_{x} \approx \frac{1}{N} \sum_{x_{i} \sim p, i=1}^{N} f\left(x_{i}\right)$ 但是如果无法直接对 $p$ 进行采样，那么上面的方法就不能使用了，这时就可以使用可以进行采样的分布 $q$ 来近似 $p$ ，计算公式为 $E_{x \sim p}[f(x)]=\int_{x} p(x) f(x) d_{x}=E_{x \sim p^{\prime}}\left[\frac{p}{p^{\prime}} f(x)\right] \approx \frac{1}{N} \sum_{x_{i} \sim p^{\prime}, i=1}^{N} \frac{p(x)}{p(x)^{\prime}} f(x)$ 而且这里使用的分布 $q$ 不应该和 $p$ 相差太大，直观上我们可以理解所用分布自然不能和所要逼近的分布有太大的差距，否则就无法说的通了。下面从均值和方差的角度来看一下为什么要这样，从上面的式子中可以看出 $E_{x \sim p}[f(x)]=E_{x \sim q}\left[f(x) \frac{p(x)}{q(x)}\right]$ ，它们的均值不会有太大差别。将两者的方差写为 $\operatorname{Var}_{x \sim p}[f(x)]$ 和 $\operatorname{Var}_{x \sim q}\left[f(x) \frac{p(x)}{q(x)}\right]$ ，根据概率论中方差和均值的转换公式有 $\begin{array}{l}{\operatorname{Var}_{x \sim p}[f(x)]=E_{x \sim p}\left[f(x)^{2}\right]-\left(E_{x \sim p}[f(x)]\right)^{2}} \\ {\operatorname{Var}_{x \sim q}\left[f(x) \frac{p(x)}{q(x)}\right]=E_{x \sim q}\left[\left(f(x) \frac{p(x)}{q(x)}\right)^{2}\right]-\left(E_{x \sim q}\left[f(x) \frac{p(x)}{q(x)}\right]\right)^{2}} \\ {=E_{x \sim p}\left[f(x)^{2} \frac{p(x)}{q(x)}\right]-\left(E_{x \sim p}[f(x)]\right)^{2}}\end{array}$ 从中可以看出如果两者相差太大，就会导致 $\frac{p(x)}{q(x)}$ 的值太大或是太小，从而导致两个分布之间的差别太大。下面通过图像可视化的理解以下上述的问题，蓝色实线表示分布 $p (x)$ ，绿色实线表示真实采样的分布 $q (x)$ 。从图中可以看出两者的分布是相反的，如果使用这样的 $q (x)$ 去逼近 $p (x)$ ， $q (x)$ 在右面奖励为正的部分采样的概率更大，因此大部分情况下奖励值均是大于零的，可能会在左边采样导致结果符合真实情况，但是因为概率太小，要达到这样的结果往往需要采样很多次，这样耗费的时间将会很多，因此两者之间的差别不应该太大。

Deep Reinforcement learning - Policy Gradient+PPO+TRPO_第8张图片

因此off-policy的梯度求解式为 $\nabla \overline{R}_{\theta}=E_{\tau \sim p_{\theta^{\prime}}(\tau)}\left[\frac{p_{\theta}(\tau)}{p_{\theta^{\prime}}(\tau)} R(\tau) \nabla \log p_{\theta}(\tau)\right]$ ，使用 $\pi_{\theta'}$ 采样得到的样本来训练 $\theta$ 。

在on-policy策略下梯度计算为： $\begin{aligned} \nabla \overline{R}_{\theta} &=E_{\left(s_{t}, a_{t}\right) \sim \pi_{\theta}}\left[A^{\theta}\left(s_{t}, a_{t}\right) \nabla \log p_{\theta}\left(a_{t}^{n} | s_{t}^{n}\right)\right] \\ &=E_{\left(s_{t}, a_{t}\right) \sim \pi_{\theta^{\prime}}}\left[\frac{P_{\theta}\left(s_{t}, a_{t}\right)}{P_{\theta^{\prime}}\left(s_{t}, a_{t}\right)} A^{\theta}\left(s_{t}, a_{t}\right) \nabla \log p_{\theta}\left(a_{t}^{n} | s_{t}^{n}\right)\right] \\ &=E_{\left(s_{t}, a_{t}\right) \sim \pi_{\theta^{\prime}}}\left[\frac{p_{\theta}\left(a_{t} | s_{t}\right)}{p_{\theta^{\prime}}\left(a_{t} | s_{t}\right)} \frac{p_{\theta}\left(s_{t}\right)}{p_{\theta^{\prime}}\left(s_{t}\right)} A^{\theta}\left(s_{t}, a_{t}\right) \nabla \log p_{\theta}\left(a_{t}^{n} | s_{t}^{n}\right)\right] \end{aligned}$

因为此时是从 $\pi_{\theta'}$ 中进行采样，因此应使用 $A^{\theta^{\prime}}\left(s_{t}, a_{t}\right)$ 代替 $A^{\theta}\left(s_{t}, a_{t}\right)$ ，而且 $\frac{p_{\theta}(s_{t})}{p_{\theta'}(s_{t})}$ 值应接近1，同时为了方便计算，可以将其去掉。最后求解的表达式为 $J^{\theta^{\prime}}(\theta)=E_{\left(s_{t}, a_{t}\right) \sim \pi_{\theta^{\prime}}}\left[\frac{p_{\theta}\left(a_{t} | s_{t}\right)}{p_{\theta^{\prime}}\left(a_{t} | s_{t}\right)} A^{\theta^{\prime}}\left(s_{t}, a_{t}\right)\right]$

那么如何求解上式呢？下面简单介绍两种方法，分别是TRPO (Trust Region Policy Optimization)和Proximal Policy Optimization (PPO)

PPO由OpenAI提出，为了使得两个分布不要差别太大，这里使用了KL散度来表示两个分布间行为的差别（而不是参数的差别）。当分布间差别越大时，施加到目标函数上的惩罚就越大，反之越小，惩罚的程度由超参数 $\beta$ 控制。 $\begin{array}{c}{J_{P P O}^{\theta^{\prime}}(\theta)=J^{\theta^{\prime}}(\theta)-\beta K L\left(\theta, \theta^{\prime}\right)} \\ {J^{\theta^{\prime}}(\theta)=E_{\left(s_{t}, a_{t}\right) \sim \pi_{\theta^{\prime}}}\left[\frac{p_{\theta}\left(a_{t} | s_{t}\right)}{p_{\theta^{\prime}}\left(a_{t} | s_{t}\right)} A^{\theta^{\prime}}\left(s_{t}, a_{t}\right)\right]}\end{array}$

TRPO同样使用了KL散度，但不同于PPO的是它并没有把KL散度直接合并到目标函数中，而是作为了一种限制，这也导致了它比较难计算，因此实际中使用的并不多。 $J_{T R P O}^{\theta^{\prime}}(\theta)=E_{\left(s_{t}, a_{t}\right) \sim \pi_{\theta^{\prime}}}\left[\frac{p_{\theta}\left(a_{t} | s_{t}\right)}{p_{\theta^{\prime}}\left(a_{t} | s_{t}\right)} A^{\theta^{\prime}}\left(s_{t}, a_{t}\right)\right]$

PPO的算法流程为：

初始化policy的参数 $\theta^0$
在每一次迭代中,使用 $\theta^k$ 与环境互动，收集状态和行动并计算对应的 $A^{\theta^{k}}\left(s_{t}, a_{t}\right)$
不断更新参数，找到目标函数 $J_{P P O}^{\theta^{k}}(\theta)=J^{\theta^{k}}(\theta)-\beta K L\left(\theta, \theta^{k}\right)$ 最优值对应的参数 $\theta$

PPO的优点：PPO 算法很好地权衡了实现简单性、样本复杂度和调参难度，它尝试在每一迭代步计算一个更新以最小化成本函数，在计算梯度时还需要确保与先前策略有相对较小的偏差。

还有一个针对与PPO的改进算法PPO2，它的目标函数为 $J_{P P O 2}^{\theta^{k}}(\theta) \approx \sum_{\left(s_{t}, a_{t}\right)} \min \left(\frac{p_{\theta}\left(a_{t} | s_{t}\right)}{p_{\theta^{k}}\left(a_{t} | s_{t}\right)} A^{\theta^{k}}\left(s_{t}, a_{t}\right), \operatorname{clip}\left(\frac{p_{\theta}\left(a_{t} | s_{t}\right)}{p_{\theta^{k}}\left(a_{t} | s_{t}\right)}, 1-\varepsilon, 1+\varepsilon\right) A^{\theta^{k}}\left(s_{t}, a_{t}\right)\right)$ 它使用了 $c l i p (.)$ 来控制分布间的差别。

参考

TRPO和PPO（上）
策略梯度下降过时了，OpenAI 拿出一种新的策略优化算法PPO
Proximal Policy Optimization Algorithm
Trust Resgion Policy Optimization
Sample Efficient Actor-Critic with Experience Replay
RL — Policy Gradient Explained
强化学习(十三) 策略梯度(Policy Gradient)

机器学习和深度学习的概念你好呀我是裤裤深度学习笔记机器学习深度学习人工智能
MachineLearning机器学习，可以看作是找一个函数。这个函数是人类找不到的，所以交给机器来找。DifferenttypesofFunctions**Regression：**函数的输出是一个数值forexample：**Classification：**给出选项，让机器去选择。forexample：检测一个邮件是不是垃圾文件，就可以通过这个来做。选项是两个：垃圾文件or非垃圾文件。下面，
深度学习项目--基于LSTM的火灾预测研究(pytorch实现) 羊小猪~~ RNN LSTM神经网络案例机器学习/数据分析案例深度学习 lstm pytorch 人工智能机器学习 rnn gru
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊前言LSTM模型一直是一个很经典的模型，这个模型当然也很复杂，一般需要先学习RNN、GRU模型之后再学，GRU、LSTM的模型讲解将在这两天发布更新，其中：深度学习基础–一文搞懂RNN深度学习基础–GRU学习笔记(李沐《动手学习深度学习》)这一篇：是基于LSTM模型火灾预测研究，讲述了如何构建时间数据、模型如何构建、pytorch中LST
美国最高法院维持TikTok不卖就禁法案；荣耀 CEO 赵明辞职；OpenAI计划几周内推出o3 mini推理模型 | 极客头条极客日报 tiktok openai
「极客头条」——技术人员的新闻圈！CSDN的读者朋友们好，「极客头条」来啦，快来看今天都有哪些值得我们技术人关注的重要新闻吧。整理|苏宓出品|CSDN（ID：CSDNnews）一分钟速览新闻点！荣耀CEO赵明辞职，前为华为监事李健继任阿里巴巴内部调整：天猫精灵硬件团队与夸克融合，瞄准AI眼镜市场小米NAS已进入到开发的尾声传特斯拉上海工厂春节期间将停产，内部人员：没听说此事游戏科学在杭州成立黑神话
PLUTO：突破基于模仿学习的自动驾驶规划极限硅谷秋水机器学习自动驾驶人工智能自动驾驶人工智能机器学习计算机视觉
24年4月来自香港科技大学的论文“PLUTO:PushingtheLimitofImitationLearning-basedPlanningforAutonomousDriving”。PLUTO，突破基于模仿学习的自动驾驶规划极限。改进来自三个关键方面：一种纵向横向感知模型架构，可实现灵活多样的驾驶行为；一种创新的辅助损失计算方法，可广泛应用且可高效地进行批量计算；一种利用对比学习的训练框架，采
【Vim Masterclass 笔记16】S07L32 + L33：同步练习09 —— 掌握 Vim 宏操作的六个典型案例（含点评课内容）安冬的码畜日常 Vim Masterclass vim 笔记 vim宏同步练习自学笔记
文章目录S07L32Exercise09-Macros1训练目标2操作指令2.1.打开macros-practice.txt文件2.2.练习1：将旧版Python代码转换为新版写法2.3.练习2：根据列表内容批量创建Shell脚本2.4.练习3：对电话号码作格式化处理2.5.练习4：从日志文件中提取重要数据2.6.练习5：将多行数据压缩为一行2.7.练习6：从HTML中提取数据3退出VimS07L
拿下美赛M奖之必备软件和网站！东方建模. 数学建模
目录前言：一.题目翻译与理解：DeepL+知云文献翻译二.查找文献：国内外平台结合使用三.论文撰写：Word或LaTeX+Overleaf四.公式输入与思维导图：MathType+XMind五.阅读文献与文献管理：AdobeReader+Zotero六.模型求解与编程：MATLAB+Python+Lingo七.图形绘制与结果可视化：MATLAB+Python+Origin八.流程图与示意图：亿图图
浅析NAT的类型-ZT icu 技术类网络服务器路由器防火墙 domain mobile
浅析NAT的类型何宝宏[1]摘要介绍了四种典型的NAT类型和两种典型的传统NAT类型。关键词NATNATP类型一、引言RFC1631以及相关RFC定义的网络地址翻译器(NAT)。IETF一直主张利用IPv6技术解决地址短缺问题，因此IETF虽然出版了几个与NAT相关的RFC，但对NAT技术(尤其是穿越问题)一直没有系统的标准化工作，如SIP和MobileIP就是NAT出现后设计的一些协议，都未考虑
【C++】——红黑树的平衡之道：深入实现与优化如意.759 c++算法开发语言
坎坷之路，终抵星空。——哈珀·李《杀死一只反舌鸟》目录1.解密红黑树：平衡与效率的双重奏2.搭建红黑树：从零到自平衡的实现之路2.1树基打底：设计与框架构建2.2插入有道：插入操作的技巧与挑战2.3旋转为王：平衡的秘密武器2.4查找制胜：高效查询之道3.性能透析：红黑树的效率与边界1.解密红黑树：平衡与效率的双重奏探讨红黑树如何通过一组简单的规则保持平衡，并提供高效的查询和更新操作。红黑树是一种特
官宣开源阿里云与清华大学共建AI大模型推理项目Mooncake 阿里云大模型
2024年6月，国内优质大模型应用月之暗面Kimi与清华大学MADSys实验室（MachineLearning,AI,BigDataSystemsLab）联合发布了以KVCache为中心的大模型推理架构Mooncake。通过使用以KVCache为中心的PD分离和以存换算架构，大幅提升大模型应用Kimi智能助手推理吞吐的同时有效降低了推理成本，自发布以来受到业界广泛关注。近日，清华大学和研究组织9#
Flink 批作业如何在 Master 节点出错重启后恢复执行进度？ flink大数据
摘要：本文撰写自阿里云研发工程师李俊睿（昕程），主要介绍Flink1.20版本中引入了批作业在JMfailover后的进度恢复功能。主要分为以下四个内容：背景解决思路使用效果如何启用一、背景在Flink1.20版本之前，如果Flink的JobMaster（JM）发生故障导致被终止，将会发生如下两种情况：如果作业未启用高可用性（HA），作业将失败。如果作业启用了HA，JM会被自动重新拉起（JMfai
【机器学习】主动学习-增加标签的操作方法-样本池采样（Pool-Based Sampling） IT古董机器学习机器学习学习人工智能
Pool-BasedSamplingPool-basedsampling是一种主动学习（ActiveLearning）方法，与流式选择性采样不同，它假设有一个预先定义的未标注样本池，算法从中选择最有价值的样本进行标注，以提升模型的性能。这种方法广泛应用于需要人工标注的场景，例如文本分类、图像识别等。核心思想预先准备一个未标注数据池（UnlabeledDataPool）。使用初始标注数据训练一个模型
deepin 中 apt 与 dpkg 安装包管理工具的区别慵懒的猫mi linux deepin 运维
在Linux系统中，尤其是基于Debian的发行版如Ubuntu和Deepin，apt和dpkg是两种常用的包管理工具。它们在功能和使用场景上有一些显著的区别。本文将详细介绍这两种工具的主要区别以及它们的常用命令。1.主要区别1.1dpkg功能：dpkg侧重于本地软件包的管理。它主要用于安装、删除和查询本地的.deb文件。依赖管理：dpkg不会自动处理依赖关系。如果安装的包有依赖，需要手动安装这些
HTML（超文本标记语言） Parrot 安全小子 html 前端
HTML（超文本标记语言-HyperTextMarkupLanguage）是一种用于创建网页的标准标记语言。HTML最初是由蒂姆・伯纳斯-李（TimBerners-Lee）在1990年左右开发的。当时的目的是为了让世界各地的科学家能够方便地共享和交流信息。随着互联网的飞速发展，HTML也经历了多个版本的更新，从HTML1.0到HTML4.01，再到现在广泛使用的HTML5。每一次版本更新都带来了新
北大新模型FAN：新型神经网络架构，填补周期性特征建模空白海森大数据神经网络人工智能深度学习
在科学研究和技术发展的浪潮中，周期性现象作为自然界和人类社会的普遍规律，一直备受关注。从天文学中的行星运动到经济学中的商业周期，周期性无处不在，深刻影响着我们的生活和思考方式。然而，传统的神经网络模型，如多层感知器（MLP）和Transformer，在周期性建模方面却存在明显不足。面对这一挑战，北京大学李戈教授的团队提出了一种创新性的网络架构——FourierAnalysisNetworks（FA
python调用excel宏函数，封装 garra_ python python pycharm
用excel中开发者模式的VBA对excel内容操作，可以采用VB6.0或者VS搭建用户窗口，但是由于VB6.0软件版本太低，很多用户窗口函数调用与目前excel自带函数不兼容，则直接用python调用excel宏，并打包成exe。分为几部分：目录1，python调用excel函数及内容2，python封装exe修改spec文件1，python调用excel函数及内容python调用excel采用
DeepSeek Artifacts：前端开发的新利器人工智能
DeepSeekArtifacts：前端开发的新利器人工智能领域创新不断，DeepSeekV3便是其中备受瞩目的工具之一。这款轻量级模型凭借在大语言模型（LLM）排行榜上的优异表现，以及亲民的价格和卓越的性能，在人工智能社区中广受关注。然而，它的姊妹工具DeepSeekArtifacts却因截然不同的缘由引发了热议。在本文中，我们将深入探究DeepSeekArtifacts。这是HuggingFa
6850亿参数混合专家(MoE)架构开源大模型！Deepseek V3全方位客观评测文档处理、逻辑推理、算法编程等多维度的真实能力水平！是卓越还是拉胯？真能超越Claude还是言过其实？ AI超元域 ai AI编程
本篇笔记所对应的视频：6850亿参数混合专家(MoE)架构开源大模型！DeepseekV3全方位客观评测文档处理、逻辑推理、算法编程等多维度的真实能力水平！是卓越还是拉胯？_哔哩哔哩_bilibiliDeepseek发布了最新Deepseekv3大模型，现在在huggingface上可以下载模型的权重文件了。而且我们还可以在Deepseek的官方直接使用v3模型。由于官方还没有发布详细的参数介绍，
peewee 怎么实现 count(*) mysqlsql
问题：peewee的.count方法是必须要加参数的，不加参数就会翻译成count()，是非法的SQLSQL的count必须加*或者具体的字段而peewee的count方法直接加.count('')是不行的，会被翻译成count('')，也是非法的SQL合法的SQL是count(*)解决办法回到问题「peewee怎么实现count(*)」问了3个ai：chatgpt、deepseekv3、gemi
《C++ 赋能强化学习：Q - learning 算法的实现之路》 c++人工智能深度学习
在当今科技飞速发展的时代，人工智能无疑是最热门的领域之一，而强化学习作为其中的重要分支，正逐渐改变着我们解决复杂问题的方式。Q-learning算法作为强化学习中的经典算法，在众多领域如游戏、机器人控制、资源管理等有着广泛的应用前景。本文将深入探讨如何用C++实现强化学习中的Q-learning算法，带您领略C++在人工智能领域的强大魅力。一、强化学习与Q-learning算法概述强化学习是一种通
AI Coding，亦或 AI for Coding？编程语言
Go+编程语言创始人、七牛云创始人兼CEO许式伟，中国科学院软件研究所PLCT实验室负责人、建立中国RISC-V生态的甲辰计划主理人吴伟，专注RISC-V编译器和硬件笔记本开发的鉴释科技联合创始人兼CEO梁宇宁聚首2024IDEA大会，从软件与硬件的双重视角，剖析大模型时代，编程语言的软硬件发展机会。IDEA研究院基础软件中心负责人张宏波主持这场讨论。基础软件行业的变革之所以显著，是因为它紧随人机
Python跳动的爱心 Want595 python 开发语言
系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python漂浮爱心代码7Python爱心光波代码8Python普通的玫瑰花代码9Python炫酷的玫瑰花代码10Python多彩的玫瑰花代码节日系列1Python动漫风烟花秀代码2Python新年烟花
Cherno C++学习笔记 P53 模板 14_11 Cherno C++学习学习笔记 c++
这篇文章我们会讲一下C++模板，这个是一个非常有意思的且有用的东西，我们平时使用的STL其实就是基于模板编写的。它几乎就像一个宏，可以去做我们想做的任何事情。模板也可以称其为泛型，但是它比泛型要强大得多。模板是一个非常非常大的话题，所以这里我们只会讲解它简单的应用。它的本质是可以根据我们自己的用途，为其定义一个模板，然后编译器会根据我们给出的规则来帮助我们编写代码，可以让我们省去很多麻烦。所以使用
【列表复制】详解python中list列表复制的几种方法（赋值、切片、copy()，deepcopy()）有梦想的程序星空 Python开发教程 python 开发语言
在Python编程领域，列表是一种极为常用的数据结构，用于存储多个元素的有序集合。当涉及到对列表进行复制操作时，浅拷贝和深拷贝是两种重要的概念与技术手段，它们在处理列表数据的过程中有着截然不同的行为和影响，深刻理解二者的差异与应用场景对于编写高效、准确且健壮的Python代码至关重要。1、浅拷贝和深拷贝浅拷贝复制指向某个对象的地址（指针），而不复制对象本身，新对象和原对象共享同一内存。深拷贝会额外
2024年大数据最全【ES专题】ElasticSearch集群架构剖析_es集群 kenzsoft 程序员大数据 elasticsearch 架构
IngestNode：数据前置处理转换节点，支持pipeline管道设置，可以使用ingest对数据进行过滤、转换等操作MachineLearningNode：负责跑机器学习的Job，用来做异常检测TribeNode：TribeNode连接到不同的Elasticsearch集群，并且支持将这些集群当成一个单独的集群处理以下是一个多集群业务架构图：1.2.1.1MasterNode主节点的功能Mas
黑客发现新漏洞：Windows容器隔离框架可助其绕过端点安全真想骂* windows 安全
近期，网络安全领域再次传来令人担忧的消息。DeepInstinct的安全研究员DanielAvinoam在DEFCON安全大会上揭示了一项惊人的发现：黑客可以利用Windows容器隔离框架的漏洞，绕过端点安全系统，从而执行恶意操作。这一发现无疑为全球的网络安全防护提出了新的挑战。Windows容器隔离框架，作为Microsoft容器架构的重要组成部分，其设计初衷是通过动态生成的映像将文件系统从每个
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
我校举行新老教师师徒结对仪式暨名师专业工作室工作交流活动李蕾1229
为促进我校教师专业发展，发挥骨干教师的引领带头作用，11月6日下午，我校举行新老教师师徒结对仪式暨名师专业工作室工作交流活动。图片发自App会议由教师发展处李蕾主任主持，首先，由范校长宣读新老教师结对名单及双方承担职责。随后，两位新调入教师陈玉萍、莫正杰分别和他们的师傅鲍元美、刘召彬老师签订了师徒结对协议书。图片发自App图片发自App师徒拥抱、握手。有了师傅就有了目标有了方向，相信两位新教师在师
ARM驱动学习之5 LEDS驱动 JT灬新一嵌入式 C 底层 arm开发学习单片机
ARM驱动学习之5LEDS驱动知识点：•linuxGPIO申请函数和赋值函数–gpio_request–gpio_set_value•三星平台配置GPIO函数–s3c_gpio_cfgpin•GPIO配置输出模式的宏变量–S3C_GPIO_OUTPUT注意点：DRIVER_NAME和DEVICE_NAME匹配。实现步骤：1.加入需要的头文件：//Linux平台的gpio头文件#include//三
scala的option和some 矮蛋蛋编程 scala
原文地址： http://blog.sina.com.cn/s/blog_68af3f090100qkt8.html 对于学习 Scala 的 Java™ 开发人员来说，对象是一个比较自然、简单的入口点。在本系列前几期文章中，我介绍了 Scala 中一些面向对象的编程方法，这些方法实际上与 Java 编程的区别不是很大。我还向您展示了 Scala 如何重新应用传统的面向对象概念，找到其缺点
NullPointerException Cb123456 android BaseAdapter
java.lang.NullPointerException: Attempt to invoke virtual method 'int android.view.View.getImportantForAccessibility()' on a null object reference 出现以上异常.然后就在baidu上
PHP使用文件和目录天子之骄 php文件和目录读取和写入 php验证文件 php锁定文件
PHP使用文件和目录 1.使用include()包含文件 (1)：使用include()从一个被包含文档返回一个值 (2)：在控制结构中使用include() include_once()函数需要一个包含文件的路径，此外，第一次调用它的情况和include()一样，如果在脚本执行中再次对同一个文件调用，那么这个文件不会再次包含。在php.ini文件中设置
SQL SELECT DISTINCT 语句何必如此 sql
SELECT DISTINCT 语句用于返回唯一不同的值。 SQL SELECT DISTINCT 语句在表中，一个列可能会包含多个重复值，有时您也许希望仅仅列出不同（distinct）的值。 DISTINCT 关键词用于返回唯一不同的值。 SQL SELECT DISTINCT 语法 SELECT DISTINCT column_name,column_name F
java冒泡排序 3213213333332132 java 冒泡排序
package com.algorithm; /** * @Description 冒泡 * @author FuJianyong * 2015-1-22上午09:58:39 */ public class MaoPao { public static void main(String[] args) { int[] mao = {17,50,26,18,9,10
struts2.18 +json,struts2-json-plugin-2.1.8.1.jar配置及问题！ 7454103 DAO spring Ajax json qq
struts2.18 出来有段时间了！（貌似是稳定版）闲时研究下下！貌似 sruts2 搭配 json 做 ajax 很吃香！实践了下下！不当之处请绕过！呵呵网上一大堆 struts2+json 不过大多的json 插件都是 jsonplugin.34.jar strut
struts2 数据标签说明 darkranger jsp bean struts servlet Scheme
数据标签主要用于提供各种数据访问相关的功能，包括显示一个Action里的属性，以及生成国际化输出等功能数据标签主要包括： action ：该标签用于在JSP页面中直接调用一个Action，通过指定executeResult参数，还可将该Action的处理结果包含到本页面来。 bean ：该标签用于创建一个javabean实例。如果指定了id属性，则可以将创建的javabean实例放入Sta
链表.简单的链表节点构建 aijuans 编程技巧
/*编程环境WIN-TC*/ #include "stdio.h" #include "conio.h" #define NODE(name, key_word, help) \ Node name[1]={{NULL, NULL, NULL, key_word, help}} typedef struct node { &nbs
tomcat下jndi的三种配置方式 avords tomcat
jndi(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。命名服务将名称和对象联系起来，使得我们可以用名称访问对象。目录服务是一种命名服务，在这种服务里，对象不但有名称，还有属性。 tomcat配置
关于敏捷的一些想法 houxinyou 敏捷
从网上看到这样一句话：“敏捷开发的最重要目标就是：满足用户多变的需求，说白了就是最大程度的让客户满意。” 感觉表达的不太清楚。感觉容易被人误解的地方主要在“用户多变的需求”上。第一种多变，实际上就是没有从根本上了解了用户的需求。用户的需求实际是稳定的，只是比较多，也比较混乱，用户一般只能了解自己的那一小部分，所以没有用户能清楚的表达出整体需求。而由于各种条件的，用户表达自己那一部分时也有
富养还是穷养，决定孩子的一生 bijian1013 教育人生
是什么决定孩子未来物质能否丰盛？为什么说寒门很难出贵子，三代才能出贵族？真的是父母必须有钱，才能大概率保证孩子未来富有吗？-----作者：@李雪爱与自由事实并非由物质决定，而是由心灵决定。一朋友富有而且修养气质很好，兄弟姐妹也都如此。她的童年时代，物质上大家都很贫乏，但妈妈总是保持生活中的美感，时不时给孩子们带回一些美好小玩意，从来不对孩子传递生活艰辛、金钱来之不易、要懂得珍惜
oracle 日期时间格式转化征客丶 oracle
oracle 系统时间有 SYSDATE 与 SYSTIMESTAMP； SYSDATE：不支持毫秒，取的是系统时间； SYSTIMESTAMP：支持毫秒，日期，时间是给时区转换的，秒和毫秒是取的系统的。日期转字符窜：一、不取毫秒： TO_CHAR(SYSDATE, 'YYYY-MM-DD HH24:MI:SS') 简要说明， YYYY 年 MM 月
【Scala六】分析Spark源代码总结的Scala语法四 bit1129 scala
1. apply语法 FileShuffleBlockManager中定义的类ShuffleFileGroup，定义： private class ShuffleFileGroup(val shuffleId: Int, val fileId: Int, val files: Array[File]) { ... def apply(bucketId
Erlang中有意思的bug bookjovi erlang
代码中常有一些很搞笑的bug，如下面的一行代码被调用两次（Erlang beam） commit f667e4a47b07b07ed035073b94d699ff5fe0ba9b Author: Jovi Zhang <[email protected]> Date: Fri Dec 2 16:19:22 2011 +0100 erts:
移位打印10进制数转16进制-2008-08-18 ljy325 java 基础
/** * Description 移位打印10进制的16进制形式 * Creation Date 15-08-2008 9:00 * @author 卢俊宇 * @version 1.0 * */ public class PrintHex { // 备选字符 static final char di
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
利用cmd命令将.class文件打包成jar chenyu19891124 cmd jar
cmd命令打jar是如下实现：在运行里输入cmd，利用cmd命令进入到本地的工作盘符。(如我的是D盘下的文件有此路径 D:\workspace\prpall\WEB-INF\classes) 现在是想把D:\workspace\prpall\WEB-INF\classes路径下所有的文件打包成prpall.jar。然后继续如下操作： cd D: 回车 cd workspace/prpal
[原创]JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 comsci eclipse 设计模式算法工作 swing
JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 &nb
SecureCRT右键粘贴的设置 daizj secureCRT 右键粘贴
一般都习惯鼠标右键自动粘贴的功能，对于SecureCRT6.7.5 ，这个功能也已经是默认配置了。老版本的SecureCRT其实也有这个功能，只是不是默认设置，很多人不知道罢了。菜单： Options->Global Options ...->Terminal 右边有个Mouse的选项块。 Copy on Select Paste on Right/Middle
Linux 软链接和硬链接 dongwei_6688 linux
1.Linux链接概念Linux链接分两种，一种被称为硬链接（Hard Link），另一种被称为符号链接（Symbolic Link）。默认情况下，ln命令产生硬链接。【硬连接】硬连接指通过索引节点来进行连接。在Linux的文件系统中，保存在磁盘分区中的文件不管是什么类型都给它分配一个编号，称为索引节点号(Inode Index)。在Linux中，多个文件名指向同一索引节点是存在的。一般这种连
DIV底部自适应 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
Centos6.5使用yum安装mysql——快速上手必备 dcj3sjt126com mysql
第1步、yum安装mysql [root@stonex ~]# yum -y install mysql-server 安装结果： Installed: mysql-server.x86_64 0:5.1.73-3.el6_5 &nb
如何调试JDK源码 frank1234 jdk
相信各位小伙伴们跟我一样，想通过JDK源码来学习Java，比如collections包，java.util.concurrent包。可惜的是sun提供的jdk并不能查看运行中的局部变量，需要重新编译一下rt.jar。下面是编译jdk的具体步骤： 1.把C:\java\jdk1.6.0_26\sr
Maximal Rectangle hcx2013 max
Given a 2D binary matrix filled with 0's and 1's, find the largest rectangle containing all ones and return its area. public class Solution { public int maximalRectangle(char[][] matrix)
Spring MVC测试框架详解——服务端测试 jinnianshilongnian spring mvc test
随着RESTful Web Service的流行，测试对外的Service是否满足期望也变的必要的。从Spring 3.2开始Spring了Spring Web测试框架，如果版本低于3.2，请使用spring-test-mvc项目（合并到spring3.2中了）。 Spring MVC测试框架提供了对服务器端和客户端（基于RestTemplate的客户端）提供了支持。 &nbs
Linux64位操作系统（CentOS6.6）上如何编译hadoop2.4.0 liyong0802 hadoop
一、准备编译软件 1.在官网下载jdk1.7、maven3.2.1、ant1.9.4，解压设置好环境变量就可以用。环境变量设置如下：（1）执行vim /etc/profile （2）在文件尾部加入: export JAVA_HOME=/home/spark/jdk1.7 export MAVEN_HOME=/ho
StatusBar 字体白色 pangyulei status
[[UIApplication sharedApplication] setStatusBarStyle:UIStatusBarStyleLightContent]; /*you'll also need to set UIViewControllerBasedStatusBarAppearance to NO in the plist file if you use this method
如何分析Java虚拟机死锁 sesame java thread oracle 虚拟机 jdbc
英文资料： Thread Dump and Concurrency Locks Thread dumps are very useful for diagnosing synchronization related problems such as deadlocks on object monitors. Ctrl-\ on Solaris/Linux or Ctrl-B
位运算简介及实用技巧（一）：基础篇 tw_wangzhengquan 位运算
http://www.matrix67.com/blog/archives/263 去年年底写的关于位运算的日志是这个Blog里少数大受欢迎的文章之一，很多人都希望我能不断完善那篇文章。后来我看到了不少其它的资料，学习到了更多关于位运算的知识，有了重新整理位运算技巧的想法。从今天起我就开始写这一系列位运算讲解文章，与其说是原来那篇文章的follow-up，不如说是一个r
jsearch的索引文件结构 yangshangchuan 搜索引擎 jsearch 全文检索信息检索 word分词
jsearch是一个高性能的全文检索工具包，基于倒排索引，基于java8，类似于lucene，但更轻量级。 jsearch的索引文件结构定义如下： 1、一个词的索引由=分割的三部分组成：第一部分是词第二部分是这个词在多少

Deep Reinforcement learning - Policy Gradient+PPO+TRPO

参考

你可能感兴趣的:(Deep,Learning,李宏毅系列课程)