阿正的梦工坊

深度强化学习（王树森）笔记09

深度强化学习（DRL）

本文是学习笔记，如有侵权，请联系删除。本文在ChatGPT辅助下完成。

参考链接

Deep Reinforcement Learning官方链接：https://github.com/wangshusen/DRL

源代码链接：https://github.com/DeepRLChinese/DeepRL-Chinese

B站视频：【王树森】深度强化学习(DRL)

豆瓣: 深度强化学习

文章目录

深度强化学习（DRL）
带基线的策略梯度方法
- 策略梯度中的基线
- - 基线 (Baseline)
  - 基线的直观解释
- 带基线的 REINFORCE 算法
- - 策略网络和价值网络
  - 算法的推导
  - 训练流程
- Advantage Actor-Critic (A2C)
- - 算法推导
  - 训练流程
  - 用目标网络改进训练
- 总结
后记

带baseline的策略梯度方法：REINFORCE with baseline和advantage actor-critic (A2C)

带基线的策略梯度方法

上一章推导出策略梯度，并介绍了两种策略梯度方法——REINFORCE 和 actor-critic。
虽然上一章的方法在理论上是正确的，但是在实践中效果并不理想。本章介绍的带基线的策略梯度 (policy gradient with baseline) 可以大幅提升策略梯度方法的表现。使用基线(baseline) 之后，REINFORCE 变成 REINFORCE with baseline, actor-critic 变成 advantage actor-critic (A2C)。

策略梯度中的基线

首先回顾上一章的内容。策略学习通过最大化目标函数 $J(\theta)=\mathbb{E}_S[V_\pi(S)]$ , 训练出策略网络 $\pi(a|s;\theta)$ 。可以用策略梯度 $\nabla_{\theta}J(\theta)$ 来更新参数 $\theta$ :

$\theta_{\mathrm{new}}\:\leftarrow\:\theta_{\mathrm{now}}+\beta\cdot\nabla_{\theta}\:J(\boldsymbol{\theta_{now}}).$

策略梯度定理证明：

$\boxed{\quad\nabla_\theta J(\boldsymbol{\theta})~=~\mathbb{E}_S\biggl[\mathbb{E}_{A\sim\pi(\cdot|S,\boldsymbol{\theta})}\biggl[\:Q_\pi(S,A)~\cdot~\nabla_\theta\:\ln\pi(A\mid S;\boldsymbol{\theta})\biggr]\biggr].} \quad{(8.1)}$
上一章中，我们对策略梯度 $\nabla_{\theta}J(\theta)$ 做近似，推导出 REINFORCE 和 actor-critic; 两种方法区别在于具体如何做近似。

基线 (Baseline)

基于策略梯度公式 (8.1) 得出的 REINFORCE 和 actor-critic 方法效果通常不好。只需对策略梯度公式 (8.1) 做一个微小的改动，就能大幅提升表现：把 $b$ 作为动作价值函数 $Q_{\pi}(S,A)$ 的基线 (baseline), 用 $Q_{\pi}(S,A)-b$ 替换掉 $Q_{\pi}$ 。设 $b$ 是任意的函数，只要不依赖于动作 $A$ 就可以，例如 $b$ 可以是状态价值函数 $V_\pi(S)$ 。

定理 8.1. 带基线的策略梯度定理

设 $b$ 是任意的函数，但是 $b$ 不能依赖于 $A$ 。把 $b$ 作为动作价值函数 $Q_\pi(S,A)$ 的基线，对策略梯度没有影响：
$\nabla_{\theta}\:J(\boldsymbol{\theta})\:=\:\mathbb{E}_{S}\bigg[\mathbb{E}_{A\sim\pi(\cdot|S;\boldsymbol{\theta})}\bigg[\bigg(\:Q_{\pi}(S,A)\:-\:{b}\bigg)\:\cdot\:\nabla_{\boldsymbol{\theta}}\:\ln\pi(A|S;\boldsymbol{\theta})\bigg]\bigg]\bigg.$

定理 8.1 说明 $b$ 的取值不影响策略梯度的正确性。不论是让 $b = 0$ 还是让 $b=V_\pi(S)$ , 对期望的结果毫无影响，期望的结果都会等于 $\nabla_{\theta}J(\theta)$ 。其原因在于
$\mathbb{E}_{S}\Big[\mathbb{E}_{A\sim\pi(\cdot|S;\boldsymbol{\theta})}\Big[b\:\cdot\:\nabla_{\boldsymbol{\theta}}\:\ln\pi\big(A|S;\:\boldsymbol{\theta}\big)\Big]\Big]\:=\:0.$

定理中的策略梯度表示成了期望的形式，我们对期望做蒙特卡洛近似。从环境中观测到一个状态 $s$ ,然后根据策略网络抽样得到 $a\sim\pi(\cdot|s;\boldsymbol{\theta})$ 。那么策略梯度 $\nabla_\theta J(\theta)$ 可以近似为下面的随机梯度：

$\boxed{\quad\boldsymbol{g}_b(s,a;\boldsymbol{\theta})=\left[Q_\pi(s,a)-b\right]\cdot\nabla_\theta\ln\pi(a|s;\boldsymbol{\theta}).}$

不论 $b$ 的取值是 0 还是 $V_\pi(s)$ , 得到的随机梯度 $g_b(s,a;\boldsymbol{\theta})$ 都是 $\nabla_{\boldsymbol{\theta}}J(\boldsymbol{\theta})$ 的无偏估计：

$\begin{array}{rcl}{\text{Bias}}&{=}&{\mathbb{E}_{S,A}\left[\boldsymbol{g}_{b}(S,A;\boldsymbol{\theta})\right]\:-\:\nabla_{\theta}J(\boldsymbol{\theta})\:=\:\mathbf{0}.}\\\end{array}$

虽然 $b$ 的取值对 $\mathbb{E}_{S,A}[\boldsymbol{g}_b(S,A;\boldsymbol{\theta})]$ 毫无影响，但是 $b$ 对随机梯度 $g_b(s,a;\theta)$ 是有影响的。用不同的 $b$ , 得到的方差

$\text{Var}\:=\:\mathbb{E}_{S,A}\left[\left\|g_{b}(S,A;\:\theta)\:-\:\nabla_{\theta}J(\boldsymbol{\theta})\right\|^{2}\right]$

会有所不同。如果 $b$ 很接近 $Q_\pi(s,a)$ 关于 $a$ 的均值，那么方差会比较小。因此， $b=V_\pi(s)$ 是很好的基线。

基线的直观解释

策略梯度公式 (8.1) 期望中的 $Q_\pi(S,A)\cdot\nabla_\theta\ln\pi(A|S;\boldsymbol{\theta})$ 的意义是什么呢？以图 8.1中的左图为例。

给定状态 $s_t$ , 动作空间是 $A= { 左，右，上} $, 动作价值函数给每个动作打分：
$Q_{\pi}(s_{t},\text{左})\:=\:80,\quad Q_{\pi}(s_{t},\text{右})\:=\:-20,\quad Q_{\pi}(s_{t},\text{上})\:=\:180,$

这些分值会乘到梯度 $\nabla_{\boldsymbol{\theta}}\ln\pi(A|S;\boldsymbol{\theta})$ 上。在做完梯度上升之后，新的策略会倾向于分值高的动作。

动作价值 $Q_\pi(s_t,上)=180$ 很大，说明基于状态 $s_t$ 选择动作“上”是很好的决策。让梯度 $\nabla_{\theta}\ln\pi(上|s_t;\theta)$ 乘以大的系数 $Q_{\pi}(s_{t}, 上)=180$ , 那么做梯度上升更新 $\theta$ 之后，会让 $\pi(上|s_t;\theta)$ 变大，在状态 $s_t$ 的情况下更倾向于动作“上”。
相反， $Q_\pi( s_t, 右) = - 20$ 说明基于状态 $s_t$ 选择动作“右”是糟糕的决策。让梯度 $\nabla_{\boldsymbol{\theta}}\ln \pi(右|s_t; \boldsymbol\theta)$ 乘以负的系数 $Q_\pi( s_t, 右) = - 20$ ,那么做梯度上升更新 $\theta$ 之后，会让$\pi(右|s_t; \boldsymbol\theta) $ 变小，在状态 $s_t$ 的情况下选择动作“右”的概率更小。

根据上述分析，我们在乎的是动作价值 $Q_\pi( s_t, 左)$ 、 $Q_\pi( s_t, 右)$ 、 $Q_\pi(s_t,上)$ 三者的相对大小，而非绝对大小。如果给三者都减去 $b = 60$ ,那么三者的相对大小是不变的；动作“上”仍然是最好的，动作“右”仍然是最差的。见图 8.1 中的右图。因此

$\begin{bmatrix}Q_\pi(s_t,a_t)-b\end{bmatrix}\cdot\nabla_{\boldsymbol{\theta}}\ln\pi(A\:|\:S;\:\boldsymbol{\theta})$

依然能指导 $\theta$ 做调整，使得 $\pi(上|s_t;\theta)$ 变大，而 $\pi(右|s_t;\theta)$ 变小。

带基线的 REINFORCE 算法

上一节推导出了带基线的策略梯度，并且对策略梯度做了蒙特卡洛近似。本节中，我们使用状态价值 $V_{\pi}(s)$ 作基线，得到策略梯度的一个无偏估计：

$\boxed{\boldsymbol{g}(s,a;\boldsymbol{\theta})=\left[Q_{\pi}(s,a)-V_{\pi}(s)\right]\cdot\nabla_{\boldsymbol{\theta}}\ln\pi(a|s;\boldsymbol{\theta}).}$

我们在深度强化学习（王树森）笔记03: 主要介绍policy network， policy gradient，REINFORCE 中学过 REINFORCE, 它使用实际观测的回报 $u$ 来代替动作价值 $Q_\pi(s,a)_s$ 此处我们同样用 $u$ 代替 $Q_\pi(s,a)$ 。此外，我们还用一个神经网络 $v(s;\boldsymbol{w})$ 近似状态价值函数 $V_{\pi}(s)$ 。这样一来， $g(s,a;\theta)$ 就被近似成了：

$\boxed{\quad\tilde{\boldsymbol{g}}(s,a;\boldsymbol{\theta})=\left[u-v(s;\boldsymbol{w})\right]\cdot\nabla_\theta\ln\pi(a|s;\boldsymbol{\theta}).}$

可以用 $\tilde{g}(s,a;\boldsymbol{\theta})$ 作为策略梯度 $\nabla_{\theta}J(\theta)$ 的近似，更新策略网络参数：

$\theta\:\leftarrow\:\theta\:+\:\beta\cdot\tilde{\boldsymbol{g}}(s,a;\:\boldsymbol{\theta})$

策略网络和价值网络

带基线的 REINFORCE 需要两个神经网络：策略网络 $\pi(a|s;\theta)$ 和价值网络 $v(s;\boldsymbol{w})$ ;
神经网络结构如图 8.2 和 8.3 所示。策略网络与之前章节一样：输入是状态 $s$ , 输出是一个向量，每个元素表示一个动作的概率。

此处的价值网络 $v(s;\boldsymbol{w})$ 与之前使用的价值网络 $q(s,a;\boldsymbol{w})$ 区别较大。此处的 $v(s;\boldsymbol{w})$ 是对状态价值 $V_\mathrm{\pi}$ 的近似，而非对动作价值 $Q_\mathrm{\pi}$ 的近似。 $v(s;\boldsymbol{w})$ 的输入是状态 $s$ , 输出是一个实数，作为基线。策略网络和价值网络的输入都是状态 $s$ ,因此可以让两个神经网络共享卷积网络的参数，这是编程实现中常用的技巧。

虽然带基线的 REINFOKCE 有一个策略网络和一个价值网络，但是这种方法不是actor-critic。价值网络没有起到“评委”的作用，只是作为基线而已，目的在于降低方差，加速收敛。真正帮助策略网络(演员)改进参数 $\theta$ (演员的演技)的不是价值网络，而是实际观测到的回报 $u$ 。

算法的推导

训练策略网络的方法是近似的策略梯度上升。从 $t$ 时刻开始，智能体完成一局游戏，观测到全部奖励 $r_t,r_{t+1},\cdots,r_n$ ,然后计算回报 $u_t=\sum_{k=t}^n\gamma^{k-t}\cdot r_k$ 。让价值网络做出预测 $\widehat{v}_t=v(s_t;\boldsymbol{w})$ , 作为基线。这样就得到了带基线的策略梯度：
$\tilde{\boldsymbol{g}}\big(s_{t},a_{t};\:\boldsymbol{\theta}\big)\:=\:\big(\:u_{t}-\widehat{v}_{t}\big)\:\cdot\:\nabla_{\boldsymbol{\theta}}\:\ln\pi\big(a_{t}\big|\:s_{t};\:\boldsymbol{\theta}\big).$

它是策略梯度 $\nabla_{\theta}J(\theta)$ 的近似。最后做梯度上升更新 $\theta:$

$\theta\:\leftarrow\:\theta+\beta\cdot\tilde{\boldsymbol{g}}(s_{t},a_{t};\:\theta).$

这样可以让目标函数 $J(\boldsymbol{\theta})$ 逐渐增大。

训练价值网络的方法是回归 (regression)。回忆一下，状态价值是回报的期望：

$V_\pi(s_t)=\mathbb{E}[U_t|S_t=s_t],$

期望消掉了动作 $A_t,A_{t+1},\cdots,A_n$ 和状态 $S_{t+1},\cdots,S_n$ 。训练价值网络的目的是让 $v(s_t;\boldsymbol{w})$ 拟合 $V_\pi(s_t)$ ,即拟合 $u_t$ 的期望。定义损失函数：

$L(\boldsymbol{w})\:=\:\frac{1}{2n}\sum_{t=1}^{n}\big[v(s_{t};\boldsymbol{w})\:-\:u_{t}\big]^{2}.$

设 $\widehat{v}_t=v(s_t;w)$ 。损失函数的梯度是：

$\nabla_{\boldsymbol{w}}L(\boldsymbol{w})\:=\:\frac{1}{n}\sum_{t=1}^{n}\left(\widehat{v}_{t}-u_{t}\right)\:\cdot\:\nabla_{\boldsymbol{w}}v(s_{t};\boldsymbol{w}).$

做一次梯度下降更新 $w$ :

$w\:\leftarrow\:w\:-\:\alpha\cdot\nabla_{\boldsymbol{w}}L(\boldsymbol{w}).$

训练流程

当前策略网络的参数是 $\theta_\mathrm{now}$ ,价值网络的参数是 $w_\mathrm{now}$ 。执行下面的步骤，对参数做一轮更新。

用策略网络 $\theta_\mathrm{now}$ 控制智能体从头开始玩一局游戏，得到一条轨迹 (trajectory):

$s_{1},a_{1},r_{1},\quad s_{2},a_{2},r_{2},\quad\cdots,\quad s_{n},a_{n},r_{n}.$

计算所有的回报：

$u_{t}\:=\:\sum_{k=t}^{n}\gamma^{k-t}\cdot r_{k},\quad\forall\:t=1,\cdots,n.$

让价值网络做预测：
$\widehat v_{t}\:=\:v(s_{t};\boldsymbol{w_{\mathrm{now}}}),\quad\forall\:t=1,\cdots,n.$
计算误差 $\delta_t=\widehat{v_t}-u_t,\:\forall t=1,\cdots,n$ 。
用 ${s_t\}_{t=1}^n$ 作为价值网络输入，做反向传播计算：
$\nabla_{\boldsymbol{w}}\:v\big(s_{t};\:\boldsymbol{w}_{\mathrm{now}}\big),\quad\forall\:t=1,\cdots,n.$
更新价值网络参数：
$w_{\mathrm{new}}\:\leftarrow\:w_{\mathrm{now}}\:-\:\alpha\cdot\sum_{t=1}^{n}\delta_{t}\cdot\nabla_{\boldsymbol{w}}\:v\big(s_{t};\:\boldsymbol{w_{\mathrm{now}}}\big).$
用 ${(s_t,a_t)\}_{t=1}^n$ 作为数据，做反向传播计算：

$\nabla_{\boldsymbol{\theta}}\ln\pi(a_{t}\:|\:s_{t};\:\boldsymbol{\theta}_{\mathrm{now}}),\quad\forall\:t=1,\cdots,n.$
8. 做随机梯度上升更新策略网络参数：

$\theta_{\mathrm{new}}\:\leftarrow\:\theta_{\mathrm{now}}\:-\:\beta\:\cdot\:\sum_{t=1}^{n}\gamma^{t-1}\:\cdot\:\underbrace{\delta_{t}\:\cdot\:\nabla_{\theta}\ln\pi(a_{t}\:\big|\:s_{t};\:\theta_{\mathrm{now}}\big)}_{\text{负的近似梯度 }-\tilde{g}(s_{t},a_{t};\boldsymbol{\theta_{\mathrm{now}}})}\:.$

Advantage Actor-Critic (A2C)

之前我们推导出了带基线的策略梯度，并且对策略梯度做了蒙特卡洛近似，得到策略梯度的一个无偏估计：

$\boldsymbol{g}(s,a;\boldsymbol{\theta})=\left[\underbrace{Q_{\pi}(s,a)-V_{\pi}(s)}_{\text{优势函数}}\right]\cdot\nabla_{\boldsymbol{\theta}}\ln\pi(a|s;\boldsymbol{\theta}).\quad{(8.2)}$

公式中的 $Q_\pi-V_\pi$ 被称作优势函数 (advantage function)。因此，基于上面公式得到的actor-critic 方法被称为 advantage actor-critic, 缩写 A2C。

A2C 属于 actor-critic 方法。有一个策略网络 $\pi(a|s;\theta)$ ,相当于演员，用于控制智能体运动。还有一个价值网络 $v (s; w)$ ,相当于评委，他的评分可以帮助策略网络 (演员) 改进技术。两个神经网络的结构与上一节中的完全相同，但是本节和上一节用不同的方法训练两个神经网络。

算法推导

训练价值网络：训练价值网络 $v (s; w)$ 的算法是从贝尔曼公式来的：
$V_{\pi}(s_{t})\:=\:\mathbb{E}_{A_{t}\sim\pi(\cdot|s_{t};\theta)}\Big[\mathbb{E}_{S_{t+1}\sim p(\cdot|s_{t},A_{t})}\Big[R_{t}\:+\:\gamma\cdot V_{\pi}\big(S_{t+1}\big)\Big]\Big].$

我们对贝尔曼方程左右两边做近似：

方程左边的 $V_\pi(s_t)$ 可以近似成 $v(s_t;\boldsymbol{w})$ 。 $v(s_t;\boldsymbol{w})$ 是价值网络在 $t$ 时刻对 $V_\pi(s_t)$ 做出的估计。
方程右边的期望是关于当前时刻动作 $A_t$ 与下一时刻状态 $S_{t+1}$ 求的。给定当前状态 $s_t$ ,智能体执行动作 $a_t$ ,环境会给出奖励 $r_t$ 和新的状态 $s_{t+1}$ 。用观测到的 $r_t$ 、 $s_{t+1}$ 对期望做蒙特卡洛近似，得到：

$r_{t}+\gamma\cdot V_{\pi}(s_{t+1}). \quad(8.3)$

进一步把公式 (8.3) 中的 $V_{\pi}(s_{t+1})$ 近似成 $v(s_{t+1};\boldsymbol{w})$ , 得到

$\boxed{\widehat{y}_{t}\triangleq r_{t}+\gamma\cdot v(s_{t+1};\boldsymbol{w}).}$

把它称作 TD 目标。它是价值网络在 $t + 1$ 时刻对 $V_{\pi}(s_t)$ 做出的估计。

$v(s_t;\boldsymbol{w})$ 和 $\widehat{y}_t$ 都是对动作价值 $V_{\pi}(s_t)$ 的估计。由于 $\widehat{y}_t$ 部分基于真实观测到的奖励 $r_t$ ,我们认为 $\widehat{y}_t$ 比 $v(s_t;w)$ 更可靠。所以把 $\widehat{y}_t$ 固定住，更新 $w$ , 使得 $v(s_t;\boldsymbol{w})$ 更接近 $\widehat{y}_t$ 。

具体这样更新价值网络参数 $w$ 。定义损失函数

$L(\boldsymbol{w})\:\triangleq\:\frac{1}{2}\Big[v(s_{t};\boldsymbol{w})\:-\:\widehat{y}_{t}\Big]^{2}.$

设 $\widehat{v}_t\triangleq v(s_t;w)$ 。损失函数的梯度是：

$\nabla_{\boldsymbol{w}}L\big(\boldsymbol{w}\big)\:=\:\underbrace{\left(\widehat{v}_{t}-\widehat{y}_{t}\right)}_{\mathrm{TD~}\text{误差 }\delta_{t}}\cdot\nabla_{\boldsymbol{w}}\:v\big(s_{t};\boldsymbol{w}\big).$
定义 TD 误差为 $\delta_t\triangleq\widehat{v}_t-\widehat{y}_t$ 。做一轮梯度下降更新 $w :$

$\boxed{\boldsymbol{w}\:\leftarrow\:\boldsymbol{w}\:-\:\alpha\cdot\delta_{t}\:\cdot\:\nabla_{\boldsymbol{w}}\:v(s_{t};\boldsymbol{w}).}$

这样可以让价值网络的预测 $v(s_t;\boldsymbol{w})$ 更接近 $\widehat{y}_t$ 。

训练策略网络：A2C 从公式 (8.2)出发，对 $g(s,a;\theta)$ 做近似，记作 $\tilde{g}$ , 然后用 $\tilde{g}$ 更新策略网络参数 $\theta$ 。下面我们做数学推导。回忆一下贝尔曼公式：
$Q_{\pi}\big(s_{t},a_{t}\big)\:=\:\mathbb{E}_{S_{t+1}\sim p(\cdot|s_{t},a_{t}\big)}\Big[\:R_{t}\:+\:\gamma\cdot V_{\pi}\big(S_{t+1}\big)\:\Big].$
把近似策略梯度 $g(s_t,u_t;\boldsymbol{\theta})$ 中的 $Q_\pi(s_t,a_t)$ 替换成上面的期望，得到：

$\begin{aligned} \boldsymbol{g}(s_{t},a_{t};\boldsymbol{\theta})& =\left[Q_{\pi}\left(s_{t},a_{t}\right)-V_{\pi}\big(s_{t}\big)\right]\cdot\nabla_{\boldsymbol{\theta}}\ln\pi(a_{t}|s_{t};\boldsymbol{\theta}) \\ &\begin{array}{rcl}{=}&{{}\left[\mathbb{E}_{S_{t+1}}\right[R_{t}+\gamma\cdot V_{\pi}\big(S_{t+1}\big)]-V_{\pi}\big(s_{t}\big)]\cdot\nabla_{\theta}\ln\pi\big(a_{t}\big|s_{t};\theta\big).}\end{array} \end{aligned}$

当智能体执行动作 $a_t$ 之后，环境给出新的状态 $s_{t+1}$ 和奖励 $r_t$ ; 利用 $s_{t+1}$ 和 $r_t$ 对上面的期望做蒙特卡洛近似，得到：
$\begin{array}{rcl}g(s_t,a_t;\:\theta)&\approx&\Big[\:r_t\:+\:\gamma\cdot V_\pi\big(s_{t+1}\big)\:-\:V_\pi\big(s_t\big)\:\Big]\:\cdot\:\nabla_\theta\:\ln\pi\big(a_t\:\big|\:s_t;\:\theta\big).\end{array}$

进一步把状态价值函数 $V_{\pi}(s)$ 替换成价值网络 $v (s; w)$ , 得到：

$\begin{array}{rcl}\tilde{\boldsymbol{g}}(s_t,a_t;\boldsymbol{\theta})&\triangleq&\Big[\underbrace{r_t\:+\:\gamma\cdot v(s_{t+1};\boldsymbol{w})}_{\text{TD 目标 }\widehat{y}_t}-v(s_t;\boldsymbol{w})\:\Big]\:\cdot\:\nabla_{\boldsymbol{\theta}}\ln\pi(a_t\:|\:s_t;\boldsymbol{\theta}).\end{array}$
前面定义了 TD 目标和 TD 误差：

$\widehat{y}_{t}\:\triangleq\:r_{t}\:+\:\gamma\cdot v(s_{t+1};\:\boldsymbol{w})\quad\text{和}\quad\delta_{t}\:\triangleq\:v(s_{t};\:\boldsymbol{w})\:-\:\widehat{y}_{t}.$
因此，可以把 $\tilde{g}$ 写成：

$\boxed{\tilde{\boldsymbol{g}}(s_t,a_t;\boldsymbol{\theta})\triangleq-\delta_t\cdot\nabla_{\boldsymbol{\theta}}\ln\pi(a_t|s_t;\boldsymbol{\theta}).}$

$\tilde{g}$ 是 $g$ 的近似，所以也是策略梯度 $\nabla_{\theta}J(\theta)$ 的近似。用 $\tilde{g}$ 更新策略网络参数 $\theta$ :
$\theta\:\leftarrow\:\theta\:+\:\beta\cdot\tilde{\boldsymbol{g}}\left(s_t,a_t;\:\boldsymbol{\theta}\right).$

这样可以让目标函数 $J(\theta)$ 变大。

策略网络与价值网络的关系 : A2C 中策略网络 (演员) 和价值网络 (评委) 的关系如图 8.4 所示。

智能体由策略网络 π 控制，与环境交互，并收集状态、动作、奖励。策略网络(演员) 基于状态 $s_t$ 做出动作 $a_t$ 。价值网络 (评委) 基于 $s_t$ 、 $s_{t+1}$ 、 $r_t$ 算出 TD 误差 $\delta_t$ 。策略网络(演员) 依靠 $\delta_t$ 来判断自己动作的好坏，从而改进自己的演技 (即参数 $\theta$ )。

读者可能会有疑问$: $价值网络$ v$ 只知道两个状态 $s_t$ 、 $s_{t+1}$ ,而并不知道动作 $a_t$ ,那么价值网络为什么能评价 $a_t$ 的好坏呢？价值网络 $v$ 告诉策略网络 $\pi$ 的唯一信息是 $\delta_{t}$ 。回顾一下 $\delta_t$ 的定义：
$\begin{array}{rcl}-\delta_t&=&\underbrace{r_t\:+\:\gamma\cdot v(s_{t+1};\:\boldsymbol{w})}_{\text{TD 目标}\:\widehat{y}\iota}\:-\:\underbrace{v(s_t;\:\boldsymbol{w})}_\text{基线}.\end{array}$

基线 $v(s_t;\boldsymbol{w})$ 是价值网络在 $t$ 时刻对 $\mathbb{E}[U_t]$ 的估计；此时智能体尚未执行动作 $a_t$ 。而 TD 目标 $\widehat{y}_t$ 是价值网络在 $t + 1$ 时刻对 $\mathbb{E}[U_t]$ 的估计；此时智能体已经执行动作 $a_t$ 。

如果 $\widehat{y}_t>v(s_t;\boldsymbol{w})$ ,说明动作 $a_t$ 很好，使得奖励 $r_t$ 超出预期，或者新的状态 $s_{t+1}$ 比预期好；这种情况下应该更新 $\theta$ ,使得 $\pi(a_t|s_t;\theta)$ 变大。
如果 $\widehat{y}_ty t<v(st;w)$

综上所述， $\delta_t$ 中虽然不包含动作 $a_t$ ,但是 $\delta_t$ 可以间接反映出动作 $a_t$ 的好坏，可以帮助策略网络(演员) 改进演技。

训练流程

下面概括 A2C 训练流程。设当前策略网络参数是 $\theta_\mathrm{now}$ ,价值网络参数是 $w_\mathrm{now}$ 。执行下面的步骤，将参数更新成 $\theta_\mathrm{new}$ 和 $w_\mathrm{new}$ :

观测到当前状态 $s_t$ ,根据策略网络做决策 $:a_t\sim\pi(\cdot|s_t;\theta_\mathrm{now})$ ,并让智能体执行动作 $a_t$ 。
从环境中观测到奖励 $r_t$ 和新的状态 $s_{t+1}$ 。
让价值网络打分：

$\widehat{v_{t}}\:=\:v\big(s_{t};\:\boldsymbol{w_{\mathrm{now}}}\big)\quad\text{和}\quad\widehat{v}_{t+1}\:=\:v\big(s_{t+1};\:\boldsymbol{w_{\mathrm{now}}}\big)$

计算 TD 目标和 TD 误差：

$\widehat{y_{t}}\:=\:r_{t}+\gamma\cdot\widehat{v}_{t+1}\quad\text{和}\quad\delta_{t}\:=\:\widehat{v}_{t}-\widehat{y}_{t}.$

更新价值网络：

$w_{\mathrm{new}}\:\leftarrow\:w_{\mathrm{now}}\:-\:\alpha\cdot\delta_{t}\cdot\nabla_{\boldsymbol{w}}v\left(s_{t};\:\boldsymbol{w_{\mathrm{now}}}\right).$

更新策略网络：

$\theta_{\mathrm{new}}\:\leftarrow\:\theta_{\mathrm{now}}\:-\:\beta\cdot\delta_{t}\cdot\nabla_{\boldsymbol{\theta}}\ln\pi(a_{t}\:|\:s_{t};\:\boldsymbol{\theta}_{\mathrm{now}}).$

注此处训练策略网络和价值网络的方法属于同策略(on-policy),要求行为策略(behavion policy)与目标策略 (target policy) 相同，都是最新的策略网络 $\pi(a|s;\theta_\mathrm{now})$ 。不能使用经验回放，因为经验回放数组中的数据是用旧的策略网络 $\pi(a|s;\theta_\mathrm{old})$ 获取的，不能在当前重复利用。

用目标网络改进训练

上述训练价值网络的算法存在自举——即用价值网络自己的估值 $\widehat{v}_{t+1}$ 去更新价值网络自己。为了缓解自举造成的偏差，可以使用目标网络(target network) 计算 TD 目标。把目标网络记作 $v(s;w^-)$ , 它的结构与价值网络的结构相同，但是参数不同。使用目标网络计算 TD 目标，那么 A2C 的训练就变成了：

观测到当前状态 $s_t$ ,根据策略网络做决策 $:a_t\sim\pi(\cdot|s_t;\theta_\mathrm{now})$ , 并让智能体执行动作 $a_t$ 。
从环境中观测到奖励 $r_t$ 和新的状态 $s_{t+1}$ 。
让价值网络给 $s_t$ 打分：

$\widehat{v_{t}}\:=\:v\big(s_{t};\:\boldsymbol{w_{\mathrm{now}}}\big).$

让目标网络给 $s_{t+1}$ 打分：

$\widehat v_{t+1}^{-}\:=\:v\big(s_{t+1};\:\boldsymbol{w_{\mathrm{now}}^{-}}\big).$

计算 TD 目标和 TD 误差：

$\widehat{y}_{t}^{-}\:=\:r_{t}+\gamma\cdot\widehat{v}_{t+1}^{-}\quad\text{和}\quad\delta_{t}\:=\:\widehat{v}_{t}-\widehat{y}_{t}^{-}.$

更新价值网络：

$w_{\mathrm{new}}\:\leftarrow\:w_{\mathrm{now}}-\alpha\cdot\delta_{t}\cdot\nabla_{\boldsymbol{w}}v\big(s_{t};\:\boldsymbol{w}_{\mathrm{now}}\big).$

更新策略网络：

$\theta_{\mathrm{new}}\:\leftarrow\:\theta_{\mathrm{now}}\:-\:\beta\cdot\delta_{t}\cdot\nabla_{\boldsymbol{\theta}}\ln\pi(a_{t}\:|\:s_{t};\:\boldsymbol{\theta}_{\mathrm{now}}).$

设 $\tau\in(0,1)$ 是需要手动调的超参数。做加权平均更新目标网络的参数：

$\bar{w_{\mathrm{new}}}\:\leftarrow\:\tau\cdot w_{\mathrm{new}}\:+\:\left(1-\tau\right)\cdot\boldsymbol{w_{\mathrm{now}}^{-}}.$

总结

在策略梯度中加入基线 (baseline) 可以降低方差，显著提升实验效果。实践中常用 $b=V_{\pi}(s)$ 作为基线。
可以用基线来改进 REINFORCE 算法。价值网络 $v(s;\boldsymbol{w})$ 近似状态价值函数 $V_\pi(s)$ ,把 $v(s;\boldsymbol{w})$ 作为基线。用策略梯度上升来更新策略网络 $\pi(a|s;\theta)$ 。用蒙特卡洛(而非自举) 来更新价值网络 $v(s;\boldsymbol{w})$ 。
可以用基线来改进 actor-critic, 得到的方法叫做 advantage actor-critic(A2C),它也有一个策略网络 $\pi(a|s;\boldsymbol{\theta})$ 和一个价值网络 $v(s;\boldsymbol{\theta})$ 。用策略梯度上升来更新策略网络，用 TD 算法来更新价值网络。

后记

截至2024年1月29日20点11分，学习完这一章的内容：带baseline的策略梯度方法。明天是最后学习的一天，看是否能够结束这个系列。

你可能感兴趣的:(Reinforcement,Learning,强化学习)

强化学习之 DQN、Double DQN、PPO JNU freshman 强化学习强化学习
文章目录通俗理解DQNDoubleDQNPPO结合公式理解通俗理解DQN一个简单的比喻和分步解释来理解DQN（DeepQ-Network，深度Q网络），就像教小朋友学打游戏一样：先理解基础概念：Q学习（Q-Learning）想象你在教一只小狗玩电子游戏（比如打砖块）。小狗每做一个动作（比如“向左移动”或“发射球”），游戏会给出一个奖励（比如得分增加）或惩罚（比如球掉了）。小狗的目标是通过不断尝试，
Python 强化学习算法实用指南（三）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/e3819a6747796b03b9288831f4e2b00c译者：飞龙协议：CCBY-NC-SA4.0第十一章：理解黑盒优化算法在前几章中，我们研究了强化学习（RL）算法，从基于价值的方法到基于策略的方法，以及从无模型方法到基于模型的方法。在本章中，我们将提供另一种解决序列任务的方法，那就是使用一类黑盒算法——进化算法（EA）。EAs由进化机制
使用Python进行机器学习入门指南软考和人工智能学堂 Python开发经验 python 机器学习开发语言
使用Python进行机器学习入门指南机器学习（MachineLearning）是人工智能（ArtificialIntelligence,AI）的一个重要分支，旨在通过算法和统计模型，使计算机系统能够自动从数据中学习和改进。Python作为机器学习领域的主流编程语言，提供了丰富的库和工具来实现各种机器学习任务。本文将介绍如何使用Python进行机器学习，包括基本概念、常用库以及一个实战项目示例。目录
少样本图学习（few-shot learning on graph）知识背景 so.far_away 网络空间安全学习机器学习人工智能
Few-ShotLearningonGraph少样本学习简介少样本图学习简介1.SupportSet和QuerySet（针对单个任务）（1）SupportSet（支持集）（2）QuerySet（查询集）2.BaseData和NovelData（针对整个数据集）（1）BaseData/Classes（基类数据）（2）NovelData/Classes（新类数据）少样本学习简介少样本学习（FSL）旨在
Python 强化学习算法实用指南（二）
原文：annas-archive.org/md5/e3819a6747796b03b9288831f4e2b00c译者：飞龙协议：CCBY-NC-SA4.0第六章：学习随机优化与PG优化到目前为止，我们已经探讨并开发了基于价值的强化学习算法。这些算法通过学习一个价值函数来找到一个好的策略。尽管它们表现良好，但它们的应用受限于一些内在的限制。在本章中，我们将介绍一类新的算法——策略梯度方法，它们通过
Building Apps with AI Tools: ChatGPT, Semantic Kernel, and Langchain 项目推荐滕娴殉
BuildingAppswithAITools:ChatGPT,SemanticKernel,andLangchain项目推荐building-apps-with-ai-tools-chatgpt-semantic-kernel-langchain-4469616ThisisacoderepositoryfortheLinkedInLearningcourseBuildingAppswithAIT
量子机器学习入门：从理论到实践
量子机器学习入门：从理论基石到实践路径元数据框架标题量子机器学习入门：从理论基石到实践路径——连接量子计算与人工智能的未来桥梁关键词量子计算；机器学习；量子算法；量子神经网络；Qiskit；PennyLane；量子变分算法摘要量子机器学习（QuantumMachineLearning,QML）是量子计算与机器学习的交叉领域，通过量子计算的叠加态、纠缠和并行性解决传统机器学习的计算瓶颈（如高维数据处
量子计算突破：8比特扩散模型实现指数级加速晨曦543210 人工智能
目录一、量子扩散模型（QuantumDiffusion）二、DNA存储生成（Biological-GAN）三、光子计算加速四、神经形态生成五、引力场渲染六、分子级生成七、星际生成网络八、元生成系统极限挑战方向一、量子扩散模型（QuantumDiffusion）量子线路模拟经典扩散过程fromqiskitimportQuantumCircuitfromqiskit_machine_learning.
大模型的“涌现能力“：现象、表现与成因解析北辰alk AI 深度学习人工智能
文章目录一、涌现能力的本质与特征1.1基本定义1.2识别标准二、三种典型涌现能力表现2.1少样本上下文学习（Few-shotIn-contextLearning）表现特征实证数据可能成因2.2思维链推理（Chain-of-ThoughtReasoning）表现特征典型案例可能成因2.3指令跟随（InstructionFollowing）表现特征能力对比可能成因三、涌现能力的理论解释3.1相变理论视
ER综述论文阅读-Emotion recognition in EEG signals using deep learning methods: A review 今天早睡了情绪识别Emotion Recognition 论文阅读深度学习人工智能
EmotionrecognitioninEEGsignalsusingdeeplearningmethods:AreviewQ1期刊，2023论文链接：https://d1wqtxts1xzle7.cloudfront.net/105887899/emotionreview-libre.pdf?1695460941=&response-content-disposition=inline%3B+f
【论文阅读】AdaCtrl: Towards Adaptive and Controllable Reasoning via Difficulty-Aware Budgeting quintus0505 LLM 论文阅读语言模型
AdaCtrl:TowardsAdaptiveandControllableReasoningviaDifficulty-AwareBudgeting3Method3.1长度触发标签作为控制接口（Length-TriggerTagsasControllingInterface）3.2冷启动微调（Cold-startfine-tuning）3.3难度感知的强化学习框架（Difficulty-awar
【论文阅读笔记】TimesURL: Self-supervised Contrastive Learning for Universal Time Series 少写代码少看论文多多睡觉 #论文阅读笔记论文阅读笔记
TimesURL:Self-supervisedContrastiveLearningforUniversalTimeSeriesRepresentationLearning摘要学习适用于多种下游任务的通用时间序列表示，并指出这在实际应用中具有挑战性但也是有价值的。最近，研究人员尝试借鉴自监督对比学习（SSCL）在计算机视觉（CV）和自然语言处理（NLP）中的成功经验，以解决时间序列表示的问题。
【论文阅读】Transfer Learning for Automatic Modulation Recognition Using a Few Modulated Signal Samples
摘要：这封信提出了一种用于自动调制识别（AMR）的迁移学习模型，该模型仅具有少量调制信号样本。传输模型以音频信号UrbanSound8K作为源域进行训练，然后以一些调制信号样本为目标域进行微调。为了提高分类性能，信噪比（SNR）被用作一个功能来促进信号的分类。仿真结果表明，迁移模型在分类精度方面具有显著优势。这篇文章的核心内容是提出了一种基于迁移学习（TransferLearning）的自动调制识
【论文阅读】Meta-SE: A Meta-Learning Framework for Few-Shot Speech Enhancement Bosenya12 论文阅读
这篇文章介绍了一个名为Meta-SE的元学习框架，专门用于少样本（few-shot）语音增强问题。文章的核心目标是解决在实际应用中，由于训练样本有限而导致传统深度神经网络（DNN）模型性能受限的问题。Meta-SE通过元学习的方法，利用先验的元知识快速适应新的任务和噪声类型，即使只有少量训练样本也能表现出色。背景知识与研究动机语音增强技术旨在从带噪语音信号中恢复目标语音，提升语音质量和可懂度。深度
【论文阅读】SASLN：小样本条件下机械故障诊断的信号增强自学习网络
SASLN:SignalsAugmentedSelf-TaughtLearningNetworksforMechanicalFaultDiagnosisUnderSmallSampleCondition本文介绍了一种名为SASLN（SignalsAugmentedSelf-TaughtLearningNetworks）的方法，专门用于在小样本条件下对风力发电机（WT）的发电机轴承故障进行诊断。该方
【论文阅读】SSCL-AMC：一种基于动态增强和集成学习的自监督自动调制分类方法
SSCL-AMC:ASelf-supervisedAutomaticModulationClassificationMethodviaDynamicAugmentationandEnsembleLearning摘要：与传统的手工自动调制分类（AMC）方法相比，深度学习已经显示出有希望的结果，AMC作为信号检测和调制之间的中间步骤发挥着关键作用。然而，获取大规模标记数据仍然具有挑战性，因为数据质量和
【论文笔记ing】Pointerformer: Deep Reinforced Multi-Pointer Transformer for the Traveling Salesman Problem Booksort online笔记论文论文阅读 transformer 深度学习
论文中使用一个PointerFormer模型编码器部分：可逆残差模型堆叠解码器部分：指针网络自回归对于一次任务而言，推理阶段：编码器部分：一次解码器部分：循环N次，直至任务结束在训练阶段，使用强化学习，对于一个N个节点的TSP实例，算法中会以不同的起点，跑N次，得到N个轨迹，以满足TSP的对称特性，表示这都是属于一个TSP问题的（真实）解然后会计算这样表示归一化奖励，得到一个advantage,然
EgoAlpha/prompt-in-context-learning项目解析：Prompt Engineering核心技术指南霍日江Eagle-Eyed
EgoAlpha/prompt-in-context-learning项目解析：PromptEngineering核心技术指南prompt-in-context-learningAwesomeresourcesforin-contextlearningandpromptengineering:MasteryoftheLLMssuchasChatGPT,GPT-3,andFlanT5,withup-
四、Actor-Critic Methods 沈夢昂志 DRL深度强化学习 python 深度学习
由于在看DRL论文中，很多公式都很难理解。因此最近在学习DRL的基本内容。再此说明，非常推荐B站“王树森老师的DRL强化学习”本文的图表及内容，都是基于王老师课程的后自行理解整理出的内容。目录A.书接上回1、Reinforce算法B.State-ValueFunctionC.PolicyNetWork（Actor）D.ActionValueNetwork(Critic)E.TraintheNeur
VIT视觉妄想成为master opencv 目标检测机器学习数据挖掘语音识别人工智能计算机视觉
VisionTransformer视觉和语言(Vision-Language)NLPrompt:Noise-LabelPromptLearningforVision-LanguageModelsPaper:https://arxiv.org/abs/2412.01256Code:GitHub-qunovo/NLPromptPhysVLM:EnablingVisualLanguageModelsto
C#实现SVM支持向量机（附完整源码）源代码大师 C#实战教程 c#支持向量机开发语言
C#实现SVM支持向量机下面是使用C#实现支持向量机（SVM）的示例代码：usingSystem;usingAccord.MachineLearning.VectorMachines;usingAccord.MachineLearning.VectorMachines.Learning;usingAccord
语言模型 RLHF 实践指南（一）：策略网络、价值网络与 PPO 损失函数
在使用ProximalPolicyOptimization（PPO）对语言模型进行强化学习微调（如RLHF）时，大家经常会问：策略网络的动作概率是怎么来的？价值网络的得分是如何计算的？奖励从哪里来？损失函数怎么构建？微调后的旧轨迹还能用吗？这篇文章将以语言模型强化学习微调为例，结合实际实现和数学公式，深入解析PPO的关键计算流程。1️⃣策略网络：如何计算动作概率？策略网络πθ(a∣s)\pi_\t
MATLAB随机模拟技术在气候模型中的应用
本文还有配套的精品资源，点击获取简介：MATLAB是科学研究和工程领域中广泛使用的一款数学计算与编程软件，尤其在气象学和气候模拟方面有着重要的应用。’Fletcher_2019_Learning_Climate’项目通过MATLAB实现的随机模拟方法帮助理解气候变化。本文将详细探讨该项目的关键内容，包括气候模型的构成、随机过程与统计方法的运用、MATLAB编程技能、气候数据处理与分析、结果可视化以
深度学习基础与应用：从理论到实战创新工场
本文还有配套的精品资源，点击获取简介：深度学习是人工智能的核心分支，通过模拟人脑神经网络处理大量数据以执行复杂任务。Python因其简洁性和强大的库支持成为深度学习研究的首选语言。本文概述了深度学习基础概念、核心算法、Python框架，并假设了一个包含教程、示例代码、数据集、交互式学习环境、性能评估指标和进阶主题的“deep-learning-study-main”压缩包内容，旨在帮助学习者深入理
深度学习之迁移学习路溪非溪人工智能迁移学习机器学习
认识迁移学习迁移学习（TransferLearning）是机器学习中的一种重要技术，其核心思想是将在一个任务上学习到的知识（模型参数、特征表示等），迁移应用到另一个相关但不同的任务中，从而提升新任务的学习效率和性能，尤其是在新任务数据有限的情况下。一、迁移学习的核心动机传统机器学习通常要求为每个新任务收集大量标注数据并从头训练模型，但现实中面临以下挑战：数据稀缺：例如医疗影像分析（罕见疾病样本少）
四六级，雅思必备连接词（持续更新~） dulu~dulu 自用笔记雅思英语雅思雅思词汇总结笔记雅思阅读雅思写作四六级写作
目录（一）观点对立（二）递进（三）因果（四）假设（五）总结（六）举例（七）优缺点承接说明（八）其他简单连接词1.并列关系2.顺序关系3.强调关系4.条件关系5.时间关系6.总结关系（一）观点对立1.Conversely：相反地Someviewtechnologyasadistraction.Conversely,othersseeitasapowerfullearningtool.有人视科技为干扰
用Python实现数据可视化的实用指南庞队千Virginia
用Python实现数据可视化的实用指南practical-python-data-viz-guideResourcesforteaching&learningpracticaldatavisualizationwithpython.项目地址:https://gitcode.com/gh_mirrors/pr/practical-python-data-viz-guide项目介绍在数据驱动的时代，数
【零基础学AI】第33讲：强化学习基础 - 游戏AI智能体 1989 0基础学AI 人工智能游戏 transformer 分类深度学习神经网络
本节课你将学到理解强化学习的基本概念和框架掌握Q-learning算法原理使用Python实现贪吃蛇游戏AI训练能够自主玩游戏的智能体开始之前环境要求Python3.8+PyTorch2.0+Gymnasium(原OpenAIGym)NumPyMatplotlib推荐使用JupyterNotebook进行实验前置知识Python基础编程（第1-8讲）基本数学概念（函数、导数）神经网络基础（第23讲
在Carla上应用深度强化学习实现自动驾驶（一）寒霜似karry 自动驾驶人工智能机器学习
carla环境下基于强化学习的自动驾驶_哔哩哔哩_bilibili本篇文章是小编在pycharm上自己手敲代码学习自动驾驶的第一篇文章，主要讲述如何在Carla中控制我们自己生成的汽车并且使用rgb摄像头传感器获取图像数据。以下代码参考自：（如有侵权，请联系我将立即删除）使用Carla和Python的自动驾驶汽车第2部分——控制汽车并获取传感器数据-CSDN博客1、导入carla（其中的路径根据自
【AI论文】Skywork-Reward-V2：通过人机协同实现偏好数据整理的规模化扩展
摘要：尽管奖励模型（RewardModels，RMs）在基于人类反馈的强化学习（ReinforcementLearningfromHumanFeedback，RLHF）中发挥着关键作用，但当前最先进的开源奖励模型在大多数现有评估基准上表现欠佳，无法捕捉人类复杂且微妙的偏好谱系。即便采用先进训练技术的方法也未能显著提升性能。我们推测，这种脆弱性主要源于偏好数据集的局限性——这些数据集往往范围狭窄、标
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR