Nemo555

深度强化学习CS285 lec5-lec9（超长预警）

深度强化学习CS285 lec5-lec9 学习感悟

一、策略梯度(Policy Gradient)
- 1.1 REINFORCE
- 1.2 改进方法
- - 1.2.1 因果性（Causality）
  - 1.2.2 基准（Baselines）
  - 1.2.3 重要性采样（Important Sampling）
二、执行者-评估者 (Actor-Critic)
- 2.1 优势函数 $A^\pi(s_t,a_t)$ （Advantage Function）
- 2.2 拟合值函数 $V^\pi(s)$
- - 2.2.1 基于蒙特卡洛采样的策略评估（Monte-Carlo Policy Evaluation)
  - 2.2.2 基于自举拟合值函数（Bootstrapped）
  - 2.2.3 拟合目标值小总结(Target Value Summary)
- 2.3 Actor-Critic综合改进版
三、基于值函数的方法(Value-based Methods)
- 3.1 策略迭代（Policy Iteration）
- 3.2 值迭代（Value Iteration）
- 3.3 拟合的值迭代（Fitted Value Iteration）
- 3.4 拟合的Q值迭代（Fitted Q-iteration）
- 3.5 小总结（Summary）
四、基于Q值函数的方法(Q-Value based Methods)
- 4.1 针对Q值迭代的改进方法
- - 4.1.1 经验池回放（Replay Buffer）
  - 4.1.2 目标网络（Target Network）
- 4.2 基于Q-learning的三种形态
- - 4.2.1 Online Q-learning
  - 4.2.2 DQN(N=1,K=1)
  - 4.2.3 Fitted Q-learning
  - 4.2.4 A Brief Summary
- 4.3 Q值深度网络的有效改进 (Practical Tips)
- - 4.3.1 Double Q-learning
  - 4.3.2 N-step Returns
  - 4.3.3 Dueling Structure
  - Double DQN具体算法例子
- 4.4 连续动作的Q-learning (Continuous action）
- - 4.4.1 随机优化（Stochastic Optimization）
  - 4.4.2 使用易于优化的函数类型 (Easy to optimize)
  - 4.4.3 学习一个新的执行者 (Learn A Second Actor)
五、优化策略梯度(Advanced Policy Gradient)
- 5.1 自然策略梯度 ( Natural Policy Gradient)
- 5.2 TRPO （Trust Region Policy Optimization）
- 5.3 PPO（Proximal Policy Optimization）
参考资料
补充

一、策略梯度(Policy Gradient)

1.1 REINFORCE

优化目标 $J(\theta)$
$\begin{aligned} \theta^* & =\argmax_\theta J(\theta) \\ &=\argmax_\theta E_{\tau \sim p_\theta(\tau)}\Big[\sum_t r(s_t,a_t)\Big] \\ & = \argmax_\theta \sum_{t=1}^T E_{(s_t,a_t) \sim p_\theta (s_t,a_t)}\Big[ r(s_t,a_t)\Big] (Finite \quad Horizon)\\ &=\argmax_\theta E_{s_1 \sim p(s_1)}\big[V(s_1)\big]\\ &=\argmax_\theta E_{s_1\sim p(s_1)}\Big[E_{a\sim \pi_\theta(a|s)}[Q(s,a)]\Big] \end{aligned}$
优化目标一般是最大化在一条轨迹 $\tau$ 上累积奖励函数 $\sum_tr(s_t,a_t)$ 的期望;抑或是状态服从平稳分布 $s_1 \sim p(s_1)$ 时，最大化状态价值 $V (s)$ 的期望；
目标梯度
令 $\pi_\theta(\tau)=p_\theta(\tau),r(\tau)=\sum_tr(s_t,a_t)$ ，由lec1-lec4得 $p_\theta(\tau)=p(s_1)\prod_{t=1}^T\pi_\theta(a_t|s_t)p(s_{t+1}|s_t,a_t)$ ，因此目标 $J(\theta)$ 变为
$\begin{aligned} J(\theta)&=E_{\tau \sim \pi_\theta(\tau)}\Big[\sum_t r(s_t,a_t)\Big] \\ &=E_{\tau \sim \pi_\theta(\tau)}\Big[r(\tau)\Big] \\ &=\int \pi_\theta(\tau)r(\tau)d\tau \\ \end{aligned}$
目标梯度：由求导公式有 $\nabla\pi_\theta(\tau)=\pi_\theta(\tau)\nabla_\theta log\pi_\theta(\tau)$
$\begin{aligned} \nabla J(\theta)&=\int \nabla \pi_\theta(\tau)r(\tau)d\tau \\ &=\int \pi_\theta(\tau) \nabla_\theta log\pi_\theta(\tau)r(\tau)d\tau\\ &=E_{\tau \sim \pi_\theta(\tau)}\Big[\nabla_\theta log\pi_\theta(\tau)r(\tau)\Big]\\ \end{aligned}$
$因为\pi_\theta(\tau)=p(s_1)\prod_{t=1}^T\pi_\theta(a_t|s_t)p(s_{t+1}|s_t,a_t)\\ 所以\nabla_\theta log\pi_\theta(\tau)=\nabla_\theta[logp(s_1)+\sum_{t=1}^Tlog\pi_\theta(a_t|s_t)+\sum_{t=1}^Tp(s_{t+1}|s_t,a_t)]=\sum_{t=1}^T \nabla_\theta log\pi_\theta(a_t|s_t)\\ 因此\nabla_\theta J(\theta)=E_{\tau \sim \pi_\theta(\tau)}\underbrace{\Big[\sum_{t=1}^T\nabla_\theta log\pi_\theta(a_t|s_t)\Big]}_{policy\quad related}\underbrace{\Big[\sum_{t=1}^T{r(s_t,a_t)}\Big]}_{Supervised\quad Info}$
对于期望采用蒙特卡洛M-C采样trajectory来近似期望，采 $N$ 个样本 $\tau_i=(s_{i,1},a_{i,1},...,s_{i,T},a_{i,T}),i=1,2,...,N$ 则
$\nabla_\theta J(\theta)\approx \frac{1}{N}\sum_{i=1}^N\Big[\sum_{t=1}^T\nabla_\theta log\pi_\theta(a_{i,t}|s_{i,t})\Big]\Big[\sum_{t=1}^T{r(s_{i,t},a_{i,t})}\Big]$
于是便得到了最原始的策略算法REINFORCE。
REINFROCE（最原始的策略梯度算法）
- sample ${\tau^i}$ from $\pi_\theta(a_t|s_t)$
- $\nabla_\theta J(\theta)\approx \frac{1}{N}\sum_{i=1}^N\Big[\sum_{t=1}^T\nabla_\theta log\pi_\theta(a_{i,t}|s_{i,t})\Big]\Big[\sum_{t=1}^T{r(s_{i,t},a_{i,t})}\Big]$
- $\theta\leftarrow\theta+\alpha\nabla_\theta J(\theta)$

根据current policy， $\pi_\theta$ ，来采样得到轨迹(trajectory)样本；
由样本中环境反馈来的reward信号，计算更新当前policy参数的监督信号 $\nabla_\theta J(\theta)$
加上可调整的学习率 $\alpha$ 来实现更新
由此可见，REINFORCE的每一步更新，都需要与环境交互来获取有效的监督信息实现更新， $\sum_t r(s_{i,t},a_{i,t})$ 的监督信息方差很大，需要一些改进方法使其更有效、更为稳定。

1.2 改进方法

1.2.1 因果性（Causality）

Motivation : Policy at time t’ cannot affect reward at time t when t
MC的目标梯度：
$\nabla_\theta J(\theta)\approx \frac{1}{N}\sum_{i=1}^N\Big[\sum_{t=1}^T\nabla_\theta log\pi_\theta(a_{i,t}|s_{i,t})\Big]\Big[\sum_{t=1}^T{r(s_{i,t},a_{i,t})}\Big]$
因果性改进后的梯度：
$\begin{aligned} \nabla_\theta J(\theta)&\approx \frac{1}{N}\sum_{i=1}^N\Big[\sum_{t=1}^T\nabla_\theta log\pi_\theta(a_{i,t}|s_{i,t})\Big]\Big[\sum_{t'=t}^T{r(s_{i,t'},a_{i,t'})}\Big] \\ &=\frac{1}{N}\sum_{i=1}^N\Big[\sum_{t=1}^T\nabla_\theta log\pi_\theta(a_{i,t}|s_{i,t})\Big]\hat{Q}_{i,t} \end{aligned}$
说明：在 $J(\theta)=\sum_\tau\pi_\theta(\tau)r(\tau)$ 中，监督信息 $r(\tau)$ 计算时，要注意，未来的决策并不会改变过去的奖励，因此得从policy的时刻t开始计算 $r(\tau)$ 会更为准确，即因果性优化。

1.2.2 基准（Baselines）

Motivation : 为了让估计出来的梯度更加稳定
$J(\theta)=\frac{1}{N}\sum_{i=1}^N\Big[\sum_{t=1}^T\nabla_\theta log\pi_\theta(a_{i,t}|s_{i,t})\Big]\Big[r(\tau)-b\Big]$
关于reward $r(\tau)$ 与 $b$ 的选择

$r(\tau)=\sum_{t=1}^Tr(s_t,a_t) \quad or \quad \hat{Q}_{i,t}$

$b=\frac{1}{N}\sum_{i=1}^Nr(\tau_i)\quad or \quad V^\pi(s_t)$

说明：因为每一条轨迹的奖励信号 $r(\tau_i)$ 数值可能差异很多，而目标梯度 $\nabla J(\theta)$ 的更新又依赖于对轨迹采样，因此对奖励信号进行均值标准化 $b=\frac{1}{N}\sum_{i=1}^Nr(\tau_i)$ ，即通过减去一个基准的方式，来使目标梯度更新过程稳定。基准的选择多种多样，通常为 $V^\pi(s_t)$ 。

1.2.3 重要性采样（Important Sampling）

Motivation : 为了可以重用以前策略获得的样本，减少每一步梯度更新时都需要与环境交互获取新轨迹样本的弊端。
$\begin{aligned} J(\theta)&=E_{\tau \sim \bar{\pi}(\tau)}\Big[\frac{\pi(\tau)}{\bar{\pi}(\tau)}r(\tau)\Big]\\ &=E_{\tau \sim \bar{\pi}(\tau)}\Big[\frac{p(s_1)\prod_{t=1}^T\pi_\theta(a_t|s_t)p(s_{t+1}|s_t,a_t)}{p(s_1)\prod_{t=1}^T\bar{\pi}_{\theta^{'}}(a_t|s_t)p(s_{t+1}|s_t,a_t)}r(\tau)\Big]\\ &=E_{\tau \sim \bar{\pi}(\tau)}\Big[\prod_{t=1}^T\frac{\pi_\theta(a_t|s_t)}{\bar{\pi}_{\theta^{'}}(a_t|s_t)}r(\tau)\Big] \end{aligned}$
说明： $\bar{\pi}(\tau)$ 为以前的策略轨迹分布，重用过去轨迹时，给每一个轨迹加上一个权重来衡量，更新后轨迹分布与上一步的轨迹分布差异，如果差异小，则 $\frac{\pi(\tau)}{\bar{\pi}(\tau)}$ 接近1，可重用上一步的轨迹样本。
$\begin{aligned} \nabla_{\theta}J(\theta)&=E_{\tau \sim \bar{\pi}(\tau)}\Big[\frac{\nabla\pi(\tau)}{\bar{\pi}(\tau)}r(\tau)\Big]\\ &=E_{\tau \sim \bar{\pi}(\tau)}\Big[\frac{\pi(\tau)\nabla log\pi(\tau)}{\bar{\pi}(\tau)}r(\tau)\Big]\\ &=E_{\tau \sim \bar{\pi}(\tau)}\Big[\prod_{t=1}^T\frac{\pi_\theta(a_t|s_t)}{\bar{\pi}_{\theta^{'}}(a_t|s_t)}r(\tau)\big[\sum_{t=1}^T\nabla_\theta\log\pi_\theta(a_t|s_t)\big ] \Big]\\ &=E_{\tau\sim\bar{\pi}(\tau)}\Big[\big[\sum_{t=1}^T\nabla_\theta\log\pi_\theta(a_t|s_t)\big ]\prod_{t'=1}^t\frac{\pi_\theta(a_{t'}|s_{t'})}{\bar{\pi}_{\theta^{'}}(a_{t'}|s_{t'})}\big[\sum_{t'=t}^Tr(s_{t'},a_{t'})\big]\cancel{\prod_{t''=t}^{t'}\frac{\pi_\theta(a_{t''}|s_{t''})}{\bar{\pi}_{\theta^{''}}(a_{t'}|s_{t''})}}\Big] \end{aligned}$
$记\frac{\pi_\theta(a_{i,t}|s_{i,t})}{\bar \pi_{\theta'}(a_{i,t}|s_{i,t})}=\prod_{t'=1}^t\frac{\pi_\theta(a_{i,t'}|s_{i,t'})}{\bar{\pi}_{\theta^{'}}(a_{i,t'}|s_{i,t'})}\\ 故\nabla_\theta J(\theta) \approx \frac{1}{N}\sum_{i=1}^N\sum_{t=1}^T\frac{\pi_\theta(a_{i,t}|s_{i,t})}{\bar \pi_{\theta'}(a_{i,t}|s_{i,t})}\nabla_\theta log\pi_\theta(a_t|s_t)\hat{Q}_{i,t}\\$

二、执行者-评估者 (Actor-Critic)

Policy Gradient直接从估计目标梯度入手，Actor-Critic则是通过评估当前的策略(Policy Evaluation)，再往比当前策略好的方向进行更新(Policy Improvement)。Actor的作用为policy的执行者即图上第一步run the policy，Critic的作用为policy的评估者即图上第二步fit a model，而图上第三部improve the policy 可理解成一个learner，从Critic身上寻找一种学习机制来improve policy再交给actor执行。

2.1 优势函数 $A^\pi(s_t,a_t)$ （Advantage Function）

值函数
- $V^\pi(s_t)=\sum_{t'=t}^TE_{\tau\sim\pi_\theta(\tau)}\Big[r(s_{t'},a_{t'})|s_t\Big]$
- $\begin{aligned} Q^\pi(s_t,a_t)&=\sum_{t'=t}^TE_{\tau\sim\pi_\theta(\tau)}\Big[r(s_{t'},a_{t'})\Big]\\ &=E_{a_t\sim\pi_\theta(a_t|s_t)}\Big[V^\pi(s_t)\Big]\\ &=E_{a_t\sim\pi_\theta(a_t|s_t)}\Big[E_{s_t\sim\pi_\theta(s_t)}[\sum_{t'=t}^Tr(s_{t'},a_{t'})]\Big] \end{aligned}$
- 说明： $V^\pi(s_t)$ 表示服从当前策略 $\pi_\theta$ ，初始状态为 $s_t$ 时，可以获得的总回报； $Q^\pi(s_t,a_t)$ 表示服从当策略 $\pi_\theta$ ，初始状态为 $s_t$ ，选择动作为 $a_t$ 时，可以获得的总回报，抽象可理解为对当前的状态或状态-动作下了一个价值判断，当V,Q知道时，便可从价值判断中选择Value最高的state或action，便于从价值判断中直接得到策略。
优势函数
$\begin{aligned} A^\pi(s_t,a_t)&=Q^\pi(s_t,a_t)-V^\pi(s_t)\\ &\approx r(s_t,a_t)+\sum_{t'=t+1}^TE_{\pi_\theta}\Big[r(s_{t'},a_{t'})\Big]-V^\pi(s_t)\\ &=r(s_t,a_t)+V^\pi(s_{t+1})-V^\pi(s_t) \end{aligned}$
- 说明：优势函数=状态动作值-状态值，衡量的是动作好的趋势究竟有多好，类似于在状态 $s_t$ 下各Q值减去一下各动作平均值的一个标准化操作，通过近似的方式变成监督信号reward+时间差分TD error，因此为了得到目标梯度 $\nabla_\theta J(\theta)$ ，只需要估计状态价值 $V^\pi(s_t)$ 即可。

2.2 拟合值函数 $V^\pi(s)$

2.2.1 基于蒙特卡洛采样的策略评估（Monte-Carlo Policy Evaluation)

$V^\pi(s_t)$ 最简单的估计方式：
$V^\pi(s_t)\approx \sum_{t'=t}^Tr(s_{t'},a_{t'})\\ V^\pi(s_t) \approx \frac{1}{N}\sum_{i=1}^N\sum_{t'=t}^Tr(s_{i,t'},a_{i,t'})$
近似的估计方式：训练集 = ${(s_{i,t},y_{i,t})\},i=1,...,N，t=1,...,T$
$y_{i,t}=\sum_{t'=t}^Tr(s_{i,t'},a_{i,t'})\\ L(\phi)=\frac{1}{2}\sum_{i=1}^N||\hat{V}^\pi_\phi(s_i)-y_i||^2$
- 说明
1. actor执行policy得到一些trajectory samples
2. 以上述方式选择一个模型，拟合 $\hat{V}_\phi^\pi(s)$
3. 利用 $\hat{V}_\phi^\pi(s)$ ，计算各轨迹样本的优势函数 $\hat{A}^\pi(s_i,a_i)$
4. 计算目标梯度 $\nabla J(\theta)$
5. 更新policy梯度

2.2.2 基于自举拟合值函数（Bootstrapped）

$y_{i,t}=r(s_{i,t},a_{i,t})+\hat{V}^\pi_\phi(s_{i,t+1})$

2.2.3 拟合目标值小总结(Target Value Summary)

$\quad Target: y_{i,t}=\sum_{t'=t}^TE_{\pi_\theta}\Big[r(s_{i,t'},a_{i,t'})\Big]\\ MC\quad Target:y_{i,t}=\sum_{t'=t}^Tr(s_{i,t'},a_{i,t'})\\ Bootstrapped\quad Target:y_{i,t}=r(s_{i,t},a_{i,t})+\gamma \hat{V}_\phi^\pi(s_{i,t+1})$

2.3 Actor-Critic综合改进版

$\nabla J(\theta)\approx\frac{1}{N}\sum_{i=1}^N\sum_{t=1}^T\frac{\pi_\theta(a_{i,t}|s_{i,t})}{\bar \pi_{\theta'}(a_{i,t}|s_{i,t})}\nabla_\theta log\pi_\theta(a_{i,t}|s_{i,t})A^\pi_n(s_{i,t},a_{i,t})$

折扣因子discount factor $\gamma=0.99$
$A^\pi(s_{i,t},a_{i,t})=\sum_{t'=t}^T\gamma^{t'-t}r(s_{i,t'},a_{i,t'})$
$A^\pi(s_{i,t},a_{i,t})\approx r(s_{i,t},a_{i,t})+\gamma \hat{V}_\phi(s_{i,t+1})$
基准 baselines
$A^\pi(s_{i,t},a_{i,t})=\sum_{t'=t}^T\gamma^{t'-t}r(s_{i,t'},a_{i,t'})-\hat{V}_\phi(s_{i,t})$
$A^\pi(s_{i,t},a_{i,t})\approx r(s_{i,t},a_{i,t})+\gamma \hat{V}_\phi(s_{i,t+1})-\hat{V}_\phi(s_{i,t})$
n-step 回报（n=1时为bootstrapped）
$A_n^\pi(s_{i,t},a_{i,t})\approx \sum_{t'=t}^{t+n}\gamma^{t'-t}r(s_{t'},a_{t'})+\gamma^n\hat{V}^\pi_\phi(s_{t+n})-\hat{V}^\pi_\phi(s_t)$
说明：折扣因子的加入使得无限长（Infinite Horizon）的Trajectory得以处理，且与GAE（General Advantage Estimation）的效果相同。

三、基于值函数的方法(Value-based Methods)

说明：基于值函数的方法，是希望在迭代过程中绕过目标梯度 $\nabla_\theta J(\theta)$ 来更新策略这一步，尝试直接通过值迭代得到最优策略 $\pi^*$ 的值函数 $V^*(s)$ 或 $Q^*(s,a)$ ，从值函数中得到策略。

3.1 策略迭代（Policy Iteration）

评估优势函数 $A^\pi(s,a)$ （Policy Evaluation）
$\begin{aligned} A^\pi(s,a)&=Q^\pi(s,a)-V^\pi(s,a)\\ &=r(s,a)+\gamma E_{s'\sim p(s'|s,a)}[V^\pi(s')]-V^\pi(s)\\ &\approx r(s,a)+\gamma V^\pi(s')-V^\pi(s) \end{aligned}$
根据 $A^\pi(s,a)$ 得出好的 $\pi'$ ，比如下面的式子（Policy Improvement）
$\pi'=argmax_aA^\pi(s,a) ,\quad \pi\leftarrow\pi'$

说明：策略迭代PI主要分为Policy Evaluation与Policy Improvement两大步，其中第一步需要用到与环境交互得到的样本来估计优势函数，第二步需要可选择性提升动作值或动作的概率分布，而与环境交互时需要遵循设定Exploration与Exploitation的原则进行，避免探索不到高奖励的样本。

3.2 值迭代（Value Iteration）

Policy Evaluation :
$V^\pi(s)\leftarrow E_{a\sim\pi(a|s)}\Big[r(s,a)+\gamma E_{s'\sim p(s'|s,a)}\big[V^\pi(s')\big]\Big]$
选择一个action $a$
$Q^\pi(s,a)\leftarrow r(s,a)+\gamma E_{s'\sim p(s'|s,a)}\big[V^\pi(s')\big]$

评估 $Q^\pi(s,a)$ ，根据上式评估Q值
令 $V^\pi(s)\leftarrow max_aQ^\pi(s,a)$

说明：第一步对Q值函数的更新，主要用到了环境的dynamics即 $p (s^{'} ∣ s, a)$ ，第二步简单地将最大的Q值当作状态价值，从而构成迭代链条，问题在于环境dynamics一般情况下是未知的。

3.3 拟合的值迭代（Fitted Value Iteration）

说明：除了迭代状态值 $V^\pi_\phi(s)$ ，还可以直接迭代Q值 $Q^\pi_\phi(s,a)$ 。Fitted Value Iteration比Value Iteration更stable，但不能on-policy，两者均使用了环境的dynamics模型，如果dynamics未知，则需要用到Q值迭代。

3.4 拟合的Q值迭代（Fitted Q-iteration）

Fitted Q-iteration
online Q-learning (online Q-iteration)
说明：两者对于dynamics的部分，均采用 $max_{a'}Q_\phi(s_i',a_i')$ 来代替 $E_{s'\sim p(s'|s,a)}[V_\phi(s')]$ ，因此都在此损失了一定精度。而full fitted Q-iteration可以off-policy，拟合的Q值也更为稳定，online Q-learning收集一个样本，更新一次Q值的梯度，非常不稳定，而且使用Non-linear的Function Approximater时，理论上不保证收敛。如何使online Q-learning更适用于实际问题，可参考第四章的改进。

3.5 小总结（Summary）

Policy Iteration更为general，当PI（Policy Improvement）为 $\pi'=\argmax Q^\pi(s,a)$ 时，退化为Value Iteration，为Value-based；当PI为gradient ascent时，为Actor-Critic；当估计Q值，并采用梯度更新，限制更新步长时为Advanced Policy Gradient。
Value Iteration中遇到的环境dynamics在Q-iteration中被克服，付出损失理论收敛的代价，fitted的值比gradient更新的值更加稳定。

四、基于Q值函数的方法(Q-Value based Methods)

4.1 针对Q值迭代的改进方法

存在两个问题：

第一步中一个轨迹的样本之间高度相关，应该打乱处理，使用不同轨迹的样本估计。（解决方案：经验池回放）
第三步中的目标值 $y_i$ 每次更新都变动，而且没有通过目标值的梯度更新。（解决方案：目标网络）

4.1.1 经验池回放（Replay Buffer）

要点：存放一些样本，在线更新时收集存放在经验池中，每次更新时从Replay Buffer中采样。

4.1.2 目标网络（Target Network）

#要点：用一个新的Q值网络 $Q_{\phi'}(s_i',a_i')$ 来代替目标值，使其一定时间内不发生变动，一段时间后更新目标网络参数 $\phi'\leftarrow\phi$ 。

4.2 基于Q-learning的三种形态

4.2.1 Online Q-learning

4.2.2 DQN(N=1,K=1)

4.2.3 Fitted Q-learning

4.2.4 A Brief Summary

4.3 Q值深度网络的有效改进 (Practical Tips)

4.3.1 Double Q-learning

要点：动作选取从目标网络切换到原策略网络。

4.3.2 N-step Returns

$y_{j,t}=\sum_{t'=t}^{t+N-1}\gamma^{t-t'}r_{j,t'}+\gamma^Nmax_{a_{j,t+N}}Q_{\phi'}(s_{j,t+N},a_{j,t+N})$

4.3.3 Dueling Structure

要点：第一个图中一般使用一个网络来拟合 $Q^\pi(s,a)$ ，在结构中分成拟合 $V^\pi(s)$ 与动作优势 $A^\pi(s,a)$ ，得到 $Q^\pi(s,a)=A^\pi(s,a)+V^\pi(s)$ ，可参考下面一篇论文。
Dueling Network Architectures for Deep Reinforcement Learning

Double DQN具体算法例子

4.4 连续动作的Q-learning (Continuous action）

上述提到的Q-learning是适合离散动作的，这样 $Q^\pi(s,a)$ 才好迭代表示，那对于连续动作，具体问题出现在max上，有如下三种方法处理。

4.4.1 随机优化（Stochastic Optimization）

随机优化主要思想，就是从模型中选择一些参数组合，设定一个评价指标，然后从参数组合中选出使评价指标最优的参数。如进化策略（Evolution Strategy）中最好的算法CMA-ES（Covariance Matrix Adaptation-Evolution Strategy)，可从IGO(Information Geometric Optimization）求natural gradient得到。无梯度方法一般比有梯度需要的样本或计算量大，CMA-ES在中等规模（变量个数大约在 3-300范围内）的复杂优化问题上具有很好的效果。除此之外，进化策略可作为深度强化学习算法一个额外的、良好的可扩展算法，具体可参见下面两篇论文。

Evolution Strategies as a Scalable Alternative to Reinforcement Learning 2017

The CMA-ES: A Tutorial 2016

4.4.2 使用易于优化的函数类型 (Easy to optimize)

将Q函数以某种易于优化的方式代替，使用NAF（Normalize Advantage Function）使其适用于连续动作。具体NAF在连续Deep Q-Learning的细节可参考下面一篇ICML 2016的论文。

Continuous Deep Q-Learning with Model-based Acceleration 2016

4.4.3 学习一个新的执行者 (Learn A Second Actor)

弄一个新的actor如 $\mu(s)$ ，来代替max对象，使actor与policy协同更新。
$\mu_\theta(s) \approx argmax_aQ_\phi(s,a)\\ max_aQ_\phi(s,a)=Q_\phi(s,argmax_aQ_\phi(s,a))$

Continuous Control With Deep Reinforcement Learning

五、优化策略梯度(Advanced Policy Gradient)

目的：从目标函数 $J(\theta)$ 入手，希望找到一个更好的 $J(\theta')$ ，使 $J(\theta')-J(\theta)\geq0$ ，且两者之间距离越大越好。
已知 $J(\theta)=E_{\tau\sim p_\theta(\tau)}\big[\sum_t \gamma^tr(s_t,a_t)\big]=E_{s_0\sim p_\theta(s_0)}\big[V(s_0)\big]$
所以有：
$\begin{aligned} J(\theta')-J(\theta)&=J(\theta')-E_{s_0\sim p_\theta(s_0)}\big[V^{\pi_\theta}(s_0)\big] \quad(1) \\ &=J(\theta')-E_{\tau\sim p_{\theta'}(\tau)}\big[V^{\pi_\theta}(s_0)\big] \quad (2)\\ &=J(\theta')-E_{\tau\sim p_{\theta'}(\tau)}\big[\sum_{t=0}^\infty\gamma^tV^{\pi_\theta}(s_t)-\sum_{t=1}^\infty\gamma^tV^{\pi_\theta}(s_t)\big]\\ &=J(\theta')-E_{\tau\sim p_{\theta'}(\tau)}\big[\sum_{t=0}^\infty\gamma^t\big(\gamma V^{\pi_\theta}(s_{t+1})-V^{\pi_\theta}(s_t)]\big)\big]\\ &=E_{\tau\sim p_{\theta'}(\tau)}\big[\sum_{t=0}^\infty\gamma^tr(s_t,a_t)\big]-E_{\tau\sim p_{\theta'}(\tau)}\big[\sum_{t=0}^\infty\gamma^t\big(\gamma V^{\pi_\theta}(s_{t+1})-V^{\pi_\theta}(s_t)]\big)\big]\\ &=E_{\tau\sim p_{\theta'}(\tau)}\Big[\sum_{t=0}^\infty\gamma^t\big(r(s_t,a_t)+\gamma V^{\pi_\theta}(s_{t+1})-V^{\pi_\theta}(s_t)\big)\Big]\\ &=E_{\tau\sim p_{\theta'}(\tau)}\Big[\sum_{t=0}^\infty\gamma^tA^{\pi_\theta}(s_t,a_t)\Big]\\ &=\sum_{t=0}^\infty E_{s_t\sim p_{\theta'}(s_t)}\Big[E_{a_t\sim \pi_{\theta'}(a_t|s_t)}\big[\gamma^tA^{\pi_\theta}(s_t,a_t)\big]\Big] \quad (3)\\ &=\sum_{t=0}^\infty E_{s_t\sim p_{\theta'}(s_t)}\Big[E_{a_t\sim \pi_{\theta}(a_t|s_t)}\big[\frac{\pi_{\theta'}(a_t|s_t)}{\pi_\theta(a_t|s_t)}\gamma^tA^{\pi_\theta}(s_t,a_t)\big]\Big] \quad (4)\\ &\approx\sum_{t=0}^\infty E_{s_t\sim p_{\theta}(s_t)}\Big[E_{a_t\sim \pi_{\theta}(a_t|s_t)}\big[\frac{\pi_{\theta'}(a_t|s_t)} {\pi_\theta(a_t|s_t)}\gamma^tA^{\pi_\theta}(s_t,a_t)\big]\Big]\quad (5)\\ &=\bar{A}(\theta') \end{aligned}$
（1）到（2）： $s_0\sim p_\theta(s_0)$ 表示在 $\theta$ 下的初始状态分布与 $\theta'$ 下的初始状态分布相同，即与轨迹的初始状态分布相同，即 $\tau\sim p_{\theta'}(\tau)$
（3）到（4）：重要性采样（Importance Sampling）
于是我们的目的就变成如下：
$\theta'\leftarrow \argmax_{\theta'} \bar{A}(\theta')\approx J(\theta')-J(\theta)$
如何使(5)中的近似尽可能成立呢？这需要新的policy $\pi_{\theta'}(a_t|s_t)$ 与旧的policy $\pi_{\theta}(a_t|s_t)$ 靠得很近的话，就有 $p_{\theta'}(s_t)\approx p_\theta(s_t)$ ，相当于加了一个约束 $|p_{\theta'}(s_t)- p_\theta(s_t)|\leq\epsilon$ 等价于 $|\pi_{\theta'}(a_t|s_t)-\pi_\theta(a_t|s_t)|\leq\epsilon$

基于人工智能的扫阅卷和数据分析服务需求文档 YiWait 人工智能人工智能数据分析数据挖掘
基于人工智能的扫阅卷和数据分析服务需求文档一、项目背景在教育领域，传统的人工阅卷方式效率低下、主观性强且易出错，难以满足大规模考试及频繁测评的需求。随着人工智能技术的飞速发展，基于人工智能的扫阅卷和数据分析服务应运而生。该服务利用先进的图像识别、自然语言处理等技术，实现试卷扫描、自动阅卷、成绩统计以及深度数据分析，为教育机构、学校提供高效、准确、全面的测评解决方案，助力教学质量提升和教育决策优化。
Java实现生日悖论的算法，计算至少有两个人生日相同的概率 YiWait java 算法
importjava.util.Random;publicclassBirthdayParadox{publicstaticvoidmain(String[]args){intn=23;//邀请的人数inttrials=1000000;//实验次数intcount=0;//至少有两个人生日相同的实验次数Randomrand=newRandom();for(inti=0;i
算法竞赛备赛——【数论】高精度 Aurora_wmroy 算法竞赛备赛算法 c++数据结构蓝桥杯
高精度高精度计算，也被称作大整数计算，运用了一些算法结构来支持更大整数间的运算（数字大小超过语言内建整型）。加法P1601A+BProblem（高精）-洛谷#includeusingnamespacestd;constintN=10100;inta[N],b[N],c[N];intinit(intx[]){//读入数返回位数strings;cin>>s;intl=s.size();for(inti
算法竞赛备赛——【数据结构】链表 Aurora_wmroy 算法竞赛备赛数据结构算法链表 c++蓝桥杯
链表原地逆置206.反转链表-力扣（LeetCode）classSolution{public:ListNode*reverseList(ListNode*head){//链表无头节点原地逆置ListNode*pre=head;ListNode*cur=NULL;ListNode*t=NULL;//t=head->next若head指向空链表会报错非法访问其他空间while(pre!=NULL){
AI程序员大逃杀：从“码农”到“魔法师”的奇幻漂流 ——揭秘人工智能如何重塑程序员工作流 lifire_H 人工智能
当程序员遇上AI，是“饭碗不保”还是“原地飞升”？这场代码界的工业革命，正在让每个程序员经历从“流水线工人”到“科技魔法师”的奇幻蜕变。一、效率革命：当键盘遇上“读心术”1.需求分析：从“鸡同鸭讲”到“灵魂共鸣”还记得那些年被客户需求文档支配的恐惧吗？甲方爸爸一句“我想要五彩斑斓的黑”，就能让产品经理和程序员集体崩溃。现在，AI就像个自带翻译机的“需求捕手”——把客户支离破碎的诉求往WPSAI里一
啸叫抑制（AFS）从算法仿真到工程源码实现-第一节-效果演示 aflyingwolf_pomelo 语音信号处理算法人工智能
一、概述啸叫抑制算法也叫声反馈抑制，本专题我们讨论啸叫抑制算法的平台搭建，算法仿真和设备端的工程落地实现。完整记录一个扩声系统的搭建。更多资料和代码可以进入https://t.zsxq.com/qgmoN，同时欢迎大家提出宝贵的建议，以共同探讨学习。二、啸叫抑制算法视频演示啸叫抑制算法演示视频三、语谱图3.1产生啸叫效果3.2去啸叫后的效果四、总结这一节我们主要记录了啸叫抑制（去啸叫）算法的效果演
Python 学习第五册深度学习第1章什么是深度学习 weixin_38135241 python 学习深度学习人工智能
----用教授的方式学习。目录1.1人工智能、机器学习与深度学习1.1.1人工智能1.1.2机器学习1.1.3从数据中学习表示1.1.4深度学习之“深度”1.1.5用三张图理解深度学习的工作原理1.2深度学习之前：机器学习简史1.2.1概率建模1.2.2核方法1.2.3决策树、随机森林与梯度提升机1.2.4深度学习有何不同什么是深度学习？1.1人工智能、机器学习与深度学习三者关系：1.1.1人工智
当细致剪裁遇上大语言模型：从数据匹配到卓越性能的奇幻之旅步子哥 AGI通用人工智能语言模型人工智能自然语言处理
在浩如烟海的人工智能技术中，构建和调教大语言模型（LLMs）的过程就像是一场精心策划的奇幻冒险。本文带您走进一个鲜为人知的领域——如何利用“量身定制”的数据，让模型在知识的海洋中游刃有余。我们将透过一篇最新的研究《TheBestInstruction-TuningDataareThoseThatFit》，探索如何通过选择与目标模型分布高度契合的数据来优化监督式微调（SFT）的效果，以及这一方法如何
解锁云原生后端开发新姿势：腾讯云大模型API深度整合实战 Loving_enjoy 实用技巧腾讯云
在云原生与AI技术深度融合的今天，如何将大模型能力无缝嵌入后端架构，已成为开发者构建下一代智能应用的核心命题。本文将深入解析腾讯云大模型API（如DeepSeek-R1/V3、混元大模型）与云原生技术的创新结合方案，通过架构设计、实战案例与高阶技巧，揭示一条从0到1构建AI增强型服务的完整路径。---##一、云原生与大模型的融合新范式###1.1技术趋势的双向奔赴云原生后端的核心优势在于弹性扩展、
深度学习：让机器学会“思考”的魔法 AI极客Jayden　 AI 深度学习
文章目录引言：从“鹦鹉学舌”到“举一反三”一、深度学习是什么？1.定义：机器的“大脑”2.核心思想：从数据中“悟”出规律二、深度学习的“大脑”结构：神经网络1.神经元：深度学习的基本单元2.神经网络：多层“神经元”的组合3.深度：为什么需要多层？三、深度学习如何“学习”？1.训练过程：从“笨拙”到“熟练”2.损失函数：衡量“错误”的尺子3.反向传播：从错误中“反思”四、深度学习的“超能力”1.图像
群体智能优化算法-模拟退火优化算法（Simulated Annealing, SA，含Matlab源代码） HR Zhou 算法模拟退火算法机器学习 matlab 群体智能优化优化人工智能
摘要模拟退火（SA）算法是一种基于物理退火过程的全局优化算法，其核心思想来源于热力学中的退火过程：将材料加热到高温后再缓慢冷却，使其分子结构趋于最低能量状态，从而获得稳定结构。SA算法利用Metropolis准则来决定接受新的解，以一定概率接受劣解，从而避免陷入局部最优。SA具有收敛速度快、计算复杂度低、适用于连续优化问题等特点，被广泛应用于组合优化、函数优化、神经网络训练等领域。算法介绍1.主要
珍藏！Java SpringBoot 精品源码合集约惠来袭，获取路径大公开秋野酱 java spring boot 开发语言
技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计、开题报告、任务书、中期检查PPT、系统功能实现、代码编写、论文编写和辅导、论文降重、长期答辩答疑辅导、腾讯会议一对一专业讲解辅导答辩、模拟答辩演练、和理解代码逻辑思路。文末获取源码联系文末获取源码联
相同的问题看看Grok3怎么回答-详细讲讲PPO & GRPO原理释迦呼呼 AI一千问人工智能深度学习机器学习语言模型算法神经网络计算机视觉
关键要点研究表明，PPO（近端策略优化）是一种稳定高效的强化学习算法，适用于单代理或多代理场景，重点是最大化绝对奖励。GRPO（基于梯度的相对策略优化）似乎是专为多代理系统设计的，优化代理之间的相对表现，目前信息有限，可能较少为人所知。这两个算法在目标和应用领域上有显著差异，PPO更通用，GRPO更适合竞争性多代理环境。关于PPO的解释什么是PPO？PPO，全称近端策略优化，是一种强化学习算法，帮
第三十九个问题-详细讲讲PPO & GRPO原理释迦呼呼 AI一千问人工智能深度学习机器学习语言模型自然语言处理算法
PPO（ProximalPolicyOptimization）原理详解PPO（近端策略优化）是OpenAI于2017年提出的强化学习算法，旨在解决传统策略梯度方法中训练不稳定和样本效率低的问题。其核心思想是通过限制策略更新的幅度，确保新策略不会偏离旧策略太远，从而稳定训练过程。1.策略梯度（PolicyGradient）基础策略梯度方法通过直接优化策略参数θθ来最大化期望回报。目标函数为：J(θ)
python调用DeepSeek的API garfield_sun06 大模型 python 语言模型
1获取API获得deepseek开放平台的APIhttps://platform.deepseek.com/api_keys点击创建APIkey2调用方法方法一：采用openai的调用方法pipinstallopenai需要openai的包调用的代码框架fromopenaiimportOpenAIimportosclient=OpenAI(api_key='自己的APIkey',base_url=
基于推理的强化学习智能体设计与开发由数入道人工智能人工智能多智能体强化学习知识推理
1.理论基础与核心概念1.1推理强化学习（Reasoning-EnhancedRL）定义核心思想：在传统强化学习的马尔可夫决策过程（MDP）基础上，引入符号推理、因果推断和知识引导机制，解决复杂环境中的长程依赖和稀疏奖励问题。数学建模：扩展MDP为R-MDP：⟨S,A,P
基于Python+Django的可视化学习系统设计与实现（毕业设计源码+技术文档+系统部署）逐梦设计 Python毕业设计实战案例 python django 课程设计 vue.js 毕业设计源码
博主简介作者简介：Java领域优质创作者、CSDN博客专家、CSDN内容合伙人、掘金特邀作者、阿里云博客专家、51CTO特邀作者、多年架构师设计经验、多年校企合作经验，被多个学校常年聘为校外企业导师，指导学生毕业设计并参与学生毕业答辩指导，有较为丰富的相关经验。期待与各位高校教师、企业讲师以及同行交流合作主要内容：Java项目、Python项目、前端项目、PHP、ASP.NET、人工智能与大数据、
小米新款智能眼镜今日发布；苹果CEO库克来访中国，盛赞DeepSeek | 极客头条 CSDN资讯 AI
「极客头条」——技术人员的新闻圈！CSDN的读者朋友们好，「极客头条」来啦，快来看今天都有哪些值得我们技术人关注的重要新闻吧。整理|苏宓出品|CSDN（ID：CSDNnews）一分钟速览新闻点！小米米家智能眼镜新品今日发布，号称“精细之镜”宇树科技王兴兴谈家用人形机器人何时上市：近两三年实现不了网传商汤联创徐冰或离职，公司回应：目前未收到辞呈何小鹏：预计2025年下半年会实现L3级别全场景自动驾驶
代码随想录算法训练营第四十一天 | hot65/100| 33.搜索旋转排序数组、153.寻找旋转排序数组中的最小值、155.最小栈、394.字符串解码 boguboji 刷题算法 leetcode 数据结构
33.搜索旋转排序数组思路是：数组可能有两种情况2345671和6712345将数组一分为二，其中一定有一个是有序的，每次判断前半部分是有序的还是后半部分是有序的，每次只在有序的那部分里找。无序那部分不管（没找到会重新一分为二，继续在有序的一半里找，迟早会找到）注意点：这道题重点是记住边界条件（哪些是小于等于小于大于等于大于）有小于等于/大于等于的情况是因为，如果出现[2,1]中找1的情况，需要有
代码随想录算法训练营第三十八天 | hot57/100| 114.二叉树展开为链表、437.路径总和III、124.二叉树中的最大路径和、22.括号生成 boguboji 刷题算法链表数据结构
114.二叉树展开为链表思路是：（1）定义方法，先序遍历保证顺序，把节点按顺序保存（2）再for循环转成链表，一列都是往右排列完整代码：classSolution{ publicvoidflatten(TreeNoderoot){ Listlist=newArrayList(); preorderTraversal(root,list); intsize=list.size()
代码随想录算法训练营第十天 | 栈与队列part01| 232.用栈实现队列、225. 用队列实现栈、 20. 有效的括号、1047. 删除字符串中的所有相邻重复项 boguboji 刷题算法 java 开发语言
232.用栈实现队列栈与队列的基本知识：Stackstack=newStackq=newLinkedListstack=newStack显然是存储整数类型，如果要存储字符，应该用Dequedeque=newLinkedListstack=newStack<>();还有我写for(inti=0;i
代码随想录算法训练营第二十三天 | 回溯算法part02| 39. 组合总和、40.组合总和II、131.分割回文串 boguboji 刷题算法数据结构
39.组合总和这道题和前面组合问题的区别是，取的元素可以重复，也就是遍历的时候，同一个元素可以一直取。所以for循环里，逐个添加元素，判断和大于目标时break（否则会一直加）还是新建二维数组放结果，一维数组放path。输入参数为放结果数组、path、提供的数组、目标值、目前总和sum、startIndex提前把提供的数组排序，用Arrays.sort()这样sum超过target就break递归
AI 生成 PPT 网站介绍与优缺点分析 KL_lililli 人工智能 powerpoint
随着人工智能技术不断发展，利用AI自动生成PPT已成为提高演示文稿制作效率的热门方式。本文将介绍几款主流的AIPPT工具，重点列出免费使用机会较多的网站，并对各平台的优缺点进行详细分析，帮助用户根据自身需求选择合适的工具。1.免费及免费试用机会较多的网站1.1Tome网址：Tome–TheAIassistantforsales简介：Tome是一款专注于AI助力讲故事与演示制作的工具，用户只需输入简
机器学习驱动的智能化电池管理技术与应用满木悦电池化学机器人化学电池机器学习人工智能硕博研究生
在人工智能与电池管理技术融合的背景下，电池科技的研究和应用正迅速发展，创新解决方案层出不穷。从电池性能的精确评估到复杂电池系统的智能监控，从数据驱动的故障诊断到电池寿命的预测优化，人工智能技术正以其强大的数据处理能力和模式识别优势，推动电池管理领域的技术进步。据最新研究动态，目前在电池管理领域的人工智能应用主要集中在以下几个方面：1.状态估计：包括电池的荷电状态（SOC）和健康状态（SOH）的实时
目标检测YOLO实战应用案例100讲-基于深度学习的无人机目标检测算法轻量化研究（中）林聪木目标检测 YOLO 深度学习
目录基于改进YOLOv5的无人机图像实时目标检测4.1引言4.2基于改进YOLOv5的目标检测模型结构4.3消融实验及结果分析4.4算法迁移验证实验基于Jetson-Xavier的模型优化部署5.1引言5.2基于人在回路的目标检测模型裁剪5.3嵌入式实时目标检测交互软件基于深度学习的无人机目标检测算法轻量化研究知识拓展基于YOLOv8/YOLOv7/YOLOv6/YOLOv5的无人机目标检测1.数
CCF编程能力等级认证GESP—C++1级—20250322 青岛少儿编程-王老师 #C++-1级 c++java 算法
CCF编程能力等级认证GESP—C++1级—20250322单选题（每题2分，共30分）判断题（每题2分，共20分）编程题(每题25分，共50分)图书馆里的老鼠四舍五入单选题（每题2分，共30分）1、2025年春节有两件轰动全球的事件，一个是DeepSeek横空出世，另一个是贺岁片《哪吒2》票房惊人，入了全球票房榜。下面关于DeepSeek与《哪吒2》的描述成立的是()。A.《哪吒2》是一款新型操
AI算力要变天了？一文搞懂ASIC和GPU asicgpuai芯片
近期，全球股市的动荡中，ASIC和GPU这两个科技股概念突然变得火热，引起了市场的高度关注。博通作为ASIC的代表，股价一路猛涨，而英伟达作为GPU的代表，股价却一路下跌。这是否意味着AI算力市场即将变天？随着人工智能技术的飞速发展，AI算力的重要性日益凸显。从早期的简单模型训练到如今的大规模语言模型如ChatGPT等的出现，对算力的需求呈爆发式增长。01那什么是ASIC和GPU？ASIC：定制化
云智慧：拥抱AI算法驱动的智能运维服务创新引擎
随着信息化、数字化、智能化的加码，企业对人工智能、大数据等技术应用呈现出明显兴趣，海笔研究对国内中型规模企业调研表明，在2020年，54.1%的企业选择购买人工智能类应用，41.9%的企业选择购买大数据及BI类应用，各类产品软件的应用大幅提升了企业信息系统复杂度，以及运维管理难度。业务发展催生服务需求从系统管理者角度出发，信息系统从“单机Excel表格”到“集中式单系统”再到“微服务、云架构”等，
双指针与二分算法打不了嗝蓝桥杯 c++算法
一.双指针1.基本介绍双指针算法是一种暴力枚举的优化算法，他也被叫做尺取法或者滑动窗口。当我们发现算法需要两次for循环时并且两个指针可以不回退，我们可以利用双指针来优化算法复杂度。2.例题详解题目描述企业家Emily有一个很酷的主意：把雪花包起来卖。她发明了一台机器，这台机器可以捕捉飘落的雪花，并把它们一片一片打包进一个包裹里。一旦这个包裹满了，它就会被封上送去发售。Emily的公司的口号是“把
算法刷题区域部分反转无敌的牛算法算法
不断创建数组，相加，利用cpp内字符串相加的性质即可。具体代码如下：classSolution{public:stringreverseStr(strings,intk){intsize=s.size();intcount=size/(2*k);stringa;inti=0;for(i=0;ik){reverse(a2.begin(),a2.begin()+k);}else{reverse(a2.
java类加载顺序 3213213333332132 java
package com.demo; /** * @Description 类加载顺序 * @author FuJianyong * 2015-2-6上午11:21:37 */ public class ClassLoaderSequence { String s1 = "成员属性"; static String s2 = "
Hibernate与mybitas的比较 BlueSkator sql Hibernate 框架 ibatis orm
第一章 Hibernate与MyBatis Hibernate 是当前最流行的O/R mapping框架，它出身于sf.net，现在已经成为Jboss的一部分。 Mybatis 是另外一种优秀的O/R mapping框架。目前属于apache的一个子项目。 MyBatis 参考资料官网：http:
php多维数组排序以及实际工作中的应用 dcj3sjt126com PHP usort uasort
自定义排序函数返回false或负数意味着第一个参数应该排在第二个参数的前面, 正数或true反之, 0相等usort不保存键名uasort 键名会保存下来uksort 排序是对键名进行的 <!doctype html> <html lang="en"> <head> <meta charset="utf-8&q
DOM改变字体大小周华华前端
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
c3p0的配置 g21121 c3p0
c3p0是一个开源的JDBC连接池，它实现了数据源和JNDI绑定，支持JDBC3规范和JDBC2的标准扩展。c3p0的下载地址是：http://sourceforge.net/projects/c3p0/这里可以下载到c3p0最新版本。以在spring中配置dataSource为例：  <bean name="prope
Java获取工程路径的几种方法 510888780 java
第一种： File f = new File(this.getClass().getResource("/").getPath()); System.out.println(f); 结果: C:\Documents%20and%20Settings\Administrator\workspace\projectName\bin 获取当前类的所在工程路径; 如果不加“
在类Unix系统下实现SSH免密码登录服务器 Harry642 免密 ssh
1.客户机 (1)执行ssh-keygen -t rsa -C "[email protected]"生成公钥，xxx为自定义大email地址 (2)执行scp ~/.ssh/id_rsa.pub root@xxxxxxxxx:/tmp将公钥拷贝到服务器上，xxx为服务器地址 (3)执行cat
Java新手入门的30个基本概念一 aijuans java java 入门新手
在我们学习Java的过程中,掌握其中的基本概念对我们的学习无论是J2SE,J2EE,J2ME都是很重要的,J2SE是Java的基础,所以有必要对其中的基本概念做以归纳,以便大家在以后的学习过程中更好的理解java的精髓,在此我总结了30条基本的概念。　　Java概述:　　目前Java主要应用于中间件的开发(middleware)---处理客户机于服务器之间的通信技术,早期的实践证明,Java不适合
Memcached for windows 简单介绍 antlove java Web windows cache memcached
1. 安装memcached server a. 下载memcached-1.2.6-win32-bin.zip b. 解压缩，dos 窗口切换到 memcached.exe所在目录，运行memcached.exe -d install c.启动memcached Server,直接在dos窗口键入 net start "memcached Server&quo
数据库对象的视图和索引百合不是茶索引 oeacle数据库视图
视图视图是从一个表或视图导出的表，也可以是从多个表或视图导出的表。视图是一个虚表，数据库不对视图所对应的数据进行实际存储，只存储视图的定义，对视图的数据进行操作时,只能将字段定义为视图,不能将具体的数据定义为视图为什么oracle需要视图; &
Mockito(一) --入门篇 bijian1013 持续集成 mockito 单元测试
Mockito是一个针对Java的mocking框架，它与EasyMock和jMock很相似，但是通过在执行后校验什么已经被调用，它消除了对期望行为（expectations）的需要。其它的mocking库需要你在执行前记录期望行为（expectations），而这导致了丑陋的初始化代码。 &nb
精通Oracle10编程SQL(5)SQL函数 bijian1013 oracle 数据库 plsql
/* * SQL函数 */ --数字函数 --ABS(n):返回数字n的绝对值 declare v_abs number(6,2); begin v_abs:=abs(&no); dbms_output.put_line('绝对值：'||v_abs); end; --ACOS(n):返回数字n的反余弦值，输入值的范围是-1~1，输出值的单位为弧度
【Log4j一】Log4j总体介绍 bit1129 log4j
Log4j组件：Logger、Appender、Layout Log4j核心包含三个组件：logger、appender和layout。这三个组件协作提供日志功能：日志的输出目标日志的输出格式日志的输出级别(是否抑制日志的输出) logger继承特性 A logger is said to be an ancestor of anothe
Java IO笔记白糖_ java
public static void main(String[] args) throws IOException { //输入流 InputStream in = Test.class.getResourceAsStream("/test"); InputStreamReader isr = new InputStreamReader(in); Bu
Docker 监控 ronin47 docker监控
目前项目内部署了docker，于是涉及到关于监控的事情，参考一些经典实例以及一些自己的想法，总结一下思路。 1、关于监控的内容监控宿主机本身监控宿主机本身还是比较简单的，同其他服务器监控类似，对cpu、network、io、disk等做通用的检查，这里不再细说。额外的，因为是docker的
java-顺时针打印图形 bylijinnan java
一个画图程序要求打印出： 1.int i=5; 2.1 2 3 4 5 3.16 17 18 19 6 4.15 24 25 20 7 5.14 23 22 21 8 6.13 12 11 10 9 7. 8.int i=6 9.1 2 3 4 5 6 10.20 21 22 23 24 7 11.19
关于iReport汉化版强制使用英文的配置方法 Kai_Ge iReport汉化英文版
对于那些具有强迫症的工程师来说，软件汉化固然好用，但是汉化不完整却极为头疼，本方法针对iReport汉化不完整的情况，强制使用英文版，方法如下：在 iReport 安装路径下的 etc/ireport.conf 里增加红色部分启动参数，即可变为英文版。 # ${HOME} will be replaced by user home directory accordin
[并行计算]论宇宙的可计算性 comsci 并行计算
现在我们知道,一个涡旋系统具有并行计算能力.按照自然运动理论,这个系统也同时具有存储能力,同时具备计算和存储能力的系统,在某种条件下一般都会产生意识...... 那么,这种概念让我们推论出一个结论 &nb
用OpenGL实现无限循环的coverflow dai_lm android coverflow
网上找了很久，都是用Gallery实现的，效果不是很满意，结果发现这个用OpenGL实现的，稍微修改了一下源码，实现了无限循环功能源码地址： https://github.com/jackfengji/glcoverflow public class CoverFlowOpenGL extends GLSurfaceView implements GLSurfaceV
JAVA数据计算的几个解决方案1 datamachine java Hibernate 计算
老大丢过来的软件跑了10天，摸到点门道，正好跟以前攒的私房有关联，整理存档。 -----------------------------华丽的分割线------------------------------------- 数据计算层是指介于数据存储和应用程序之间，负责计算数据存储层的数据，并将计算结果返回应用程序的层次。J &nbs
简单的用户授权系统,利用给user表添加一个字段标识管理员的方式 dcj3sjt126com yii
怎么创建一个简单的(非 RBAC)用户授权系统通过查看论坛，我发现这是一个常见的问题，所以我决定写这篇文章。本文只包括授权系统.假设你已经知道怎么创建身份验证系统(登录)。数据库首先在 user 表创建一个新的字段(integer 类型),字段名 'accessLevel',它定义了用户的访问权限扩展 CWebUser 类在配置文件(一般为 protecte
未选之路 dcj3sjt126com 诗
作者:罗伯特*费罗斯特黄色的树林里分出两条路, 可惜我不能同时去涉足, 我在那路口久久伫立, 我向着一条路极目望去, 直到它消失在丛林深处. 但我却选了另外一条路, 它荒草萋萋,十分幽寂; 显得更诱人,更美丽, 虽然在这两条小路上, 都很少留下旅人的足迹. 那天清晨落叶满地, 两条路都未见脚印痕迹. 呵,留下一条路等改日再
Java处理15位身份证变18位蕃薯耀 18位身份证变15位 15位身份证变18位身份证转换
15位身份证变18位，18位身份证变15位 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--应用上下文配置【AppConfig】 hanqunfeng springmvc4
从spring3.0开始，Spring将JavaConfig整合到核心模块，普通的POJO只需要标注@Configuration注解，就可以成为spring配置类，并通过在方法上标注@Bean注解的方式注入bean。 Xml配置和Java类配置对比如下： applicationContext-AppConfig.xml <!-- 激活自动代理功能参看：
Android中webview跟JAVASCRIPT中的交互 jackyrong JavaScript html android 脚本
在android的应用程序中,可以直接调用webview中的javascript代码,而webview中的javascript代码,也可以去调用ANDROID应用程序(也就是JAVA部分的代码).下面举例说明之: 1 JAVASCRIPT脚本调用android程序要在webview中,调用addJavascriptInterface(OBJ,int
8个最佳Web开发资源推荐 lampcy 编程 Web 程序员
Web开发对程序员来说是一项较为复杂的工作，程序员需要快速地满足用户需求。如今很多的在线资源可以给程序员提供帮助，比如指导手册、在线课程和一些参考资料，而且这些资源基本都是免费和适合初学者的。无论你是需要选择一门新的编程语言，或是了解最新的标准，还是需要从其他地方找到一些灵感，我们这里为你整理了一些很好的Web开发资源，帮助你更成功地进行Web开发。这里列出10个最佳Web开发资源，它们都是受
架构师之面试------jdk的hashMap实现 nannan408 HashMap
1.前言。如题。 2.详述。 (1)hashMap算法就是数组链表。数组存放的元素是键值对。jdk通过移位算法（其实也就是简单的加乘算法），如下代码来生成数组下标(生成后indexFor一下就成下标了）。 static int hash(int h) { h ^= (h >>> 20) ^ (h >>>
html禁止清除input文本输入缓存 Rainbow702 html 缓存 input 输入框 change
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; <input type="text" autocomplete="off" n
POJO和JavaBean的区别和联系 tjmljw POJO java beans
POJO 和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Pure Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比 POJO复杂很多， Java Bean 是可复用的组件，对 Java Bean 并没有严格的规
java中单例的五种写法 liuxiaoling java 单例
/** * 单例模式的五种写法： * 1、懒汉 * 2、恶汉 * 3、静态内部类 * 4、枚举 * 5、双重校验锁 */ /** * 五、双重校验锁，在当前的内存模型中无效 */ class LockSingleton { private volatile static LockSingleton singleton; pri