小殊小殊

Pytorch优化器全总结（二）Adadelta、RMSprop、Adam、Adamax、AdamW、NAdam、SparseAdam（重置版）

写在前面

一、torch.optim.Adadelta

Adadelta代码

Adadelta算法解析

Adadelta总结

二、torch.optim.RMSprop

RMSprop代码

RMSprop算法解析

RMSprop总结

三、torch.optim.Adam(AMSGrad)

Adam代码

Adam算法解析

Adam总结

四、torch.optim.Adamax

Adamax代码

Adamax算法解析

Adamax总结

五、torch.optim.AdamW

AdamW代码

AdamW算法解析

1.adam+L2正则化

2.adam+权重衰减

AdamW总结

六、orch.optim.NAdam

NAdam代码

NAdam算法解析

NAdam总结

七、torch.optim.SparseAdam

SparseAdam代码

优化器系列文章列表

Pytorch优化器全总结（一）SGD、ASGD、Rprop、Adagrad_小殊小殊的博客-CSDN博客

Pytorch优化器全总结（二）Adadelta、RMSprop、Adam、Adamax、AdamW、NAdam、SparseAdam_小殊小殊的博客-CSDN博客

写在前面

这篇文章是优化器系列的第二篇，也是最重要的一篇，上一篇文章介绍了几种基础的优化器，这篇文章讲介绍一些用的最多的优化器：Adadelta、RMSprop、Adam、Adamax、AdamW、NAdam、SparseAdam。这些优化器中Adadelta和RMSprop是对上一篇中Adagrad的优化；Adam结合了Momentum 和 RMSprop；Adamax、AdamW、NAdam又是对Adam的改进，可以看到优化器一步一步升级的过程，所以我们放在一篇文章中。

一、torch.optim.Adadelta

该类实现 Adadelta 优化方法。Adadelta 是 Adagrad 的改进。Adadelta 分母中采用距离

当前时间点比较近的累计项，这可以避免在训练后期，学习率过小。

论文地址：https://arxiv.org/pdf/1212.5701.pdf

Pytorch说明文档：Adadelta — PyTorch 1.12 documentation

Adadelta代码

'''
params (iterable) – 待优化参数的iterable或者是定义了参数组的dict
rho (float, 可选) – 用于计算平方梯度的运行平均值的系数（默认：0.9）
eps (float, 可选) – 为了增加数值计算的稳定性而加到分母里的项（默认：1e-6）
lr (float, 可选) – 在delta被应用到参数更新之前对它缩放的系数（默认：1.0）
weight_decay (float, 可选) – 权重衰减（L2惩罚）（默认: 0）
'''
class torch.optim.Adadelta(params, lr=1.0, rho=0.9, eps=1e-06, weight_decay=0)

Adadelta算法解析

为了解决AdaGrad算法中存在的缺陷，AdaGrad算法提出两点修改：

1.为了解决AdaGrad多次迭代后，学习率将逐渐下降至0的问题，AdaGrad在一个窗口w中对梯度进行求和，而不是对梯度一直累加。因为存放 w 之前的梯度是低效的，所以可以用对先前所有梯度均值（使用RMS即均方根值实现）的一个指数衰减作为代替的实现方法。

参数更新公式如下：

$v_{t}=\beta _{2}*v_{t-1}+(1-\beta _{2})*(g _{t})^2$ (1)

$\theta _{t}=\theta _{t-1}-\eta \frac{1}{\sqrt{v_{t}+\epsilon }}$ (2)

2.上式其实还是依赖于全局学习率的，但是作者做了一定处理，经过近似牛顿迭代法之后，不再需要全局学习率。以下为推导过程：

首先根据牛顿法求解函数极值点：

对于f(x)的泰勒展开式，若取到二阶来近似，则：

$f(\theta )=f(\theta _{0})*(\theta -\theta _{0})+\frac{{f}''(\theta _{0})(\theta -\theta _{0})^2}{2!}$ (3)

两边对 $\theta$ 求导，有：

${f}'(\theta )={f}'(\theta _{0})+{f}''(\theta _{0})*(\theta -\theta _{0})$ (4)

函数 $f(\theta )$ 的极值点满足 ${f}'(\theta )=0$ ,代入上式中，有：

$\theta _{1}=\theta _{0}-\frac{{f}'(\theta _{0})}{{f}''(\theta _{0})}$ (5)

由此得到牛顿法求解函数极值点的迭代式：

$\theta _{t+1} = \theta _{t}-\frac{{f}'(\theta _{t})}{{f}''(\theta _{t})}$ (6)

以上为二阶情况，下面引申到高阶，而高阶的牛顿法迭代的步长为Hessian矩阵。AdaDelta算法正是采用了这种思想，采用Hessian矩阵的对角线近似Hessian矩阵。公式如下:

$\bigtriangleup \theta \approx \frac{\frac{\partial f}{\partial \theta }}{\frac{\partial ^2f}{\partial \theta ^2}}$ (7)

$\frac{\bigtriangleup \theta}{\frac{\partial f}{\partial \theta }}=\frac{1}{\frac{\partial ^2f}{\partial \theta ^2}}$ (8)

而更新公式为：

$\theta _{t}=\theta _{t-1}-\frac{1}{\frac{\partial ^2f}{\partial \theta ^2}}*g_{t}=\theta _{t-1}-\frac{\bigtriangleup \theta }{\frac{\partial f}{\partial \theta }}*g_{t}$ (9)

假设x附近的曲率是平滑的，则 $x_{t+1} =x _{t}$ ，分子分母按照第一点修改种的方法进行处理,可以得到以下参数更新公式：

$\theta _{t}=\theta _{t-1}-\frac{RMS[\bigtriangleup \theta ]_{t-1}}{RMS[g]_{t}}*g_{t}$ (10)

其中 $g_{t}$ 为本次迭代的梯度，RMS为均方根。由于RMS永远为正，所以能保证更新的方向一直为梯度的负方向。分子作为一个加速项，作为动量在时间窗口w上积累先前的梯度。

最后给分子的 $\bigtriangleup \theta$ 和分母的 $g_{t}$ 加入动量:

$u_{t}=\rho *u_{t-1}+(1-\rho )\bigtriangleup \theta _{t}^{2}$ (11)

$v_{t}=\rho v_{t-1}+(1-\rho )g_{t}^{2}$ (12)

$\theta _{t}=\theta _{t-1}-\eta *\frac{\sqrt{u_{t}+\epsilon }}{\sqrt{v_{t}+\epsilon }}*g_{t}$ (13)

Adadelta总结

Adadelta是对AdaGrad的改造，用梯度平方的指数加权平均代替了全部梯度的平方和，用更新量的平方的指数加权平均来动态得代替了全局的标量的学习率。

优点：

a.对于每个维度,用梯度平方的指数加权平均代替了全部梯度的平方和,避免了后期更新时更新幅度逐渐趋近于0的问题

b.用更新量的平方的指数加权平均来动态得代替了全局的标量的学习率,避免了对学习率的敏感

缺点：

a.对 ϵ 很敏感,因为第一步的步长是 $\sqrt{\varepsilon}$ ，小了的话,前期步长很小，大了的话,后期容易引起震荡。

b.训练后期，反复在局部最小值附近抖动

推荐程度：可以试试。

二、torch.optim.RMSprop

该类实现 RMSprop 优化方法（Hinton 提出），RMS 是均方根（root meam square）的意

思。RMSprop 和 Adadelta 一样，也是对 Adagrad 的一种改进。RMSprop 采用均方根作为分母，可缓解 Adagrad 学习率下降较快的问题，并且引入均方根，可以减少摆动。

论文地址：https://arxiv.org/pdf/1308.0850v5.pdf

Pytorch说明文档：RMSprop — PyTorch 1.12 documentation

RMSprop代码

'''
params (iterable) – 待优化参数的iterable或者是定义了参数组的dict
lr (float, 可选) – 学习率（默认：1e-2）
momentum (float, 可选) – 动量因子（默认：0），该参数的作用下面会说明。
alpha (float, 可选) – 平滑常数（默认：0.99）
eps (float, 可选) – 为了增加数值计算的稳定性而加到分母里的项（默认：1e-8）
weight_decay (float, 可选) – 权重衰减（L2惩罚）（默认: 0）
centered (bool, 可选) – 如果为True，计算中心化的RMSProp，并且用它的方差预测值对梯度进行归一化
'''
class torch.optim.RMSprop(params, lr=0.01, alpha=0.99, eps=1e-08, weight_decay=0, momentum=0, centered=False)

RMSprop算法解析

RMSprop与Adadelta属于同一时期的作品，都是对Adagrad的优化，解决了Adagrad多次迭代后，学习率将逐渐下降至0的问题。RMSProp算法将AdaGrad的梯度平方和累改加为指数加权的移动平均，使得其在非凸设定下效果更好。设定参数：全局初始率默认设为0.001，decay rate $\rho$ ，默认设置为0.9，一个极小的常量 $\epsilon$ ，通常为10e-6，参数更新公式如下：

$v_{t}=\rho v_{t-1}+(1-\rho )g_{t}^{2}$ (14)

$\theta _{t}=\theta _{t-1}-\frac{\eta }{\sqrt{v_{t} }+\epsilon}*g_{t}$ (15)

可以看到式子（15）和Adadelta的（13）的分母是基本一样的（只是 $\epsilon$ 的位置有所区别），两者虽然思想不一样，但是实现一样的，都是指数加权的移动平均，也算殊途同归了。

RMSprop与AdaDelta的不同之处在分子，RMSprop还是用了全局学习率，而AdaDelta算法还维护一个额外的状态变量 $\bigtriangleup \theta$ ，并且自动计算学习率。

再说明一下torch.optim.RMSprop类中momentum参数的作用，式子（14）计算累计梯度平方的期望后，如果momentum!=0，式子（15）会变成如下形式：

$\theta _{t}=\theta _{t-1}-\eta *(g_{t-1}*momentum+g_{t})$ (16)

RMSprop总结

RMSprop算是Adagrad的一种发展，用梯度平方的指数加权平均代替了全部梯度的平方和，相当于只实现了Adadelta的第一个修改，效果趋于RMSprop和Adadelta二者之间。

优点：适合处理非平稳目标(包括季节性和周期性)——对于RNN效果很好

缺点：RMSprop依然依赖于全局学习率

推荐程度：推荐！

三、torch.optim.Adam(AMSGrad)

该类实现 Adam(Adaptive Moment Estimation))优化方法。Adam 是一种自适应学习率的优
化方法，Adam 利用梯度的一阶矩估计和二阶矩估计动态的调整学习率。Adam 是结合了 Momentum 和 RMSprop，并进行了偏差修正。

论文地址：https://arxiv.org/pdf/1412.6980.pdf

Pytorch说明文档：Adam — PyTorch 1.12 documentation

Adam代码

'''
params (iterable) – 待优化参数的iterable或者是定义了参数组的dict
lr (float, 可选) – 学习率（默认：1e-3）
betas (Tuple[float,float], 可选) – 用于计算梯度以及梯度平方的运行平均值的系数（默认：0.9，0.999）
eps (float, 可选) – 为了增加数值计算的稳定性而加到分母里的项（默认：1e-8）
weight_decay (float, 可选) – 权重衰减（L2惩罚）（默认: 0）
'''
class torch.optim.Adam(params, lr=0.001, betas=(0.9, 0.999), eps=1e-08, weight_decay=0, amsgrad=False)

Adam算法解析

了解了Adagrad 和RMSProp之后，Adam 就很好理解了。Adam 不仅如 RMSProp 算法那样基于一阶矩均值计算适应性参数学习率，它同时还充分利用了梯度的二阶矩均值，它利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率。Adam的优点主要在于经过偏置校正后，每一次迭代学习率都有个确定范围，使得参数比较平稳。推导过程如下：

$m_{t}=\beta _{1}*m_{t-1}+(1-\beta _{1})*g_{t}$ (17)

$v_{t}=\beta _{2}*v_{t-1}+(1-\beta _{2})*g_{t}^{2}$ (18)

$\hat{m}_{t}=\frac{m_{t}}{(1-\beta _{1}^{t})}$ (19)

$\hat{v}_{t}=\frac{v_{t}}{(1-\beta _{2}^{t})}$ (20)

$\theta _{t}=\theta _{t-1}-\eta *\frac{\hat{m_{t}}}{(\sqrt{\hat{v_{t}}}+\epsilon )}$ (21)

$m_{t}$ 估计了到目前为止各分量的均值，估计了到目前为止各分量的平方的均值。在迭代初期，对的估计以及对的估计都是有偏的，需要进行偏差修正，修正系数分别是 $\frac{1}{1-\beta^t_1}$ 和 $\frac{1}{1-\beta^t_2}$ ，随着迭代的进行，估计逐渐变为无偏估计，修正强度逐渐降低为1。

式子(21)更新模型参数，分子表示在过去一段时间内各分量的平均值，即梯度更新的大致走向，分母表示在过去一段时间内各分量的平均大小。相当于分两步走，第一步是确定一个合适的下降方向（即分子项），第二步，对这个选定的方向上的各个子方向做一下微调（分母项），这样，推进较快的子方向会慢下来，推进较慢的子方向会加快速度，动态调整了各个子方向的学习率。因此，Adam结合了Momentum和RMSprop两种算法的优点。

Adam总结

在adam中，一阶矩来控制模型更新的方向，二阶矩控制步长(学习率)。利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率。

优点：

1、结合了Adagrad善于处理稀疏梯度和RMSprop善于处理非平稳目标的优点

2、更新步长和梯度大小无关，只和alpha、beta_1、beta_2有关系。并且由它们决定步长的理论上限

3、更新的步长能够被限制在大致的范围内（初始学习率）

4、能较好的处理噪音样本，能天然地实现步长退火过程（自动调整学习率）

推荐程度：非常推荐

四、torch.optim.Adamax

该类实现 Adamax 优化方法。Adamax 是对 Adam 增加了一个学习率上限的概念，所以称之为 Adamax。

论文地址：https://arxiv.org/pdf/1412.6980.pdf

Pytorch说明文档：Adamax — PyTorch 1.12 documentation

Adamax代码

'''
params (iterable) – 待优化参数的iterable或者是定义了参数组的dict
lr (float, 可选) – 学习率（默认：2e-3）
betas (Tuple[float,float], 可选) – 用于计算梯度以及梯度平方的运行平均值的系数
eps (float, 可选) – 为了增加数值计算的稳定性而加到分母里的项（默认：1e-8）
weight_decay (float, 可选) – 权重衰减（L2惩罚）（默认: 0）
'''
class torch.optim.Adamax(params, lr=0.002, betas=(0.9, 0.999), eps=1e-08, weight_decay=0)

Adamax算法解析

adam的梯度更新规则都是反比于梯度的L2范数，即：

$v_{t}=\beta _{2}*v_{t-1}+(1-\beta _{2})*g_{t}^{2}$

$=(1-\beta _{2})\sum_{i=1}^{t}\beta _{2}^{t-i}*g_{t}^2$ (22)

那么能否把L2范数拓展到Lp范数? 作者给出了如下假设:

$v_{t}=\beta _{2}^p*v_{t-1}+(1-\beta _{2}^p)*g_{t}^{p}$

$=(1-\beta _{2}^p)\sum_{i=1}^{t}\beta _{2}^{p*(t-i)}*g_{t}^p$ (23)

这种变体当p比较大时会出现不稳定的情况。但当 $p \to \infty$ 时，会有一个简单并稳定的算法，求解过程如下。

$u_{t}=\lim_{p \to \infty }(v_{t})^\frac{1}{p}$

$=\lim_{p \to \infty }[(1-\beta _{2}^{p})*\sum_{i=1}^{t}\beta _{2}^{t-i}*|g_{i}|^p]^\frac{1}{p}$

$=\lim_{p \to \infty }[\sum_{i=1}^{t}*(\beta _{2}^{t-i}*|g_{i}|^p)]^\frac{1}{p}$ (24)

因为无穷范数，就是取向量的最大值，所以继续推导如下：

$=max(\beta _{2}^{t-1}*|g_{1}|,\beta _{2}^{t-2}*|g_{2}|,...,\beta _{2}*|g_{t-1}|,|g_{t}|)$ (25)

这就对应了一个非常简单的递归公式:

$u_{t}=max(\beta _{2}*u_{t-1}, |g_{t}|)$ (26)

由于 $u_{t}$ 依赖于max操作，所以AdaMax不像在Adam中 $m_{t}$ 和 $v_{t}$ 的偏差趋向于0，所以不需要计算 $u_{t}$ 的偏差校正。

比较合适的参数设置： η=0.002,β1=0.9,β2=0.999

Adamax总结

Adamax是Adam的一种变体，此方法对学习率的上限提供了一个更简单的范围。总的来说跟Adam效果差不了多少。

推荐程度：非常推荐

五、torch.optim.AdamW

该类实现AdamW，是Adam的进化版，简单地说是Adam+权重衰减。

论文地址：https://arxiv.org/pdf/1711.05101.pdf

Pytorch说明文档：AdamW — PyTorch 1.12 documentation

AdamW代码

'''
params (iterable) – 待优化参数的iterable或者是定义了参数组的dict
lr (float, 可选) – 学习率（默认：1e-3）
betas (Tuple[float,float], 可选) – 用于计算梯度以及梯度平方的运行平均值的系数（默认：0.9，0.999）
eps (float, 可选) – 为了增加数值计算的稳定性而加到分母里的项（默认：1e-8）
weight_decay (float, 可选) – 权重衰减（L2惩罚）（默认: 1e-2）
amsgrad(boolean, optional) – 是否使用从论文On the Convergence of Adam and Beyond中提到的算法的AMSGrad变体（默认：False）
'''
class torch.optim.AdamW(params,lr=0.001,betas=(0.9,0.999),eps=1e08,weight_decay=0.01,amsgrad=False)

AdamW算法解析

1.adam+L2正则化

L2正则化往损失函数加入权重惩罚项 $\frac{1}{2}\lambda \theta ^{2}$ 。对于SGD，使用L2正则化后，参数更新公式变为公式(1)：

$\theta _{t+1}=\theta _{t}-\eta *(\bigtriangledown_{\theta _{t}}+\lambda \theta _{t} )$

$=(1-\eta \lambda )\theta _{t}-\eta \bigtriangledown _{\theta _{t}}$ (27)

因为 $1-\eta \lambda<1$ ，所以随着更新， $\theta$ 有趋向于零的倾向，从而选择特征变得稀疏，提高泛化能力。对于学习率自适应的Adam，使用L2正则化后，参数更新公式如下：

$g_{t}=\bigtriangledown f(\theta _{t-1})+\lambda \theta _{t-1}$ (28)

$m_{t}=\beta _{1}*m_{t-1}+(1-\beta _{1})*g_{t}$ (29)

$v_{t}=\beta _{2}*v_{t-1}+(1-\beta _{2})*g_{t}^{2}$ (30)

$\theta _{t}=\theta _{t-1}-\eta *\frac{\hat{m_{t}}}{(\sqrt{\hat{v_{t}}}+\epsilon )}$ (31)

将式子（28）带入式子（29）然后再带入（31）得：

$\theta _{t}=\theta _{t-1}-\frac{\eta [\beta _{1}m_{t-1}+(1-\beta _{1})(\bigtriangledown f_{t}(\theta _{t-1}+\lambda \theta_{t-1} )]}{\sqrt{v_{t}}+\epsilon }$

$=\theta _{t-1}-\frac{\eta [\beta _{1}m_{t-1}+(1-\beta _{1})(\bigtriangledown f_{t}(\theta _{t-1})]}{\sqrt{v_{t}}+\epsilon } -\frac {\eta \lambda (1-\beta _{1 })\theta _{t-1}}{\sqrt{v_{t}}+\epsilon}$ (32)

可以看到，最后一项分子发挥正常效果，对于大的 θ 加大惩罚；而分母使得在梯度快速变化的方向（ θ 较大）更新的更少，从而削弱了L2正则的惩罚，使得L2正则效果变得不理想。

2.adam+权重衰减

adamW就是adam+权重衰减，对于学习率自适应的Adam，既然问题出现在正则项除以了 $\sqrt{v_{t}}+\epsilon$ 之后正则项不能很好的工作，那就不除了呗，更新变成下面的样子：

$\theta _{t}=\theta _{t-1}-\eta [\frac{\hat{m}_{t}}{\sqrt{\hat{v}_{t}}+\epsilon }+\lambda \theta _{t-1}]$ (29)

其中 $\hat{m}_{t}$ 为式子（19）， $\hat{v}_{t}$ 为式子（20），可以看到这样正则项不再受到 $g_{t}^{2}$ 影响，而 $\theta$ 相比adam多减了一个 $\eta \lambda \theta _{t}$ ， $\theta$ 有一个减小的趋势，所以叫做权重衰减。

AdamW总结

因为Adam的学习率自适应的，而L2正则遇到自适应学习率后效果不理想，所以使用adam+权重衰减的方式解决问题。多说一句，如果epoch比较多推荐使用 SGD（无momentum） + L2正则化；poch比较少推荐使用AdamW。

优点：比Adam收敛得更快，参数更稀疏

推荐程度：可以一试，BERT使用了adamW

六、orch.optim.NAdam

该类实现NAdam，NAdam是在 Adam 中引入 Nesterov 加速效果。

论文地址：https://openreview.net/pdf?id=OM0jvwB8jIp57ZJjtNEZ

Pytorch说明文档：NAdam — PyTorch 1.12 documentation

NAdam代码

'''
params (iterable) – 待优化参数的iterable或者是定义了参数组的dict
lr (float, 可选) – 学习率（默认：1e-3）
betas (Tuple[float,float], 可选) – 用于计算梯度以及梯度平方的运行平均值的系数（默认：0.9，0.999）
eps (float, 可选) – 为了增加数值计算的稳定性而加到分母里的项（默认：1e-8）
weight_decay (float, 可选) – 动量衰减
foreach(boolean, optional) – 是否使用每个优化器的实现，可以添加一些复杂的foreach逻辑
'''
class torch.optim.NAdam(params, lr=0.002, betas=(0.9, 0.999), eps=1e-08, weight_decay=0, momentum_decay=0.004, foreach=None)

NAdam算法解析

首先回顾 NAG 的公式（详情可跳转Pytorch优化器全总结（一）SGD、ASGD、Rprop、Adagrad_小殊小殊的博客-CSDN博客）：

$g_{t}=\bigtriangledown_\theta J(\theta _{t-1}-\rho m_{t-1})$ （30）

$m_{t} = \rho *m_{t-1} +\eta *g_{t}$ （31）

$\theta _{t}=\theta _{t-1}-m_{t}$ （32）

NAG 的核心在于，计算梯度时使用了[未来位置]： $\theta _{t}-\rho m_{t-1}$ 。NAdam 中提出了一种公式变形的思路，大意可以这样理解：只要能在梯度计算中考虑到[未来因素]，即能达到 Nesterov 的效果；既然如此，那么在计算梯度时，可以仍然使用原始公式 $g_{t}=\bigtriangledown_\theta J(\theta _{t})$ ，但在前一次迭代计算 $\theta _{t}$ 时，就使用了未来时刻的动量，即式子（32），那么理论上所达到的效果是类似的。

这时，公式修改为：

$g_{t}=\bigtriangledown_\theta J(\theta _{t-1})$ (33)

$m_{t} = \rho *m_{t-1} +\eta *g_{t}$ (34)

$\bar{m}_{t} = \rho *m_{t} +\eta *g_{t}$ (35)

$\theta _{t}=\theta _{t-1}-\bar{m}_{t}$ (36)

理论上，下一刻的动量为 $m_{t+1} = \rho *m_{t} +\eta *g_{t+1}$ ，在假定连续两次的梯度变化不大的情况下，即 $g_{t+1}\approx g_{t}$ ，有 $m_{t+1}\approx \rho *m_{t} +\eta *g_{t}=\bar{m}_{t}$ 。此时，即可用 $\bar{m}_{t}$ 近似表示未来动量加入到参数更新的迭代式中。

类似的，在 Adam 可以加入 $\hat{m}_{t}\approx \bar{m}_{t}$ 的变形，将 $\hat{m}_{t}$ 展开有:

$\hat{m_{t}}=\frac{m_{t}}{1-\beta _{1}^{t}}=\eta [\frac{\beta _{1}m_{t-1}}{1-\beta _{1}^{t}}+\frac{(1-\beta _{1})g_{t}}{1-\beta _{1}^{t}}]$ (37)

$\bar{m_{t}}=\eta [\frac{\beta _{1}m_{t}}{1-\beta _{1}^{t+1}}+\frac{(1-\beta _{1})g_{t}}{1-\beta _{1}^{t}}]$ (38)

$\theta _{t}=\theta _{t-1}-\frac{\bar{m_{t}}}{\sqrt{\hat{v}}+\epsilon }$ (39)

式子（39）即为NAdam的更新公式。

NAdam总结

NAdam是在 Adam 中引入 Nesterov 加速效果。

优点：具有Adam的优点的同时，在也兼具NAG收敛速度快、波动也小的特点。

推荐程度：推荐，在想使用带动量的RMSprop，或者Adam的地方，大多可以使用NAdam取得更好的效果。

七、torch.optim.SparseAdam

该类实现SparseAdam，不是很常用，是针对稀疏张量的一种“阉割版”Adam 优化方法。

Pytorch说明文档：SparseAdam — PyTorch 1.12 documentation

SparseAdam代码

'''
params (iterable) – 待优化参数的iterable或者是定义了参数组的dict
lr (float, 可选) – 学习率（默认：1e-3）
betas (Tuple[float,float], 可选) – 用于计算梯度以及梯度平方的运行平均值的系数（默认：0.9，0.999）
eps (float, 可选) – 为了增加数值计算的稳定性而加到分母里的项（默认：1e-8）
'''
class torch.optim.SparseAdam(params, lr=0.001, betas=(0.9, 0.999), eps=1e-08)

推荐程度：使用的较少，处理稀疏张量的时候考虑使用。

到这里最常用的优化器介绍完了，后面我会介绍一些其它优化器以及所有优化器的对比，敬请期待。

你可能感兴趣的:(pytorch相关,深度学习,人工智能,pytorch,python,机器学习)

python processpoolexecutor_Python线程和进程池并行编程三千香蕉三千 python
Python3.2版本之后发布了concurrent.futures模块，用以支持和管理并发编程，内容涵盖了进程和线程池(ThreadandProcessPooling)、非确定性执行流(NondeterministicExecutionFlows)以及进程和线程同步。本文通过将带有可选参数的任务提交(Submit)给执行器(Executor)来实例化futures对象。执行器是线程或者进程执行池
python 底层原理processpoolexecutor_Python 并发编程：PoolExecutor 篇风投小虾 python
个人笔记，如有疏漏，还请指正。使用多线程(threading)和多进程(multiprocessing)完成常规的并发需求，在启动的时候start、join等步骤不能省，复杂的需要还要用1-2个队列。随着需求越来越复杂，如果没有良好的设计和抽象这部分的功能层次，代码量越多调试的难度就越大。对于需要并发执行、但是对实时性要求不高的任务，我们可以使用concurrent.futures包中的PoolE
机器学习实战第一章机器学习基础 LuoY、 Machine Learning 机器学习算法人工智能
第一章机器学习1.1何谓机器学习1.2关键术语1.3机器学习的主要任务1.4如何选择合适的算法1.5开发机器学习应用程序的步骤1.6Python语言的优势1.1何谓机器学习 1、简单地说，机器学习就是把无序的数据转换成有用的信息； 2、机器学习能让我们自数据集中受启发，我们会利用计算机来彰显数据背后的真实含义； 3、机器学习横跨计算机科学、工程技术和统计学等多个学科，需要多学科的
数据挖掘实战-基于机器学习的垃圾邮件检测模型艾派森数据挖掘实战合集数据挖掘机器学习人工智能 python
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍
conda篇----在已有conda环境的基础上升级python包心惠天意 conda python jvm
conda篇----在已有conda环境的基础上升级python包原先的python版本第一步：condaupdate--all(py11)[xxx@aivrs01xxx]$condaupdate--allCollectingpackagemetadata(current_repodata.json):doneSolvingenvironment:done==>WARNING:Anewervers
集成学习（随机森林） herry57 数学建模大数据随机森林集成学习
目录一、集成学习概念二、Bagging集成原理三、随机森林四、例子（商品分类）一、集成学习概念集成学习通过建⽴⼏个模型来解决单⼀预测问题。它的⼯作原理是⽣成多个分类器/模型，各⾃独⽴地学习和作出预测。这些预测最后结合成组合预测，因此优于任何⼀个单分类的做出预测。只要单分类器的表现不太差，集成学习的结果总是要好于单分类器的二、Bagging集成原理分类圆形和长方形三、随机森林在机器学习中，随机森林是
conda：一个当下最流行的Python虚拟环境工具 Wang_AI
点击上方“AI派”，选择“设为星标”最新分享，第一时间送达！作者：LeonWang，现为中科院特别研究助理(博士后)，在AI、数据科学和科学计算等方面相关的工程实践上积累了丰富的经验。编辑：王老湿前面的文章中，为大家介绍过Python下的虚拟环境和包管理。在实际中，更为流行的是用Conda来管理Python环境。今天这篇文章就为大家介绍这方面的相关内容。Conda环境Conda简介Conda是目前
Linux部署模型报错OSError: Error no file named pytorch_model.bin, tf_model.h5, model.ckpt.index or flax_mod dkgee linux pytorch 运维
报错内容：OSError:Errornofilenamedpytorch_model.bin,tf_model.h5,model.ckpt.indexorflax_model.msgpackfoundindirectory主要原因是transformer版本不对，需要升级pipinstall--upgradehuggingface_hubpipinstalltransformers[torch]其
【机器学习】朴素贝叶斯入门：从零到垃圾邮件过滤实战吴师兄大模型 0基础实现机器学习入门到精通机器学习人工智能朴素贝叶斯深度学习 pytorch sklearn 开发语言
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
轻松上手：Matplotlib的基本用法全知道大数据方向陪跑私教 python
《轻松上手：Matplotlib的基本用法全知道》嗨，小伙伴们！之前咱们了解了好多厉害的Python包，今天咱们来好好讲讲Matplotlib这个在数据可视化方面超棒的包。**Matplotlib到底该怎么用呢？**这就像是探索一个新的游乐场，每个功能都是一样好玩的项目。一、安装Matplotlib在开始使用Matplotlib之前，得先把它安装好。如果你已经安装了Python的包管理工具pip，
Python 高手编程系列一千七百零八：在事件循环中使用 executors 杨琴1 python 开发语言
Executor.submit()方法返回的Future类实例在概念上非常接近异步编程中使用的协程。这就是为什么我们可以使用执行器在协同多任务和多进程或多线程之间进行混合。此解决方法的核心是事件循环类的BaseEventLoop.run_in_executor(executor,func,*args)方法。它会在进程池或线程池中调度执行由executor参数表示的func函数。这个方法最重要的是它
【机器学习】机器学习工程实战-第2章项目开始前腊肉芥末果机器学习工程实战机器学习人工智能
上一章：第1章概述文章目录2.1机器学习项目的优先级排序2.1.1机器学习的影响2.1.2机器学习的成本2.2估计机器学习项目的复杂度2.2.1未知因素2.2.2简化问题2.2.3非线性进展2.3确定机器学习项目的目标2.3.1模型能做什么2.3.2成功模型的属性2.4构建机器学习团队2.4.1两种文化2.4.2机器学习团队的成员2.5机器学习项目为何失败2.5.1缺乏有经验的人才2.5.2缺乏领
conda将python低版本环境升级到高版本 dkgee conda python 开发语言
conda将python低版本环境3.7.16升级到高版本3.81.激活你的Conda环境2.升级Python版本3.验证升级4.处理依赖问题5.测试环境注意事项可以将Conda环境中的Python版本从3.7.16升级到3.8。以下是具体步骤：1.激活你的Conda环境首先，你需要激活你想要升级Python版本的环境。假设你的环境名为myenv，你可以使用以下命令激活它：condaactivat
python 爬取某乎某选全部内容路笑笑
在发布了python爬取知乎盐选文章内容后，没想到居然这么快就要更新新的内容了。在下午思考第一篇python爬取知乎盐选文章内容的时候，其实就把自动爬取目录内的其他内容的方法想出来了，但是本来没想这么快更新的，哈哈。不过思来想去还是发出来吧，毕竟要不哪天就忘了。fromDecryptLoginimportloginfrombs4importBeautifulSoupimportreimportba
（含import）两行代码，将ppt的每一页幻灯片保存为图片。（如果你没装office，只装了WPS也可以，只不过更麻烦一些）几道之旅人工智能智能体及数字员工 powerpoint wps
文章目录第一步:安装包第二步：写代码，运行第三步：如果你是Office，现在已经搞定了。但我是WPS，会报错：第四步：直接去包里改代码第五步：保存对包中代码的修改，重新运行咱最开头的代码第六步：成功了第一步:安装包pipinstallpython-office第二步：写代码，运行#安装库：pipinstallpython-officeimportoffice#单页转图片office.ppt.ppt
Python知识分享第十四天闵少搞AI python 开发语言
“”"1.面向对象相关概述概述面向对象是一种编程思想强调的是以对象为基础完成的各种操作它是基于面向过程的扩展Python中是同时支持面向对象和面向过程这两种编程思想的思想特点更符合人们的思考习惯把复杂的问题简单化把人们(程序员)从执行者变成了指挥者2.面向对象三大特征介绍封装继承多态封装概述封装就是隐藏对象的属性和实现细节仅对外提供公共的访问方式举例:插板电脑手机好处提高代码的安全性弊端代码量增加
pythontype函数使用_Python astype(np.float)函数使用方法解析 weixin_39870238 pythontype函数使用
Pythonastype(np.float)函数使用方法解析我的数据库如图结构我取了其中的nameagenr，做成array，只要所取数据存在str型，那么取出的数据，全部转化为str型，也就是array阵列的元素全是str，不管数据库定义的是不是int型。那么问题来了，取出的数据代入公式进行计算的时候，就会类型不符，这是就用到astype(np.float)代码如下importpymysqlim
conda install 和 pip install 的区别不知江月待何人.. 深度学习
condainstall和pipinstall是两个常用的包安装命令，但它们在很多方面存在差异。1.所属管理系统不同1.1condainstallcondainstall是Anaconda和Miniconda发行版自带的包管理工具conda的安装命令。conda是一个跨平台的开源包管理系统和环境管理系统，它不仅可以管理Python包，还能管理其他语言（如R、C++等）的包。conda更侧重于数据科
蓝桥杯备赛计划 laitywgx 蓝桥杯职场和发展
1-2小时的蓝桥杯PythonB组冲刺日程表（持续1个月，聚焦高频考点）：第一周：核心算法突破Day1（周一）学习重点：动态规划（01背包问题）学习资源：AcWing《蓝桥杯辅导课》第8讲（背包问题模板）代码模板速记：#一维01背包模板n,V=map(int,input().split())dp=[0]*(V+1)for_inrange(n):w,v=map(int,input().split()
机器学习怎么做特征工程全栈你个大西瓜人工智能机器学习人工智能特征工程数据预处理特征变换特征降维特征构造
一、特征工程通俗解释特征工程就像厨师做菜前的食材处理：原始数据是“生肉和蔬菜”，特征工程是“切块、腌制、调料搭配”，目的是让机器学习模型（食客）更容易消化吸收，做出更好预测（品尝美味）。二、为什么要做特征工程？数据质量差：原始数据常有缺失、噪声、不一致问题（如年龄列混入“未知”）。模型限制：算法无法直接理解原始数据（如文本、日期需要数值化）。提升效果：好特征能显著提升模型性能（准确率提升10%~5
When Large Language Models Meet Speech: A Survey on Integration Approaches UnknownBody LLM Daily Survey Paper 语言模型人工智能自然语言处理
主要内容研究背景：大语言模型（LLMs）在自然语言处理领域取得显著进展，其与语音的融合具有广泛应用前景，但缺乏相关集成方法的综述。文章将语音与LLMs集成方法分为基于文本、基于潜在表示和基于音频令牌三大类。集成方法基于文本的集成：通过级联集成、LLM重打分和LLM生成式错误纠正等方式，利用文本作为LLMs的输入和输出，处理语音相关任务，但存在信息损失和准确性与多样性平衡的问题。基于潜在表示的集成：
【机器学习】机器学习四大分类藓类少女机器学习机器学习分类人工智能
机器学习的方法主要可以分为四大类，根据学习方式和数据标注情况进行分类：1.监督学习（SupervisedLearning）特点：有标注数据（即训练数据有明确的输入(X)和输出(Y)）。学习目标是找到一个映射(f(X)\approxY)。适用于分类和回归问题。主要算法：分类（Classification）：逻辑回归（LogisticRegression）支持向量机（SVM）朴素贝叶斯（NaïveBa
Conda常用命令汇总（持续更新中） X-future426 conda linux 运维
原文章：安装和使用Miniconda来管理Python环境-CSDN博客一、Miniconda的使用Miniconda没有GUI界面，只能通过conda命令对Python环境和软件包进行管理，所以这里主要介绍一下conda的常用命令。1.Conda相关(1)查询conda版本conda--version(2)更新conda版本condaupdateconda2.环境管理(1)查询已创建的虚拟环境c
大模型学习终极指南：从新手到专家的必经之路，全网最详尽解析，你敢挑战吗？大模型入门教程学习人工智能 AI 大模型大模型学习大模型教程 AI大模型
随着人工智能技术的飞速发展，大模型（Large-ScaleModels）已经成为推动自然语言处理（NLP）、计算机视觉（CV）等领域进步的关键因素。本文将为您详细介绍从零开始学习大模型直至成为专家的全过程，包括所需掌握的知识点、学习资源以及实践建议等。无论您是初学者还是有一定基础的专业人士，都能从中获得有价值的指导。一、基础知识准备在开始学习大模型之前，需要先掌握一些基础知识，这些知识将为后续的学
Ubuntu实时读取音乐软件的音频流冬瓜~ Linux开发 ubuntu 音视频数据库 portaudio
文章目录一.前言二.开发环境三.具体操作四.实际效果一.前言起因是这样的，我需要在Ubuntu中，实时读取正在播放音乐的音频流，然后对音频进行相关的处理。本来打算使用的Pipewire+Helvum的方式实现，好处是可以直接利用Helvum图形化工具对软件输出的音频进行重定向，但是由于使用的是Ubuntu20.04，默认的音频服务器使用的是PulseAudio，替换为Pipewire后，播放的音频
Python 爬虫实战：从知乎盐选专栏，爬取优质内容付费数据西攻城狮北 python 爬虫开发语言实战案例知乎
目录一、前言二、准备篇2.1确定目标2.2工具与库2.3法律与道德声明三、实战篇3.1分析知乎盐选专栏页面3.2模拟登录3.3获取文章列表3.4爬取更多文章数据3.5数据存储四、分析篇4.1数据清洗4.2热门文章分析4.3收藏数分析4.4评论数分析五、总结与展望六、注意事项一、前言知乎盐选专栏作为知乎平台上的优质内容付费板块，汇聚了众多创作者的高质量文章。了解这些文章的付费数据，如点赞数、收藏数、
机器学习——KNN超参数练习AI两年半机器学习人工智能深度学习
sklearn.model_selection.GridSearchCV是scikit-learn中用于超参数调优的核心工具，通过结合交叉验证和网格搜索实现模型参数的自动化优化。以下是详细介绍：一、功能概述GridSearchCV在指定参数网格上穷举所有可能的超参数组合，通过交叉验证评估每组参数的性能，最终选择最优参数组合。其核心价值在于：自动化调参：替代手动参数调试，提升效率3。交叉验证支持：通
Python 常用函数全解析，轻松提升编码效率 jiajia651304 python 开发语言 windows
Python常用函数全解析，轻松提升编码效率Python常用函数全解析，轻松提升编码效率1.基础内置函数1.1`print()`与`input()`1.2`len()`、`type()`与`isinstance()`2.数学与数值处理函数2.1`abs()`、`round()`与`pow()`2.2`divmod()`与`max()/min()`3.序列与迭代相关函数3.1`range()`与`e
编程内容简述！恶霸不委屈开发语言青少年编程汇编 java python
编程是指通过计算机语言来开发软件、程序和应用的过程，通常通过编写一系列的指令，来让计算机完成特定的任务。编程可以涉及多个领域和技术，以下是一些主要的编程内容：1.编程语言编程语言是程序员与计算机进行沟通的桥梁，不同的编程语言适用于不同的任务。常见的编程语言有：Python：简单易学，适用于数据分析、人工智能、网页开发等。JavaScript：网页开发中不可或缺的语言，用于动态网页和前端开发。Jav
新手如何使用 Milvus 巴依老爷coder 数据库 milvus 向量数据库数据库
一文带你入门Milvus：详细指南新手如何使用Milvus：详细指南一、Milvus简介主要特点应用领域二、安装Milvus安装DockerCompose基于DockerCompose安装Milvus服务端安装attu-可视化界面工具三、快速入门安装PythonSDK连接数据库方式1方式2（方式1的封装）数据库操作核心概念集合操作数据操作插入数据精准查询数据-get条件查询数据-query查询数据
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1