$深度不学习\doge$

深度不学习\doge

深度学习中的优化器原理总结（经典+前沿）

前言

一、梯度下降的思想与批梯度下降法

1.随机梯度下降法

2.标准梯度下降法

3.批梯度下降法

二、经典的五类优化器

1.SGD

2.SGDM（SGD with momentum）

3.Adagrad

4.RMSProp

5.Adam

三、前沿方法

1.AMSGrad

2.AdaBound

3.SWAT

4.Cyclical LR/SGDR/One-cycle LR

5.RAdam

6.Lookahead

7.SGDWM/AdamW

8.一些帮助优化的方法

四、总结

前言

本文介绍了经典和前沿的深度学习中的优化器（优化算法）。文章整体思路、图片、公式均源自李宏毅2020机器学习深度学习(完整版)国语_哔哩哔哩_bilibili。Optimization部分在网课中是由课程助教讲解的选学课程，难度较大（我在第一次学习的时候甚至连Adam算法都没有理解，就匆匆跳过了课程）。之所以整理出该文章，一方面用于以后自己经常回顾，一方面希望可以帮助向曾经的我一样被直接劝退的朋友们。视频中Adagrad、RMSProp等算法等讲解得过快，我在文中写入了自己对不同算法的理解、思考以及直观上的分析，如果能恰好帮助你理解，并与网课视频相互补充，那我将十分荣幸。

本文分为三个部分，第一个部分介绍梯度下降的思想及实际训练模型常用的批梯度下降法，第二部分介绍了五种经典的算法，第三部分介绍了一些前沿算法。在第二三部分的介绍中，每种算法在介绍时以算法的优势、步骤和直观理解为主，不讨论其理论性质的证明。

无论是DNN还是CNN，都追求模型预测值和真实值间的差异最小化，通常构造损失函数来度量这种差异（如回归问题中的平方损失，分类问题中的交叉熵损失），损失函数是模型参数的函数。因此，我们一定会面临一个最小化问题，目标函数是损失函数，决策变量是模型参数。于是，我们需要优化算法来求解这个最小化问题，梯度下降法或者说它的思想贯穿着深度学习优化算法的始终。

一、梯度下降的思想与批梯度下降法

梯度下降是经典的优化算法，它的思想是：参数在更新时始终朝着目标函数（最小化问题）下降最快的方向移动，而这个方向就是梯度（梯度是上升最快的方向）的反方向，用公式可以表达为

$\theta _{t}=\theta _{t-1}-\eta \triangledown{L(\theta _{t-1})}$

$\small \triangledown{L(\theta _{t-1})}$ 是损失函数 $\small L$ 对第 $\small t-1$ 时刻的参数 $\small \theta _{t-1}$ 的梯度， $\small \eta$ 学习率是一个超参数，需要人为设定，通常设为0.001、0.01等。

算法的流程非常简单：初始化参数向量 $\small \theta _{0}$ ，然后根据该公式不断更新梯度，使得损失函数收敛到较低水平时停止。

基于梯度下降优化算法的思想，通常有三种不同的模式来训练模型，分别是：随机梯度下降，标准梯度下降法，和批梯度下降法：

1.随机梯度下降法

每次只使用一个训练集样本来更新参数。该方法的不足是参数更新不够稳定，收敛速度较慢，这是因为一个样本很难代表整体，每次更新只是减小了该样本的损失函数值，却可能造成在其他样本上损失函数值的增大。

2.标准梯度下降法

每次利用全部训练集样本来更新参数。该方法虽然直观上解决了上述问题，但通常深度学习问题的数据量庞大，一次性将全部数据丢计算机进行训练几乎是不可能的。其次，由于包括了所有样本，不同样本对参数更新的影响可能会相互抵消，使得参数每轮更新值都很小。

3.批梯度下降法

批梯度下降法是对上述两种方法的集中，明显规避了两种方法的缺点，成为现在几乎一定会使用的方法。该方法就是将数据集分成几个批（batch），每个batch的数据量根据实际数据量的大小由自己定义，每次丢进一个batch进入模型进行训练。

二、经典的五类优化器

1.SGD

见一，1。（虽然算法名叫随机梯度下降，但实际上，仍然采用的是mini-batch gradient descent，批梯度下降法。无论采用什么优化器，都需要用用mini-batch的方式训练。）

2.SGDM（SGD with momentum）

随机梯度下降法虽然有效，但容易陷入局部最小值点，甚至在驻点附近以及梯度值非常小的点附近时参数更新极为缓慢。为了改进这个缺点，引入物理中动量的概念，参数更新量 $\small m _{t}$ ，是当前梯度的方向 $\small g_{t}$ ，和上一次参数更新方向 $\small m _{t-1}$ 的线性组合。算法如下：

①初始化参数 $\small \theta = \theta _{0}, m _{0} =0, \eta ,t=0$ ；

②计算当前梯度： $\small g_{t}= \triangledown{L(\theta _{t})}$ ；

③更新参数移动量：

$\nu _{t+1}=\lambda m _{t}+\eta g_{t}$

④更新参数： $\small \theta _{t+1}=\theta _{t}-m _{t+1}$

⑤ $\small t=t+1$ ,返回步骤②，直到达到某终止条件。

下图是参数是以一维的情况下，动量法的直观示意。可以看到在局部最小值点时，虽然真实的梯度为0，但由于惯性(上一时刻的动量方向）存在，参数仍然会朝着原有方向更新，也就有了冲出局部最小值的可能。

3.Adagrad

Adagrad算法的公式如下：

①初始化参数 $\small \theta = \theta _{0}, \eta, t=0$ ；

②计算当前梯度： $\small g_{t}= \triangledown{L(\theta _{t})}$ ；更新参数：

$\theta _{t+1}=\theta _{t}-\frac{\eta }{\sqrt{\sum_{i=1}^{t}g_{i}^{2}}} g_{t}$

③ $\small t=t+1$ ,返回步骤②，直到达到某终止条件。

观察步骤二参数更新公式中的式子

$\small \frac{g_{t}}{\sqrt{\sum_{i=1}^{t}g_{i}^{2}}}\eta$

可以发现，除了第一次更新时的更新量为 $\small \eta$ ，其余时刻的更新量都小于 $\small \eta$ ，是一个介于0到 $\small \eta$ 之间的数。如果新的梯度很大，则更新量大（接近 $\small \eta$ ），否则更新量小（接近0）。

直观上来讲，更新量是新的梯度的平方占累积梯度平方和的比例开根号乘以 $\small \eta$ ，它的意义在于使得不同参数的更新处于同一维度之下，从下图可以体现出来。

可以看出，在给定的参数点上，在 $\small \omega _{1}$ 方向上的导数大于 $\small \omega _{2}$ 方向的导数。如果采用传统的SGD方法，参数更新的方向将是橙色线的方向。而如果是采用Adagrad算法，由于 $\small \omega _{1}$ 方向上的累积导数和也很大，这使得两个参数方向对最终的更新方向的贡献几乎相等，此时更新的方向大概是红色线的方向，这是更符合我们直观想法的。

4.RMSProp

Adagrad算法和RMSProp算法都称为自适应算法。自适应算法的意思就是，学习率随着更新次数而改变。Adagrad算法虽然在上述简单的例子中有直观解释，但实际的损失函数通常很复杂。且发现当t很大时，Adagrad下参数将几乎不再更新。可以假设，对任意t， $\small g_{t}$ 相同，此时参数的更新量将以 $\small O(\sqrt{1/t})$ 阶减小。为了改变这一劣势，提出RMSProp算法。RMSProp算法如下：

①初始化参数 $\small \theta = \theta _{0}, \eta, \nu _{0}=0,t=0$ ；

②计算： $\small g _{t}= \triangledown{L(\theta _{t})} ,$ $\small \nu _{_{t+1}}=\alpha \nu _{_{t}}+(1-\alpha )g _{_{t}}^{2}$ ;

③更新参数：

$\theta _{t+1}=\theta _{t}-\frac{\eta }{\sqrt{^{\nu _{t+1}}}} g_{t}$

④ $\small t=t+1$ ，返回步骤②，直到达到某终止条件。

将步骤二中的 $\small \nu _{_{t+1}}$ 展开得到：

$\small \nu _{t+1}=\alpha ^{t}(1-\alpha)g_{0}^{2}+\alpha ^{t-1}(1-\alpha)g_{1}^{2}+...+\alpha ^{1}(1-\alpha)g_{t-1}^{2}+(1-\alpha)g_{t}^{2}$

可以看到，与Adagrad相比，分母中过去的梯度值平方的权重已经由等权（权重均为1），变为指数加权。此时参，参数更新量的上界为 $\small \eta \sqrt{1/(1-\alpha) }$ 。随着更新次数的增加，对于相同的 $\small t,g_{1},g_{2},...,g_{t}$ ，RMSProp算法的参数更新量 $\small \eta g_{t}/\sqrt{v_{t+1}}$ 大于Adagrad算法，解决了过快收敛的问题。

5.Adam

Adam算法是RMSProp算法与SGDM算法的结合，其既是有着自适应学习率，又能引入了动量机制在一定程度上减小参数陷入局部最有点的可能性。其是应用最为广泛的深度学习优化器之一，算法步骤如下：

①初始化参数： $\small \theta = \theta _{0}, \eta, \nu _{0}=0,m _{t}=0,t=0$

②计算梯度： $\small g _{t}= \triangledown{L(\theta _{t})}$

③更新 $\small m _{t+1}$ ：

$\small m _{t+1}=\beta _{1}m _{t}+(1-\beta _{1})g _{t}$

④更新 $\small \nu _{t+1}$ ：

$\small \nu _{t+1}=\beta _{2}\nu _{t}+(1-\beta _{2})g _{t}^{2}$

⑤更新参数

$\theta _{t+1}=\theta _{t}-\frac{\eta }{\sqrt{\hat{\nu}_{t+1}} +\varepsilon }\hat{m}_{t+1}$

其中，

$\hat{m}_{t+1}=\frac{m_{t+1}}{1-\beta _{1}^{t}}$

$\hat{\nu} _{t+1}=\frac{\nu_{t+1}}{1-\beta _{2}^{t}}$

$\small t=t+1$ ,返回步骤二，直到满足某终止条件。

步骤④中的 $\hat{m}_{t+1},\hat{\nu} _{t+1}$ 是 ${m}_{t+1},{\nu} _{t+1}$ 的估计量，其修正了偏差，以得到更好的理论性质； $\varepsilon$ 是为了防止前几次计算梯度为0时，参数更新量的分母为0。通常设置： $\small \beta _{1}=0.9,\beta _{2}=0.999,\varepsilon =1e-8$ .

三、前沿方法

一些前沿方法相继被提出，大部分是以上经典算法的改进、组合等。

1.AMSGrad

算法步骤上，在ADAM算法基础上进行了改进：

①初始化参数： $\small \theta = \theta _{0}, \eta, \nu _{0}=0,m _{t}=0,t=0$

②计算梯度： $\small g _{t}= \triangledown{L(\theta _{t})}$

③更新 $\small m _{t+1}$ ：

$\small m _{t+1}=\beta _{1}m _{t}+(1-\beta _{1})g _{t}$

④更新 $\small \nu _{t+1}$ ：

$\small \nu _{t+1}=\beta _{2}\nu _{t}+(1-\beta _{2})g _{t}^{2}$

⑤更新参数

$\theta _{t+1}=\theta _{t}-\frac{\eta }{\sqrt{\hat{\nu}_{t+1}} +\varepsilon }{m}_{t+1}$

其中，

$\hat{\nu} _{t+1}=max(\hat{\nu} _{t},{\nu} _{t+1})$ .

该算法的改进点在于 $\hat\nu _{t+1}$ 。可以看出AMSGrad法的 $\hat\nu _{t+1}$ 随着t的增加一直在递增，而Adam法中的 $\hat\nu _{t+1}$ 是有可能减小的。若 $\small \hat{\nu} _{t+1}={\nu} _{t+1}$ ，则参数更新量约等于ADAM算法；若 $\hat{\nu} _{t+1}=\hat{\nu} _{t}$ ，则参数更新量小于ADAM算法。

到后期，梯度值较小时， $\hat\nu _{t+1}$ 将保持不变， $\eta/(\sqrt{\hat{\nu}_{t+1}}+\varepsilon )$ 是常数，此时更新量的大小只取决于 ${m}_{t+1}$ 的大小。

2.AdaBound

方法提出者在测试Adam算法时发现在更新参数时，更新量要么很大要么很小，因此提出了一个Bound的方法，控制每次的更新量不超过某个范围。

关键步骤为：

$\theta _{t+1}=\theta _{t}-Clip(\frac{\eta }{\sqrt{\hat{\nu}_{t+1}+\varepsilon} })\hat{{m}}_{t+1}$

$Clip(x)=Clip(x,0.1-\frac{0.1}{(1-\beta _{2})t+1},0.1+\frac{0.1}{(1-\beta _{2})t+1})$

3.SWATS

一些研究发现，通常SGDM算法收敛速度较慢但稳定，ADAM算法收敛速度快但较不稳定，同时SGDM算法的收敛结果要好于ADAM。也就是SGDM算法虽然收敛得慢，但能够得到更低得损失函数值。

因此，想到可以结合二者得优点。训练时，先用ADAM算法使得损失函数快速下降，再使用SGDM法寻找更低的损失函数，这就是SWAT法。但该方法并没有给出一种通用的准则来决定：①何时切换两种方法②切换到SGDM时，学习率如何设置。因此，该方法更多是一种思路，对于不同问题需要不断尝试，且尝试成本较大。

4.Cyclical LR/SGDR/One-cycle LR

这一类方法的思想是，SGDM之所以更新参数速度较慢，是因为学习率恒定，因此尝试在SGDM方法上加上一个人为的动态的学习率。典型的三种方法是Cyclical LR、SGDR和One-cycle LR，它们的学习率随着迭代次数的变化的形状依次见以下三幅图。

前两种方法的学习率变化具有周期性，而最后一种不具有周期性，因此称为One-cycle。

5.RAdam

有研究发现Adam算法在前几代，所有参数的梯度值的方差较大，而在中后期梯度值的分布逐渐趋于稳定。为了防止梯度值比较散乱时，参数在错误的方向上更新量过大，采用一种热身（warm-up）的方法，在更新初期采用小的学习率，在后期采用大的学习率（One-cycle LR方法学习率图像中前期线性增长的部分就可以看作是一种warm-up）。

RAdam方法的warm-up通过 $r_{t}$ 来控制， $r_{t}$ 逐渐从0增加到1。

$r_{t}$ 的公式和图像分别为：

$\rho _{t}=\rho _{\infty }-\frac{2t\beta _{2}^{t}}{1-\beta _{2}^{t}}$

$\rho _{\infty }=\frac{2}{1-\beta _{2}}-1$

$r_{t}=\sqrt{\frac{(\rho _{t}-4)(\rho _{t}-2)\rho _{\infty }}{(\rho _{\infty }-4)(\rho _{\infty }-2)\rho _{t}}}$

参数更新的公式为：

当 $\rho _{t}\leq 4$ 时，

$\theta _{t+1}=\theta _{t}-\eta\hat{m}_{t}$

当 $\rho _{t}> 4$ 时，

$\theta _{t+1}=\theta _{t}-\frac{r_{t+1}\eta }{\sqrt{\hat{\nu}_{t+1}} +\varepsilon }$

因为只有当 $\rho _{t}> 4$ 时， $r_{t}$ 才存在，因此当 $\rho _{t}\leq 4$ ， $r_{t}$ 不存在时，先采用SGDM法更新参数。

对比一下RADAM和SWAT方法：

提出动机：RADAM的提出动机是，ADAM更新参数初期， $\small g _{t}$ 估计不准，导致 ${\nu}_{t+1}$ 估计不准，因此采用warm-up的方法，用 $r_{t}$ 乘原本的更新量， $r_{t}$ 逐渐从0增加到1；而SWAT提出动机是ADAM前期训练效率高，损失函数降的快，SGDM训练效率慢，但收敛效果好。
具体做法：RADAM是先用SGDM（因为前期 $r_{t}$ 不存在），再用warm-up的ADAM；SWAT是先用ADAM，再用SGDM。
切换点：RADAM算法中，当 $r_{t}$ 存在时，从SGDM切换到warm-up的ADAM；SWAT算法中，人为凭经验给定一个切换时刻，从ADAM切换至SGDM。

6.Lookahead

Lookahead方法是一种优化策略，可以与以上提出的任何一种优化方法相结合。该策略的思想是：向前走k步，向后退一步（k step forward，1step back）。

正如同下面第一张图的公式。首先，在外层循环中设置快参数 $\theta _{t,0}$ 和慢参数 $\phi _{t-1}$ 的初始值相同，然后利用某种优化算法比如SGD算法更新快参数k步（对应下面图二中蓝色虚线从左下到右上的路径），接着更新慢参数，取慢参数为慢参数起始点和快参数终止点连线的中间某一点（对应下面图二从左下到右上的红色直线上的红色三角）。

下图是训练后期测试集准确率随训练代数更新的变化，纵轴是测试集准确率，横轴是训练代数。可以看到每个周期前k步，测试集准确率将快速下降（在数据量较少的情况下，如果一直训练，会过拟合的现象，到训练后期时，虽然训练集准确率可能不降低，但测试集准确率会下降，如图中每条蓝线所示），而第k+1步由于回退，测试集准确率保持在较高水平。

因此，我认为这个方法能很大程度延缓过拟合的到来，在与过拟合的“抗争"与“拉扯”中，试图找到更好的参数值。

7.SGDWM/AdamW

通常为了防止过拟合，我们会在原来的损失函数 $L(\theta)$ 的基础上加上二范数正则项 $1/2\gamma \left \| \theta \right \|^{2}$ :

$L_2(\theta)=L(\theta)+1/2\gamma \left \| \theta \right \|^{2}$

此时，参数在 $\theta _{t-1}$ 处的梯度由 $\triangledown L(\theta _{t-1})$ 变为 $\triangledown L(\theta _{t-1})+\gamma \theta _{t-1}$ 。

因此，在基于梯度下降法更新参数时，自然要利用新的梯度进行更新，但对于SGDM法和Adam法来说， $m _{t}$ 和 $\nu _{t}$ 的更新是否需要使用新的梯度呢？如果按照公式来讲，理论上就应该是使用新的梯度。但2017年，有学者表明，在SGDM算法更新 $m _{t}$ ，以及Adam算法更新 $m _{t}$ 和 $\nu _{t}$ 的过程中使用原梯度 $\triangledown L(\theta _{t-1})$ （即不加正则项的梯度）效果会更好。

于是便有了SGDWM和AdamW算法，如下图所示：

8.一些帮助优化的方法

Shuffling：做mini-batch时每次打乱数据顺序，保证batch样本的随机性，从而保证梯度更新的随机性。
Dropout：DNN中，使得一部分神经元随机失活。
Gradient noise：给梯度增加独立的随机正太噪声，噪声方差随时间t的增加而减小。

$g_{t,i}=g_{t,i}+N(0,\sigma _{t}^{2})$

$\sigma _{t}=\frac{c}{(1+t)^{\gamma }}$

Warm-up：学习率逐渐增加。
Curriculum learning：先用干净数据训练模型，再用复杂数据（有噪声数据）训练模型。
Fine-tuning：用训练好的参数（可以从已训练好的模型中获得）初始化自己的网络，然后用自己的数据接着训练，参数的调整方法与from scratch训练过程一样（梯度下降）。
Normalization:批归一化等。

四、总结

以上方法总结为下图（NAG方法数学推导实在过于复杂，没有进行介绍）：

应用最为广泛的两种方法SGDM和Adam的不同应用领域：

串---暴力字符串匹配算法实现 KYGALYX 数据结构算法数据结构
暴力字符串匹配算法详解暴力字符串匹配算法（BruteForceStringMatchingAlgorithm）是一种简单的字符串匹配算法，它通过逐个比较主串中的字符与模式串中的字符来进行匹配。虽然这种方法简单直观，但在最坏情况下可能需要多次比较，导致效率较低。本文档将详细介绍暴力字符串匹配算法的原理、步骤以及如何在C语言中实现。1.暴力字符串匹配算法原理1.1主串与模式串主串：待搜索的字符串。模式
搜索领域SEO进阶：内容优化与用户体验提升搜索引擎技术 ux ai
搜索领域SEO进阶：从关键词堆砌到用户价值——内容优化与体验升级的实战指南关键词SEO进阶、内容质量、用户体验、E-E-A-T、用户行为信号、结构化数据、页面速度优化摘要当“SEO=关键词堆砌”的时代成为历史，当搜索引擎算法从“识别文字”进化到“理解意图”，SEO从业者正面临一场从“技术投机”到“用户价值”的范式转移。本文将深度拆解搜索领域的进阶策略：从内容优化的核心逻辑（E-E-A-T框架、主题
2023年搜索领域的技术认证与职业发展指南搜索引擎技术搜索引擎 ai
2023年搜索领域的技术认证与职业发展指南关键词搜索领域、技术认证、职业发展、搜索引擎技术、人工智能搜索摘要本指南旨在为搜索领域的从业者和有志于进入该领域的人士提供全面的技术认证与职业发展参考。首先介绍搜索领域的概念基础，包括其历史发展和关键问题。接着阐述相关理论框架，分析不同认证背后的原理。架构设计部分展示搜索系统的组成与交互。实现机制探讨算法复杂度和代码优化。实际应用部分给出实施和部署策略。高
LRU缓存算法在搜索引擎中的应用数据结构与算法学习缓存算法搜索引擎 ai
LRU缓存算法在搜索引擎中的应用关键词：LRU算法、缓存淘汰、搜索引擎、哈希表、双向链表、性能优化、访问频率摘要：本文深入探讨了LRU(最近最少使用)缓存算法在搜索引擎中的关键应用。我们将从基本概念出发，通过生活化的比喻解释LRU的工作原理，分析其在搜索引擎架构中的具体实现方式，并通过Python代码示例展示如何构建一个高效的LRU缓存系统。文章还将讨论LRU算法的数学建模、实际应用场景以及未来发
探索AI人工智能医疗NLP实体识别系统的架构设计 AI学长带你学AI 人工智能自然语言处理 easyui ai
探索AI人工智能医疗NLP实体识别系统的架构设计关键词：人工智能、医疗NLP、实体识别、系统架构、深度学习、自然语言处理、医疗信息化摘要：本文将深入探讨医疗领域NLP实体识别系统的架构设计。我们将从基础概念出发，逐步解析医疗文本处理的特殊性，详细介绍实体识别技术的核心原理，并通过实际案例展示如何构建一个高效可靠的医疗实体识别系统。文章还将探讨当前技术面临的挑战和未来发展方向，为医疗AI领域的从业者
python系列之：使用md5和sha256完成签名认证，调用接口快乐骑行^_^ 前端和后端开发 python系列使用md5和sha256 完成签名认证调用接口
python系列之：使用md5和sha256完成签名认证，调用接口MD5签名和sha256签名认证md5认证代码sha256认证代码拼接签名生成签名拼接url调用接口MD5签名和sha256签名认证MD5签名认证算法特性：生成128位(16字节)的哈希值计算速度快已被证明存在碰撞漏洞(不同输入可能产生相同输出)签名认证流程：发送方对原始数据计算MD5哈希值将哈希值附加到数据中发送接收方重新计算接收
人工智能动画展示人类的特征 AGI大模型与大数据研究院 AI大模型应用开发实战 java python javascript kotlin golang 架构人工智能
人工智能，动画，人类特征，情感识别，行为模拟，机器学习，深度学习，自然语言处理1.背景介绍人工智能（AI）技术近年来发展迅速，已渗透到生活的方方面面。从智能语音助手到自动驾驶汽车，AI正在改变着我们的世界。然而，尽管AI技术取得了令人瞩目的成就，但它仍然难以完全模拟人类的复杂行为和特征。人类的特征是多方面的，包括情感、认知、社交和创造力等。这些特征是人类区别于其他生物的重要标志，也是人类社会文明发
零基础数据结构与算法—— 第三章：高级数据结构-总结 qqxhb 零基础数据结构与算法小学生编程算法数据结构算法树堆哈希表图
3.1树（上）3.1树（下）3.2堆（Heap）3.3哈希表（HashTable）3.4图（Graph）3.5高级树结构3.6本章小结在本章中，我们深入学习了几种重要的高级数据结构，这些数据结构在解决复杂问题时具有强大的能力。让我们回顾一下本章的主要内容：1.堆（Heap）堆是一种特殊的完全二叉树，具有堆序性质。我们学习了：最大堆和最小堆的概念和性质堆的基本操作（插入、删除堆顶、获取堆顶、构建堆）
推客系统全栈开发指南：从架构设计到商业化落地 ywyy6798 系统小程序分销系统短剧系统海外短剧系统推客系统推客小程序
一、推客系统概述推客系统（TuiKeSystem）是一种结合社交网络与内容分发的创新型平台，旨在通过用户间的相互推荐机制实现内容的高效传播。这类系统通常包含用户关系管理、内容发布、智能推荐、数据分析等核心模块，广泛应用于电商导购、知识分享、新闻资讯等领域。推客系统的核心价值在于：利用社交关系链实现内容病毒式传播通过激励机制提升用户参与度基于用户行为数据优化推荐算法构建内容生产者与消费者的良性互动生
推客系统开发：从0到1构建高效社交化推荐引擎 wx_ywyy6798 推客系统分销系统海外短剧系统推客小程序推客系统开发推客小程序开发推客分销系统
在信息爆炸的时代，如何让用户快速获取感兴趣的内容？推客系统（推荐引擎）成为解决这一问题的核心方案。无论是电商、内容平台还是社交应用，精准的推荐算法都能显著提升用户粘性和转化率。本文将带您了解推客系统的核心模块与开发要点，助您快速构建高效的推荐体系。一、推客系统的核心价值个性化体验：基于用户行为数据（浏览、点赞、收藏等）生成定制化推荐。流量高效分发：解决“信息过载”问题，提升内容/商品的曝光率。商业
《支持向量机（SVM）在医疗领域的变革性应用》 CodeJourney. 支持向量机算法机器学习
在医疗科技日新月异的今天，先进的数据分析与机器学习技术正逐渐成为提升诊疗水平、助力医学研究的关键力量。支持向量机（SVM），凭借其独特的优势，在医疗这片复杂且对精准度要求极高的领域崭露头角，带来诸多令人瞩目的应用成果。一、疾病诊断：癌症早期筛查的“火眼金睛”癌症，作为全球健康的“头号杀手”，早期诊断对提升患者生存率意义非凡。在乳腺癌筛查领域，SVM发挥着重要作用。医疗科研人员收集大量乳腺组织的影像
202505架构师论文《论静态负载均衡策略设计和应用》文琪小站系统架构师软考论文负载均衡运维软考论文
软件架构师论文范文系列摘要在当今高度依赖信息技术的时代，构建高性能、高可用的分布式系统已成为必然趋势。负载均衡作为分布式系统中的关键技术，旨在将请求或数据有效地分发到多个处理单元，以优化资源利用率、提升系统吞吐量并确保服务的稳定运行。本文深入探讨了静态负载均衡策略的设计原理、技术特点及其在实际项目中的应用。首先，概述了负载均衡的整体概念及静态策略的分类，重点介绍了基于哈希、轮询和权重等静态算法的实
机器学习20-线性网络思考坐吃山猪机器学习机器学习人工智能线性网络
机器学习20-线性网络思考针对线性网络的基础问题，使用基础示例进行解释1-核心知识点1-线性模型家族的线性回归和逻辑回归分别是什么，线性模型家族还有没有其他的模型线性模型家族是一系列基于线性假设的统计模型，它们假设因变量和自变量之间存在线性关系。线性模型家族中的两个最常见模型是线性回归和逻辑回归。线性回归（LinearRegression）:线性回归是一种用于预测连续因变量的模型。它假设因变量yy
机器学习18-强化学习RLHF 坐吃山猪机器学习机器学习人工智能
机器学习18-强化学习RLHF1-什么是RLHFRLHF（ReinforcementLearningfromHumanFeedback）即基于人类反馈的强化学习算法，以下是详细介绍：基本原理RLHF是一种结合了强化学习和人类反馈的机器学习方法。传统的强化学习通常依赖于预定义的奖励函数来指导智能体的学习，而RLHF则通过引入人类的反馈来替代或补充传统的奖励函数。在训练过程中，人类会对智能体的行为或输
机器学习19-Transformer和AlexNet思考坐吃山猪机器学习机器学习 transformer 人工智能
Transformer和AlexNet思考关于Transformer和AlexNet发展的一些思考1-核心知识点Word2Vec的作用是什么，和Transformer的诞生有什么关系吗？AlexNet的主要核心思路是什么，为什么表现那么好？现在有什么比AlexNet更优秀的算法2-思路整理1-Word2Vec的作用是什么，和Transformer的诞生有什么关系吗？Word2Vec的作用Word2
机器学习21-线性网络思考坐吃山猪机器学习机器学习人工智能线性网络
机器学习21-线性网络思考针对线性网络的发展问题，进行补充学习1-核心知识点1-传统机器学习针对线性分类算法求解的方式有哪些？请详细列举不同的算法对应的损失函数和计算思路在传统机器学习中，线性分类算法是一种非常重要的方法，用于将数据划分为不同的类别。以下是几种常见的线性分类算法，包括它们的损失函数和计算思路：1.感知机（Perceptron）损失函数感知机的损失函数是基于误分类点的，其目标是最小化
巧用云平台API实现开源模型免费调用的实战教程 herosunly AIGC 人工智能大模型 API 实战教程
大家好，我是herosunly。985院校硕士毕业，现担任算法工程师一职，获得CSDN博客之星第一名，热衷于大模型算法的研究与应用。曾担任百度千帆大模型比赛、BPAA算法大赛评委，编写微软OpenAI考试认证指导手册。曾获得多项AI顶级比赛的Top名次，其中包括阿里云、科大讯飞比赛第一名，CCF、开放原子比赛二等奖。在技术创新领域拥有多项授权发明。曾辅导多位非科班出身的同学成功进入算法行业就业
搜索之BFS Luther coder 宽度优先 c++
目录一.BFS简介二.BFS主要应用和实现三.典型例题（1）P1443马的遍历-洛谷（2）P8693[蓝桥杯2019国AC]大胖子走迷宫-洛谷四.总结一.BFS简介BFS(图论)：广度优先搜索,是一种用于遍历或搜索树或图的算法。所谓广度优先，就是说按照圈层搜索。二.BFS主要应用和实现在搜索算法中，该BFS常常指利用队列实现广度优先搜索，从而寻找最短距离。与图论中的BFS算法有一定相似之处，但并不
数据结构与算法：贪心（二）
前言要加快速度啊！！一、最短无序连续子数组classSolution{public:intfindUnsortedSubarray(vector&nums){intn=nums.size();intMax=-1e9;intright=-1;//最右不符合的位置for(inti=0;inums[i])//遇到不符合递增规律的数{right=i;}Max=max(Max,nums[i]);}intMi
Golang路由性能优化：提升Web应用响应速度 Golang编程笔记 Golang编程笔记 Golang开发实战 golang 性能优化前端 ai
Golang路由性能优化：提升Web应用响应速度关键词：Golang路由、性能优化、RadixTree、Web应用响应、路由匹配算法摘要：在Web应用开发中，路由是处理请求的"第一站"。路由性能直接影响用户体验——慢0.1秒可能流失10%的用户！本文以Golang为背景，从路由匹配的底层原理出发，结合生活案例、代码实战和性能测试，带你一步一步掌握路由优化的核心技巧。无论是刚接触Go的新手，还是想突
现代 C++ 容器深度解析及实践 mxpan c++c++开发语言
一、线性容器：std::array与std::forward_list1.std::array：固定大小的高效容器在传统C++中，数组与vector的抉择常让人纠结：数组缺乏安全检查，vector存在动态扩容开销。C++11引入的std::array完美平衡了两者优势：特性解析：编译期确定大小，内存连续分配，访问效率与C数组一致；封装了迭代器、size()、empty()等标准接口，兼容STL算法
python实现多元线性回归算法 (附完整源码) 源代码大师 python算法完整教程算法 python 线性回归
python实现多元线性回归算法1.使用正规方程实现多元线性回归代码说明运行结果示例2.使用梯度下降法实现多元线性回归代码说明运行结果示例进一步优化与注意事项下面是使用Python从头实现多元线性回归算法的完整源码。这个实现利用了numpy进行矩阵运算，并展示了如何训练模型、进行预测以及评估模型性能。为了更全面，代码中还包含了一个使用梯度下降法（GradientDescent）优化参数的实现。多元
深度学习篇---简单果实分类网络
下面我将提供一个使用Python从零实现果实分类模型的完整流程，包括数据准备、模型构建、训练和部署，不依赖任何深度学习框架，仅使用NumPy进行数值计算。1.数据准备与预处理首先需要准备果实图像数据集，将其分为好果和坏果两类，并进行预处理：importosimportnumpyasnpfromPILimportImagefromsklearn.model_selectionimporttrain_
YOLO学习笔记｜从YOLOv5到YOLOv11：技术演进与核心改进北斗猿 YOLO学习从零到1 YOLO 目标检测算法 python 计算机视觉
从YOLOv5到YOLOv11：技术演进与核心改进深度解析一、YOLO系列发展概述YOLO（YouOnlyLookOnce）目标检测算法自2016年诞生以来，凭借其"单次检测"的独特理念和卓越的实时性能，持续引领着计算机视觉领域的技术革新。从JosephRedmon的初代YOLO到AlexeyBochkovskiy的YOLOv4，再到Ultralytics团队的YOLOv5及后续系列，这一算法家族
Python深度学习：3步实现AI人脸识别，效果堪比专业软件！小筱在线 python 人工智能 python 深度学习
引言：AI人脸识别的时代已经到来在当今数字化时代，人脸识别技术已经从科幻电影走进了我们的日常生活。从手机解锁到机场安检，从银行身份验证到智能门禁系统，这项技术正以前所未有的速度改变着我们的生活方式。而令人振奋的是，借助Python和深度学习技术，普通人也能构建出专业级的人脸识别系统。本文将带领您通过三个关键步骤，使用Python深度学习技术实现一个准确率高达99%的人脸识别系统。这个系统不仅原理简
贪心算法 greedy algorithm yuebo_zhao 算法 c++数据结构
贪心算法greedyalgorithm」是一种常见的解决优化问题的算法，其基本思想是在问题的每个决策阶段，都选择当前看起来最优的选择，即贪心地做出局部最优的决策，以期获得全局最优解。贪心算法简洁且高效，在许多实际问题中有着广泛的应用。贪心算法和动态规划都常用于解决优化问题。它们之间存在一些相似之处，比如都依赖最优子结构性质，但工作原理不同。动态规划会根据之前阶段的所有决策来考虑当前决策，并使用过去
2021.10.4 比赛题整理伍叁壹_ 比赛整理题解 c++
2021.10.42021CSPJ初二初一冲刺七链接集合总结炸了炸了。。T3半天做了个寂寞。对算法不熟悉。T1：简单思维题；T2：KMPnxt数组的运用；T3：二分+图，代码实现可用并查集；T4：四维树形dp。T1题意设a0←1a_0\gets1a0←1，an←ai+aja_n\getsa_i+a_jan←ai+aj（i，j在[0,n−1)[0,n-1)[0,n−1)范围内随机）。求对于给定的nn
应用程序性能优化：从操作系统到算法的全方位攻略 Spring_java_gg 性能优化性能优化算法
作为一名应用程序性能优化专家，我将带你踏上一段生动有趣的旅程，探索如何从操作系统、编程语言、数据库和算法四个方面提升你的应用性能。准备好了吗？让我们开始吧！1.操作系统层面的优化想象一下，操作系统就像是一个大型的调度中心，负责管理所有的资源和任务。为了让这个调度中心更加高效，我们可以采取以下措施：合理配置内核参数：调整操作系统的内核参数，如文件描述符限制、网络缓冲区大小等，可以显著提高应用的响应速
Spring AI 第二讲之 Chat Model API 第五节HuggingFace Chat
HuggingFaceInferenceEndpoints允许您在云中部署和提供机器学习模型，并通过API对其进行访问。开始使用有关HuggingFaceInferenceEndpoints的更多详细信息，请访问此处。前提条件添加spring-ai-huggingface依赖关系：org.springframework.aispring-ai-huggingface获取HuggingFaceAPI
贪心算法（GREEDY ALGORITHM）证明实践 m0_72431373 贪心算法算法 leetcode
基础概念贪心算法Formal的解释这里就不介绍了，有兴趣的直接去wikipedia上理解。简单地来说，贪心算法就是在某种规律下不断选取局部最优解，从而达到全局最优。《挑战程序设计竞赛》中有一个很直观的解释：一直向前！证明方法既然贪心算法是利用规律选取局部最优解，那么我们选取规律所得出的全局解就不一定是全局最优解。因此，我们需要证明，我们所选这个规律是可以得出一个全局最优解的。注意这里所谓的可以得出
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_

深度学习中的优化器原理总结（经典+前沿）

前言

一、梯度下降的思想与批梯度下降法

1.随机梯度下降法

2.标准梯度下降法

3.批梯度下降法

二、经典的五类优化器

1.SGD

2.SGDM（SGD with momentum）

3.Adagrad

4.RMSProp

5.Adam

三、前沿方法

1.AMSGrad

2.AdaBound

3.SWATS

4.Cyclical LR/SGDR/One-cycle LR

5.RAdam

6.Lookahead

7.SGDWM/AdamW

8.一些帮助优化的方法

四、总结

你可能感兴趣的:(深度学习,adam算法,随机梯度下降,rmsprop,机器学习)