zsffuture

深度学习 --- 优化入门二（SGD、动量(Momentum)、AdaGrad、RMSProp、Adam详解）

另在一篇文章中，我们介绍了随机梯度下降的细节以及如何解决陷入局部最小值或鞍点等问题。在这篇文章中，我们看看另一个困扰神经网络训练的问题，即病态曲率。

虽然局部最小值和鞍点可以阻止我们的训练，但是病态曲率可以使训练减慢到机器学习从业者可能认为搜索已经收敛到次优极小值的程度。让我们深入了解病理曲率是什么。

病态曲率

考虑以下损失轮廓。

病态曲率

你看，我们在进入以蓝色标记的山沟状区域之前随机开始。颜色实际上表示损失函数在特定点处的值有多大，红色表示最大值，蓝色表示最小值。我们想要达到最小值点，为此但需要我们穿过山沟。这个区域就是所谓的病态曲率。理解要为什么它被称为病态，让我们深入研究。下图是病态曲率放大后的图像，看起来像..

要理解这里发生的事情并不是很难。梯度下降沿着山沟的山脊反弹，向极小的方向移动较慢。这是因为脊的表面在W1方向上弯曲得更陡峭。

如下图，考虑在脊的表面上的一个点梯度。该点的梯度可以分解为两个分量，一个沿着方向w1，另一个沿着w2。梯度在w1方向上的分量要大得多，因此梯度的方向更靠近w1，而不是朝向w2（最小值位于其上）。

通常情况下，我们使用低学习率来应对这样的反复振荡，但在病态曲率区域使用低学习率，可能要花很多时间才能达到最小值处。事实上，有论文报告，防止反复振荡的足够小的学习率，也许会导致从业者相信损失完全没有改善，干脆放弃训练。

大概，我们需要找到一种方法，首先缓慢地进入病态曲率的平坦底部，然后加速往最小值方向移动。二阶导数可以帮助我们来到来到赖这一点一一。

牛顿法

下降梯度的英文一阶优化方法。它只考虑损失函数的一阶导数而不是较高的导数。这基本上意味着它没有关于损失函数曲率的线索。它可以判断损失是否在下降和速度有多快，但无法区分曲线是平面，向上弯曲还是向下弯曲。

上图三条曲线，红点处的梯度都是一样的，但曲率大不一样。解决方案？考虑二阶导数，或者说梯度改变得有多快。

使用二阶导数解决这一问题的一个非常流行的技术是牛顿法（Newton's Method）。为了避免偏离本文的主题，我不会过多探究牛顿法的数学。相反，我将尝试构建牛顿法的直觉。

牛顿法可以提供向梯度方向移动的理想步幅。由于我们现在具备了损失曲面的曲率信息，步幅可以据此确定，避免越过病态曲率的底部。

牛顿法通过计算海森矩阵做到这一点.Hessian矩阵是损失函数在所有权重组合上的二阶导数的矩阵。

黑森州提供了损失曲面每一点上的曲率估计。正曲率意味着随着我们的移动，损失曲面变得不那么陡峭了。负曲率则意味着，损失曲面变得越来越陡峭了。

注意，如果这一步的计算结果是负的，那就意味着我们可以切换回原本的算法。这对应于下面梯度变得越来越陡峭的情形。

然而，如果梯度变得越来越平坦，那么我们也许正向病态曲率的底部移动。这时牛顿算法提供了一个修正过的学习步幅，和曲率成反比。换句话说，如果损失曲面变得不那么陡峭，学习步幅就下降。

为何我们不常使用牛顿法？

你已经看到公式中的海森矩阵了.Hessian矩阵需要我们计算损失函数在所有权重组合上的梯度。也就是说，需要做的计算的数量级是神经网络所有权重数量的平方。

现代神经网络架构的参数量可能是数亿，计算数亿的平方的梯度在算力上不可行。

虽然高阶优化方法在算力上不太可行，但二阶优化关于纳入梯度自身如何改变的想法是可以借鉴的。虽然我们无法准确计算这一信息，但我们可以基于之前梯度的信息使用启发式算法引导优化过程。（这个大家可以看看神经网络与机器学习这本书，那里有详细的讲解，当然需要你拥有很好的数学基础和理解能力）

随机梯度下降（ Stochastic Gradient Descent，SGD ）

SGD的学习原理很简单就是选择一条数据，就训练一条数据，然后修改权值算法过程如下：

随机梯度下降法：

给定数据集 $X = \ left \ {x ^ 1，x ^ 2，...，x ^ n \ right \}$ ，数据集标记为： $Y = \ left \ {y ^ 1，y ^ 2，...，y ^ n \ right \}$ ，学习器为，学习率 $\α$

对于迭代足够多次

{

1.随机选择数据： $\ left \ {x ^ j，y ^ j \ right \}$

2.计算损失梯度： $\ bigtriangledown w = \ frac {\ partial L（y ^ j，f（x ^ j; w））} {\ partial w}$

3.修改权值： $w_i = w_ {i（old）} - \ alpha \ bigtriangledown w$

}

SGD算法在训练过程中很有可能选择被标记错误的标记数据，或者与正常数据差异很大的数据进行训练，那么使用此数据求得梯度就会有很大的偏差，因此SGD在训练过程中会出现很强的随机现象。如何解决呢？

可以多选择几个数据在一起求梯度和，然求均值，这样做的好处是即使有某条数据存在严重缺陷，也会因为多条数据的中和而降低其错误程度。在上述的的算法中，率学习 $\α$ 通常的英文固定的值，但是在实际中，我们通常希望学习率随着训练次数增加而减小，减小的原因上面也说了减少振荡，这里先给出一种调节学习率的公式：

$\ alpha _i =（1- \ frac {i} {k}）\ alpha _0 + \ frac {i} {k} b$

上面是线性学习率调整规则，通常ķ的取值和训练次数有关，如果训练次数为上百次，则ķ要大于100，而b的值可以粗略的设置为百分之一的初始学习率，学习率初始值一般作为超参数进行设置，一般采取尝试策略。

学习率最小批量梯度下降算法

初始化：

给定数据集 $X = \ left \ {x ^ 1，x ^ 2，...，x ^ n \ right \}$ ，数据集标记为： $Y = \ left \ {y ^ 1，y ^ 2，...，y ^ n \ right \}$ ，随机采样m条数据，训练周期k，学习率衰减最低值b，学习器为，初始学习率 $\ alpha_0$

训练：

对于

{

1.随机采样几条数据： $\ left \ {（x ^ 1，y ^ 1），...，（x ^ m，y ^ m）\ right \}$

2.计算采样数据平均损失梯度： $\ bigtriangledown w = \ frac {1} {m} \ sum_ {j = 1} ^ {m} \ frac {\ partial L（y ^ j，f（x ^ j; w））} {\ partial w}$

3.计算衰减学习率： $\ alpha _i =（1- \ frac {i} {k}）\ alpha _0 + \ frac {i} {k} b$

4.修改权值： $w_i = w_ {i（old）} - \ alpha_i \ bigtriangledown w_i$

}

效果如下图

动量学习法

和SGD一起使用的非常流行的技术称为Momentum。动量也不仅使用当前步骤的梯度来指导搜索，而是累积过去步骤的梯度以确定要去的方向。那么什么是动量学习法呢？

在物理学中，动量的英文与物体的质量、速度相关的物理量。一般而言，一个物体的动量指的的是这个物体在它运动方向上保持运动的趋势。动量是矢量这里我们可以把梯度理解成力，力是有大小和方向的，而且力可以改变速度的大小和方向，并且速度可以累积。这里把权值理解成速度，当力（梯度）改变时就会有一段逐渐加速或逐渐减速的过程，我们通过引入动量就可以加速我们的学习过程，可以在鞍点处继续前行，也可以逃离一些较小的局部最优区域下面类比物理学定义这里的动量：

物理学中，用变量v表示速度，表明参数在参数空间移动的方向即速率，而代价函数的负梯度表示参数在参数空间移动的力，根据牛顿定律，动量等于质量乘以速度，而在动量学习算法中，我们假设质量的单位为1，因此速度v就可以直接当做动量了，我们同时引入超参数 $\公测$ ，其取值在【0,1】范围之间，用于调节先前梯度（力）的衰减效果，其更新方式为：

$v = \ beta v- \ alpha \ bigtriangledown w$ （1）

根据上面的随机梯度下降算法给出动量随机梯度下降算法;

初始化：

给定数据集 $X = \ left \ {x ^ 1，x ^ 2，...，x ^ n \ right \}$ ，数据集标记为： $Y = \ left \ {y ^ 1，y ^ 2，...，y ^ n \ right \}$ ,,初始速度，随机采样m条数据，训练周期k，学习率衰减最低值b，学习器为，初始学习率 $\ alpha_0$ ，初始动量参数为 $\公测$

训练：

对于

{

1.随机采样米条数据： $\ left \ {（x ^ 1，y ^ 1），...，（x ^ m，y ^ m）\ right \}$

2.计算采样数据平均损失梯度： $\ bigtriangledown w = \ frac {1} {m} \ sum_ {j = 1} ^ {m} \ frac {\ partial L（y ^ j，f（x ^ j; w））} {\ partial w}$

3.更新速度： $v = \ beta v- \ alpha \ bigtriangledown w$

4.更新参数：

}

在随机梯度的学习算法中，每一步的步幅都是固定的，而在动量学习算法中，每一步走多远不仅依赖于本次的梯度的大小还取决于过去的速度。速度v是累积各轮训练参的梯度，其中 $\公测$ 越大，依赖以前的梯度越大。假如每轮训练的梯度方向都是相同的，和小球从斜坡滚落，由于但衰减因子的 $\公测$ 存在，小球并不会一直加速，而是达到最大速度后开始匀速行驶，这里假设每轮获得的梯度都是相同的，那么速度最大值为（按照（1）计算可得）：

$v_ {max} = \ frac {\ alpha \ left \ | \ bigtriangledown w \ right \ |} {1- \ beta}$

从上式可以看到当 $\公测$ = 0.9时，最大速度相当于梯度下降的10倍（带进上式去算可得），通常 $\公测$ 可取0.5,0.9,0.99，情况一般 $\公测$ 的调整没有 $\α$ 调整的那么重要适当。取值即可。

图形如下：

好到这里大家懂了动量的学习机理，我们继续看看那篇博文：

梯度下降的方程式修改如下。

上面的第一个等式就是动量，动量等式由两部分组成，第一项是上一次迭代的动量，乘以“动量系数”。

如果我们将v的初始值设置为0并选择我们的系数为0.9，则后续更新方程式将如下所示。

我们看到，后续的更新保留了之前的梯度，但最近的梯度权重更高。

下面我们来看看动量法如何帮助我们缓解病态曲率的问题。下图中，梯度大多数发生更新在字形方向上，我们将每次更新分解为W1和W2方向上的两个分量。如果我们分别累加这些梯度的两个分量，那么W1方向上的分量将互相抵消，而W2方向上的分量得到了加强。

也就是说，基于动量法的更新，积累了W2方向上的分量，清空了W1方向上的分量，从而帮助我们更快地通往最小值。从这个意义上说，动量法也有助于抑制振荡。

动量法同时提供了加速度，从而加快收敛。但你可能想要搭配模拟退火，以免跳过最小值。当我们使用动量优化算法的时候，可以解决小批量SGD优化算法更新幅度摆动大的问题，同时可以使得网络的收敛速度更快。

在实践中，动量系数一般初始化为0.5，并在多个时期后逐渐退火至0.9。

AdaGrad（自适应梯度算法）

前面的随机梯度和动量随机梯度算法都是使用全局的学习率，所有的参数都是统一步伐的进行更新的，上面的例子中我们是在二维权值的情况，如果扩展到高维，大家可想而知，我么你的优化环境将很复杂，比如你走在崎岖额深山老林林，到处都是坑坑洼洼，如果只是走一步看一步（梯度下降），或者快速奔跑向前（动量学习），那我们可能会摔的头破血流，怎么办呢如果可以针对每个参数设置学习率可能会更好，让他根据情况进行调整，这里就先引出自适应梯度下降？

AdaGrad其实很简单，就是将每一维各自的历史梯度的平方叠加起来，然后更新的时候除以该历史梯度值即可。如针对第我个参数，算法如下。

定义首先一个量 $\ THETA$ 用于累加梯度的平方，如下：

$\ theta _i = \ theta _i +（\ bigtriangledown w_i）^ 2$

平方的原因是去除梯度符号的干扰，防止抵消，更新时：

$w_i = w_i - \ frac {\ alpha} {\ sqrt {\ theta _i} + \ delta} \ bigtriangledown w_i$

其中 $\三角洲$ = 10 ^ -7，防止数值溢出。

从上式可以看出，AdaGrad使的参数在累积的梯度较小时（ $\ theta <1$ ）就会放大学习率，使网络训练更加快速。在梯度的累积量较大时（ $\ theta> 1$ ）就会缩小学习率，延缓网络的训练，简单的来说，网络刚开始时学习率很大，当走完一段距离后小心翼翼，这正是我们需要的。但是这里存在一个致命的问题就是AdaGrad容易受到过去梯度的影响，陷入“过去“无法自拔，因为梯度很容易就会累积到一个很大的值，此时学习率就会被降低的很厉害，因此AdaGrad很容易过分的降低学习率率使其提前停止，怎么解决这个问题呢？RMSProp算法可以很好的解决该问题。

RMSProp（均方根支柱）

同样，RMSProp可以自动调整学习率。还有，RMSProp为每个参数选定不同的学习率。

虽然AdaGrad在理论上有些较好的性质，但是在实践中表现的并不是很好，其根本原因就是随着训练周期的增长，学习率降低的很快。而RMSProp算法就在AdaGrad基础上引入了衰减因子，如下式，RMSProp在梯度累积的时候，会对“过去”与“现在”做一个平衡，通过超参数进行调节衰减量，常用的取值为0.9或者0.5（这一做法和SGD有异曲同工之处）

$\ theta _i = \ beta \ cdot \ theta _i +（1+ \ beta）（\ bigtriangledown w_i）^ 2$

参数更新阶段，和AdaGrad相同，学习率除以历史梯度总和即可。

$w_i = w_i - \ frac {\ alpha} {\ sqrt {\ theta _i} + \ delta} \ bigtriangledown w_i$

实践中，RMSProp更新方式对深度学习网络十分有效，是深度学习的最有效的更新方式之一。

图形如下：

下面接着那篇博客看，（这里还是通过动量过来的，原理是一样的，因为都是梯度的累加。这里大家不用迷惑，当你知道本质的东西以后，就知道通过表面看本质的的意义了）

在第一个等式中，类似之前的动量法，我们计算了梯度平方的指数平均。由于我们为每个参数单独计算，这里的梯度GT表示正更新的参数上的梯度投影。

第二个等式根据指数平均决定步幅大小。我们选定一个初始学习率η，接着除以平均数。在我们上面举的例子中，W1的梯度指数平均比W2大得多，所以W1的学习步幅比W2小得多。这就帮助我们避免了脊间振荡，更快地向最小值移动。

第三个等式不过是权重更新步骤。

上面的等式中，超参数ρ一般定为0.9，但你可能需要加以调整。等式2中的ε是为了确保除数不为零，一般定为1E-10。

注意RMSProp隐式地应用了模拟退火。在向最小值移动的过程中，RMSProp会自动降低学习步幅，以免跳过最小值。

Adam（自适应动量优化）

到目前为止，我们已经看到RMSProp和动量采用对比方法。虽然动量加速了我们对最小值方向的搜索，但RMSProp阻碍了我们在振荡方向上的搜索.Adam通过名字我们就可以看出他是基于动量和RMSProp的微调版本，该方法是目前深度学习中最流行的优化方法，在默认情况尽量使用亚当作为参数的更新方式

首先计算当前最小批量数据梯度。

$g = \ frac {1} {m} \ sum_ {j = 1} ^ {m} \ frac {\ partial L（y ^ j，f（x ^ j; w））} {\ partial w}$

和动量学习法一样，计算衰减梯度五：

$v = \ beta _1 \ cdot v +（1- \ beta _1）g$

和RMSProp算法类似，计算衰减学习率R：

$r = \ beta _2 \ cdot r +（1- \ beta _2）g ^ 2$

最后更新参数：

$w = w- \ frac {\ alpha} {\ sqrt {r} + \ delta} v$

上面就是RMSProp和动量的有机集合，使他们的优点集于一身，是不是很漂亮，但还是有一个问题就是开始时梯度会很小，R和v经常会接近0，因此我们需要初始给他一个？合适的值，这个值怎么给才合适呢先看下面的公式：

$v_b = \ frac {v} {1- \ beta _1 ^ t}，r_b = \ frac {r} {1- \ beta _2 ^ t}$

其中吨表示训练次数，刚开始动很大，随着训练次数吨的增加VB逐渐趋向于V，R类似下面给出总体的算法结构。

初始化：

给定数据集 $X = \ left \ {x ^ 1，x ^ 2，...，x ^ n \ right \}$ ，数据集标记为： $Y = \ left \ {y ^ 1，y ^ 2，...，y ^ n \ right \}$ ，初始速度，随机采样m条数据，训练周期k，学习器为，初始学习率 $\α$ ，初始动量参数为 $\ beta_1$ ，学习衰减参数 $\ beta_2$ ， $\ delta = 10 ^ { - 7}$

训练：

用于：

{

1.随机采样米条数据： $\ left \ {（x ^ 1，y ^ 1），...，（x ^ m，y ^ m）\ right \}$

2.计算当前采样数据的梯度： $g = \ frac {1} {m} \ sum_ {j = 1} ^ {m} \ frac {\ partial L（y ^ j，f（x ^ j; w））} {\ partial w}$

3.更新当前速度： $v = \ beta _1 \ cdot v +（1- \ beta _1）g$

4.更新当前学习率： $r = \ beta _2 \ cdot r +（1- \ beta _2）g ^ 2$

5.更新训练次数：

$v_b = \ frac {v} {1- \ beta _1 ^ t}，r_b = \ frac {r} {1- \ beta _2 ^ t}$

6.更新参数： $w = w- \ frac {\ alpha} {\ sqrt {rb} + \ delta} vb$

}

好，我们继续看看那篇博客：

这里，我们计算了梯度的指数平均和梯度平方的指数平均（等式1和等式2）。为了得出学习步幅，等式3在学习率上乘以梯度的平均（类似动量），除以梯度平方平均的均方根（类似RMSProp）。等式4是权重更新步骤。

超参数β1一般取0.9，β2一般取0.99.ε一般定为1E-10。

结语

本文介绍了三种应对病态曲率同时加速训练过程的梯度下降方法。

在这三种方法之中，也许动量法用得更普遍，尽管从论文上看Adam更吸引人。经验表明这三种算法都能收敛到给定损失曲面的不同的最优局部极小值。然而，动量法看起来要比Adam更容易找到比较平坦的最小值，而自适应方法（自动调整学习率）倾向于迅速地收敛于较尖的最小值。比较平坦的最小值概括性更好。

尽管这些方法有助于我们训练深度网络难以控制的损失平面，随着网络日益变深，它们开始变得不够用了。除了选择更好的优化方法，有相当多的研究试图寻找能够生成更平滑的损失曲面的架构。批量归一化（Batch Normalization）和残差连接（Residual Connections）正是这方面的两个例子。我们会在后续的文章中详细介绍它们。但这篇文章就到此为止了。欢迎在评论中提问。

进一步阅读

关于指数加权平均值的视频
对于数学倾向，对动量的精彩解释
更多关于病理曲率和二阶优化
关于牛顿方法和一般优化

原博客地址：https：//blog.paperspace.com/intro-to-optimization-momentum-rmsprop-adam/（需要）

这里需要说明的是，本人在那篇博客的基础上增添了SGD，动量，AdaGrad，RMSProp，亚当的算法推倒说明以及算法伪代码的实现，因此转载请注明出处，谢谢。本节到此结束，下一篇继续讲解梯度消失和激活函数的优化问题。

深度学习超参数优化（HPO）终极指南：从入门到前沿
摘要：在深度学习的实践中，模型性能的好坏不仅取决于算法和数据，更在一半程度上取决于超参数的精妙设置。本文是一篇关于超参数优化（HyperparameterOptimization,HPO）的综合性指南，旨在带领读者从最基础的概念出发，系统性地梳理从经典到前沿的各类优化方法，并最终落地于实用策略和现代工具。无论您是初学者还是资深从业者，都能从中获得宝贵的见解。第一部分：夯实基础——HPO的核心概念1
天文图像处理：星系分类与天体定位 xcLeigh 计算机视觉CV 图像处理分类人工智能 AI 计算机视觉
天文图像处理：星系分类与天体定位一、前言二、天文图像处理基础2.1天文图像的获取2.2天文图像的格式2.3天文图像处理的基本流程三、天文图像预处理3.1去噪处理3.2平场校正3.3偏置校正四、星系分类4.1星系的分类体系4.2基于特征提取的星系分类方法4.3基于深度学习的星系分类方法五、天体定位5.1天体坐标系统5.2基于星图匹配的天体定位方法5.3基于深度学习的天体定位方法六、总结与展望致读者一
深度学习——CNN（3）飘涯
前言：前面介绍了最基本的Lenet，下面介绍几种其他的网络结构CNN-AlexNet网络结构如下图：从图中可以看出，采用双gpu训练增加LRN归一化层：本质上，这个层也是为了防止激活函数的饱和的。采用dropout防止过拟合基于AlexNet进行微调，诞生了ZF-netCNN-GoogleNetGoogLeNet借鉴了NIN的特性，在原先的卷积过程中附加了11的卷积核加上ReLU激活。这不仅仅提升
微算法科技技术突破：用于前馈神经网络的量子算法技术助力神经网络变革 MicroTech2025 量子计算算法神经网络
随着量子计算和机器学习的迅猛发展，企业界正逐步迈向融合这两大领域的新时代。在这一背景下，微算法科技（NASDAQ:MLGO）成功研发出一套用于前馈神经网络的量子算法，突破了传统神经网络在训练和评估中的性能瓶颈。这一创新性的量子算法以经典的前馈和反向传播算法为基础，借助量子计算的强大算力，极大提升了网络训练和评估效率，并带来了对过拟合的天然抗性。前馈神经网络是深度学习的核心架构，广泛应用于图像分类、
英伟达Triton 推理服务详解 leo0308 基础知识机器人 Triton 人工智能
1.TritonInferenceServer简介TritonInferenceServer（简称Triton，原名NVIDIATensorRTInferenceServer）是英伟达推出的一个开源、高性能的推理服务器，专为AI模型的部署和推理服务而设计。它支持多种深度学习框架和硬件平台，能够帮助开发者和企业高效地将AI模型部署到生产环境中。Triton主要用于模型推理服务化，即将训练好的模型通过
Java NLP炼金术：从词袋到深度学习，构建AI时代的语言魔方墨夶 Java学习资料人工智能 java 自然语言处理
一、JavaNLP的“三剑客”：框架与工具链1.1ApacheOpenNLP：传统NLP的“瑞士军刀”目标：用词袋模型实现文本分类与实体识别代码实战：文档分类器的“炼成术”//OpenNLP文档分类器（基于词袋模型）importopennlp.tools.doccat.*;importopennlp.tools.util.*;publicclassDocumentClassifier{//训练模型
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
Python OpenCV教程从入门到精通的全面指南【文末送书】一键难忘 python opencv 开发语言
文章目录PythonOpenCV从入门到精通1.安装OpenCV2.基本操作2.1读取和显示图像2.2图像基本操作3.图像处理3.1图像转换3.2图像阈值处理3.3图像平滑4.边缘检测和轮廓4.1Canny边缘检测4.2轮廓检测5.高级操作5.1特征检测5.2目标跟踪5.3深度学习与OpenCVPythonOpenCV从入门到精通【文末送书】PythonOpenCV从入门到精通OpenCV(Ope
第八周 tensorflow实现猫狗识别降花绘 365天深度学习 tensorflow系列 tensorflow 深度学习人工智能
本文为365天深度学习训练营内部限免文章（版权归K同学啊所有）**参考文章地址：[TensorFlow入门实战｜365天深度学习训练营-第8周：猫狗识别（训练营内部成员可读）]**作者：K同学啊文章目录一、本周学习内容:1、自己搭建VGG16网络2、了解model.train_on_batch（）3、了解tqdm，并使用tqdm实现可视化进度条二、前言三、电脑环境四、前期准备1、导入相关依赖项2、
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路一、医疗领域：AI驱动的精准诊疗与效率提升1.医学影像诊断AI算法通过深度学习技术，已实现对X光、CT、MRI等影像的快速分析，辅助医生检测癌症、骨折等疾病。例如，GoogleDeepMind的AI系统在乳腺癌筛查中，误检率比人类专家低9.4%；中国的推想医疗AI系统可在20秒内完成肺部CT扫描分析，为急诊救治争取黄金时间。2.药物研发传统药
专题：2025云计算与AI技术研究趋势报告|附200+份报告PDF、原数据表汇总下载
原文链接：https://tecdat.cn/?p=42935关键词：2025,云计算，AI技术，市场趋势，深度学习，公有云，研究报告云计算和AI技术正以肉眼可见的速度重塑商业世界。过去十年，全球云服务收入激增8倍，中国云计算市场规模突破6000亿元，而深度学习算法的应用量更是暴涨400倍。这些数字背后，是企业从“自建机房”到“云原生开发”的转型，是AI从“实验室”走向“产业级应用”的跨越。本报告
【深度学习解惑】在实践中如何发现和修正RNN训练过程中的数值不稳定？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 人工智能 tensorflow pytorch 神经网络机器学习
在实践中发现和修正RNN训练过程中的数值不稳定目录引言与背景介绍原理解释代码说明与实现应用场景与案例分析实验设计与结果分析性能分析与技术对比常见问题与解决方案创新性与差异性说明局限性与挑战未来建议和进一步研究扩展阅读与资源推荐图示与交互性内容语言风格与通俗化表达互动交流1.引言与背景介绍循环神经网络(RNN)在处理序列数据时表现出色，但训练过程中常面临梯度消失和梯度爆炸问题，导致数值不稳定。当网络
【深度学习实战】当前三个最佳图像分类模型的代码详解云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习人工智能分类模型机器学习 Transformer EfficientNet ConvNeXt
下面给出三个在当前图像分类任务中精度表现突出的模型示例，分别基于SwinTransformer、EfficientNet与ConvNeXt。每个模型均包含：训练代码（使用PyTorch）从预训练权重开始微调（也可注释掉预训练选项，从头训练）数据集目录结构：└──dataset_root├──buy#第一类图像└──nobuy#第二类图像随机拆分：80%训练，20%验证每个Epoch输出一次loss
第35周—————糖尿病预测模型优化探索
目录目录前言1.检查GPU2.查看数据编辑3.划分数据集4.创建模型与编译训练5.编译及训练模型6.结果可视化7.总结前言本文为365天深度学习训练营中的学习记录博客原作者：K同学啊1.检查GPUimporttorch.nnasnnimporttorch.nn.functionalasFimporttorchvision,torch#设置硬件设备，如果有GPU则使用，没有则使用cpudevice=
深度学习预备知识 AmazingMQ 深度学习人工智能
1.Tensor张量定义：张量（tensor）表示一个由数值组成的数组，这个数组可能有多个维度（轴）。具有一个轴的张量对应数学上的向量，具有两个轴的张量对应数学上的矩阵，具有两个以上轴的张量目前没有特定的数学名称。importtorch#arange创建一个行向量x，这个行向量包含以0开始的前12个整数。x=torch.arange(12)print("x=",x)#x=tensor([0,1,2
根茎式装配体（RA）作为下一代协同智能范式的理论、架构与应用由数入道人工智能思维框架软件工程智能体
一、引言——范式危机与新大陆的召唤1.1表征主义的黄昏：当前AI协同范式的认知天花板自艾伦·图灵在《计算机器与智能》中播下思想的种子以来，人工智能的漫长征途始终被一个强大而内隐的哲学范式所笼罩——我们称之为“表征主义”（Representationism）。这一范式，无论其外在形态如何演变，从早期的符号逻辑、专家系统，到如今风靡全球的深度学习神经网络，其核心信念从未动摇：智能的核心，在于构建一个关
Manus AI与多语言手写识别
ManusAI与多语言手写识别背景与概述手写识别技术的发展现状与挑战ManusAI的核心技术与应用场景多语言手写识别的市场需求与难点ManusAI的技术架构深度学习在手写识别中的应用多语言支持的模型设计数据预处理与特征提取方法多语言手写识别的关键挑战不同语言字符的多样性处理上下文语义与书写风格适应性低资源语言的训练数据获取解决方案与优化策略迁移学习在多语言任务中的应用端到端模型的优化与轻量化用户反
基于LIDC-IDRI肺结节肺癌数据集的人工智能深度学习分类良性和恶性肺癌（Python 全代码）全流程解析（二）
基于LIDC-IDRI肺结节肺癌数据集的人工智能深度学习分类良性和恶性肺癌（Python全代码）全流程解析（二）1环境配置和数据集预处理1.1环境配置1.1数据集预处理2深度学习模型训练和评估2.1深度学习模型训练2.1深度学习模型评估笑话一则开心一下喽完整代码如下：模型文件如下深度学习模型讲解---待续第一部分内容的传送门第三部分传送门1环境配置和数据集预处理1.1环境配置环境配置建议使用ana
深度学习交互式图像分割技术演进与突破 wang1776866571 深度学习交互式分割深度学习人工智能交互式分割
说明本文为作者读研期间基于交互式图像分割领域公开文献的系统梳理与个人理解总结，所有内容均为原创撰写（ai辅助创作），未直接复制或抄袭他人成果。文中涉及的算法、模型及实验结论均参考自领域内公开发表的学术论文（具体文献见文末参考文献列表）。本文旨在为交互式图像分割领域的学习者提供一份结构化的综述参考，内容涵盖技术演进、核心方法、关键技术优化及应用前景，希望能为相关研究提供启发。摘要：本文系统综述了基于
前沿交叉：Fluent与深度学习驱动的流体力学计算体系 m0_75133639 流体力学深度学习人工智能航空航天 fluent 流体力学材料科学 CFD
基础模块流体力学方程求解1、不可压缩N-S方程数值解法（有限差分/有限元/伪谱法）·Fluent工业级应用：稳态/瞬态流、两相流仿真（圆柱绕流、入水问题）·Tecplot流场可视化与数据导出2、CFD数据的AI预处理·基于PCA/SVD的流场数据降维·特征值分解与时空特征提取深度学习核心3.物理机理嵌入的神经网络架构·物理信息神经网络（PINN）：将N-S方程嵌入损失函数（JAX框架实现）·神经常
Js函数返回值 _wy_ js return
一、返回控制与函数结果，语法为：return 表达式;作用: 结束函数执行，返回调用函数，而且把表达式的值作为函数的结果二、返回控制语法为：return;作用: 结束函数执行，返回调用函数，而且把undefined作为函数的结果在大多数情况下,为事件处理函数返回false,可以防止默认的事件行为.例如,默认情况下点击一个<a>元素,页面会跳转到该元素href属性
MySQL 的 char 与 varchar bylijinnan mysql
今天发现，create table 时，MySQL 4.1有时会把 char 自动转换成 varchar 测试举例： CREATE TABLE `varcharLessThan4` ( `lastName` varchar(3) ) ; mysql> desc varcharLessThan4; +----------+---------+------+-
Quartz——TriggerListener和JobListener eksliang TriggerListener JobListener quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208624 一.概述 listener是一个监听器对象，用于监听scheduler中发生的事件，然后执行相应的操作；你可能已经猜到了，TriggerListeners接受与trigger相关的事件，JobListeners接受与jobs相关的事件。二.JobListener监听器 j
oracle层次查询 18289753290 oracle；层次查询；树查询
.oracle层次查询(connect by) oracle的emp表中包含了一列mgr指出谁是雇员的经理，由于经理也是雇员，所以经理的信息也存储在emp表中。这样emp表就是一个自引用表，表中的mgr列是一个自引用列，它指向emp表中的empno列，mgr表示一个员工的管理者， select empno,mgr,ename,sal from e
通过反射把map中的属性赋值到实体类bean对象中酷的飞上天空 javaee 泛型类型转换
使用过struts2后感觉最方便的就是这个框架能自动把表单的参数赋值到action里面的对象中但现在主要使用Spring框架的MVC，虽然也有@ModelAttribute可以使用但是明显感觉不方便。好吧，那就自己再造一个轮子吧。原理都知道，就是利用反射进行字段的赋值，下面贴代码主要类如下： import java.lang.reflect.Field; imp
SAP HANA数据存储：传统硬盘的瓶颈问题蓝儿唯美 HANA
SAPHANA平台有各种各样的应用场景，这也意味着客户的实施方法有许多种选择，关键是如何挑选最适合他们需求的实施方案。在《Implementing SAP HANA》这本书中，介绍了SAP平台在现实场景中的运作原理，并给出了实施建议和成功案例供参考。本系列文章节选自《Implementing SAP HANA》，介绍了行存储和列存储的各自特点，以及SAP HANA的数据存储方式如何提升空间压
Java Socket 多线程实现文件传输随便小屋 java socket
高级操作系统作业，让用Socket实现文件传输，有些代码也是在网上找的，写的不好，如果大家能用就用上。客户端类： package edu.logic.client; import java.io.BufferedInputStream; import java.io.Buffered
java初学者路径 aijuans java
学习Java有没有什么捷径?要想学好Java，首先要知道Java的大致分类。自从Sun推出Java以来，就力图使之无所不包，所以Java发展到现在，按应用来分主要分为三大块：J2SE,J2ME和J2EE,这也就是Sun ONE(Open Net Environment)体系。J2SE就是Java2的标准版，主要用于桌面应用软件的编程；J2ME主要应用于嵌入是系统开发，如手机和PDA的编程；J2EE
APP推广 aoyouzi APP 推广
一，免费篇 1，APP推荐类网站自主推荐最美应用、酷安网、DEMO8、木蚂蚁发现频道等,如果产品独特新颖，还能获取最美应用的评测推荐。PS：推荐简单。只要产品有趣好玩，用户会自主分享传播。例如足迹APP在最美应用推荐一次，几天用户暴增将服务器击垮。 2，各大应用商店首发合作老实盯着排期，多给应用市场官方负责人献殷勤。 3，论坛贴吧推广百度知道，百度贴吧，猫扑论坛，天涯社区，豆瓣（
JSP转发与重定向百合不是茶 jsp servlet Java Web jsp转发
在servlet和jsp中我们经常需要请求,这时就需要用到转发和重定向; 转发包括;forward和include 例子;forwrad转发; 将请求装法给reg.html页面关键代码; req.getRequestDispatcher("reg.html
web.xml之jsp-config bijian1013 java web.xml servlet jsp-config
1.作用：主要用于设定JSP页面的相关配置。 2.常见定义： <jsp-config> <taglib> <taglib-uri>URI(定义TLD文件的URI,JSP页面的tablib命令可以经由此URI获取到TLD文件)</tablib-uri> <taglib-location> TLD文件所在的位置
JSF2.2 ViewScoped Using CDI sunjing CDI JSF 2.2 ViewScoped
JSF 2.0 introduced annotation @ViewScoped; A bean annotated with this scope maintained its state as long as the user stays on the same view(reloads or navigation - no intervening views). One problem w
【分布式数据一致性二】Zookeeper数据读写一致性 bit1129 zookeeper
很多文档说Zookeeper是强一致性保证，事实不然。关于一致性模型请参考http://bit1129.iteye.com/blog/2155336 Zookeeper的数据同步协议 Zookeeper采用称为Quorum Based Protocol的数据同步协议。假如Zookeeper集群有N台Zookeeper服务器(N通常取奇数，3台能够满足数据可靠性同时
Java开发笔记白糖_ java开发
1、Map<key,value>的remove方法只能识别相同类型的key值 Map<Integer,String> map = new HashMap<Integer,String>(); map.put(1,"a"); map.put(2,"b"); map.put(3,"c"
图片黑色阴影 bozch 图片
.event{ padding:0; width:460px; min-width: 460px; border:0px solid #e4e4e4; height: 350px; min-heig
编程之美-饮料供货-动态规划 bylijinnan 动态规划
import java.util.Arrays; import java.util.Random; public class BeverageSupply { /** * 编程之美饮料供货 * 设Opt（V’，i）表示从i到n-1种饮料中，总容量为V’的方案中，满意度之和的最大值。 * 那么递归式就应该是：Opt（V’，i）=max{ k * Hi+Op
ajax大参数（大数据）提交性能分析 chenbowen00 Web Ajax 框架浏览器 prototype
近期在项目中发现如下一个问题项目中有个提交现场事件的功能，该功能主要是在web客户端保存现场数据（主要有截屏，终端日志等信息）然后提交到服务器上方便我们分析定位问题。客户在使用该功能的过程中反应点击提交后反应很慢，大概要等10到20秒的时间浏览器才能操作，期间页面不响应事件。根据客户描述分析了下的代码流程，很简单，主要通过OCX控件截屏，在将前端的日志等文件使用OCX控件打包，在将之转换为
[宇宙与天文]在太空采矿,在太空建造 comsci
我们在太空进行工业活动...但是不太可能把太空工业产品又运回到地面上进行加工,而一般是在哪里开采,就在哪里加工,太空的微重力环境,可能会使我们的工业产品的制造尺度非常巨大.... 地球上制造的最大工业机器是超级油轮和航空母舰,再大些就会遇到困难了,但是在空间船坞中,制造的最大工业机器,可能就没
ORACLE中CONSTRAINT的四对属性 daizj oracle CONSTRAINT
ORACLE中CONSTRAINT的四对属性 summary:在data migrate时,某些表的约束总是困扰着我们,让我们的migratet举步维艰,如何利用约束本身的属性来处理这些问题呢?本文详细介绍了约束的四对属性: Deferrable/not deferrable, Deferred/immediate, enalbe/disable, validate/novalidate,以及如
Gradle入门教程 dengkane gradle
一、寻找gradle的历程一开始的时候，我们只有一个工程，所有要用到的jar包都放到工程目录下面，时间长了，工程越来越大，使用到的jar包也越来越多，难以理解jar之间的依赖关系。再后来我们把旧的工程拆分到不同的工程里，靠ide来管理工程之间的依赖关系，各工程下的jar包依赖是杂乱的。一段时间后，我们发现用ide来管理项程很不方便，比如不方便脱离ide自动构建，于是我们写自己的ant脚本。再后
C语言简单循环示例 dcj3sjt126com c
# include <stdio.h> int main(void) { int i; int count = 0; int sum = 0; float avg; for (i=1; i<=100; i++) { if (i%2==0) { count++; sum += i; } } avg
presentModalViewController 的动画效果 dcj3sjt126com controller
系统自带(四种效果)： presentModalViewController模态的动画效果设置： [cpp] view plain copy UIViewController *detailViewController = [[UIViewController al
java 二分查找 shuizhaosi888 二分查找 java二分查找
需求：在排好顺序的一串数字中，找到数字T 一般解法：从左到右扫描数据，其运行花费线性时间O(N)。然而这个算法并没有用到该表已经排序的事实。 /** * * @param array * 顺序数组 * @param t * 要查找对象 * @return */ public stati
Spring Security（07）——缓存UserDetails 234390216 ehcache 缓存 Spring Security
Spring Security提供了一个实现了可以缓存UserDetails的UserDetailsService实现类，CachingUserDetailsService。该类的构造接收一个用于真正加载UserDetails的UserDetailsService实现类。当需要加载UserDetails时，其首先会从缓存中获取，如果缓存中没
Dozer 深层次复制 jayluns VO maven po
最近在做项目上遇到了一些小问题，因为架构在做设计的时候web前段展示用到了vo层，而在后台进行与数据库层操作的时候用到的是Po层。这样在业务层返回vo到控制层，每一次都需要从po-->转化到vo层，用到BeanUtils.copyProperties(source, target)只能复制简单的属性，因为实体类都配置了hibernate那些关联关系，所以它满足不了现在的需求，但后发现还有个很
CSS规范整理（摘自懒人图库） a409435341 html UI css 浏览器
刚没事闲着在网上瞎逛，找了一篇CSS规范整理，粗略看了一下后还蛮有一定的道理，并自问是否有这样的规范，这也是初入前端开发的人一个很好的规范吧。一、文件规范 1、文件均归档至约定的目录中。具体要求通过豆瓣的CSS规范进行讲解：所有的CSS分为两大类：通用类和业务类。通用的CSS文件，放在如下目录中：基本样式库 /css/core
C++动态链接库创建与使用你不认识的休道人 C++dll
一、创建动态链接库 1.新建工程test中选择”MFC [dll]”dll类型选择第二项"Regular DLL With MFC shared linked"，完成 2.在test.h中添加 extern “C” 返回类型 _declspec(dllexport)函数名(参数列表); 3.在test.cpp中最后写 extern “C” 返回类型 _decls
Android代码混淆之ProGuard rensanning ProGuard
Android应用的Java代码，通过反编译apk文件（dex2jar、apktool）很容易得到源代码，所以在release版本的apk中一定要混淆一下一些关键的Java源码。 ProGuard是一个开源的Java代码混淆器（obfuscation）。ADT r8开始它被默认集成到了Android SDK中。官网： http://proguard.sourceforge.net/
程序员在编程中遇到的奇葩弱智问题 tomcat_oracle jquery 编程 ide
　　现在收集一下：　　排名不分先后，按照发言顺序来的。 1、Jquery插件一个通用函数一直报错，尤其是很明显是存在的函数，很有可能就是你没有引入jquery。。。或者版本不对 2、调试半天没变化：不在同一个文件中调试。这个很可怕，我们很多时候会备份好几个项目，改完发现改错了。有个群友说的好：在汤匙
解决maven-dependency-plugin (goals "copy-dependencies","unpack") is not supported xp9802 dependency
解决办法：在plugins之前添加如下pluginManagement，二者前后顺序如下： [html] view plain copy <build> <pluginManagement

深度学习 --- 优化入门二（SGD、动量(Momentum)、AdaGrad、RMSProp、Adam详解）

病态曲率

牛顿法

为何我们不常使用牛顿法？

随机梯度下降（ Stochastic Gradient Descent，SGD ）

动量学习法

AdaGrad（自适应梯度算法）

RMSProp（均方根支柱）

Adam（自适应动量优化）

结语

进一步阅读

你可能感兴趣的:(深度学习)