woshicver

梯度下降法的神经网络容易收敛到局部最优，为什么应用广泛？

链接：https://www.zhihu.com/question/68109802

编辑：深度学习与计算机视觉

声明：仅做学术分享，侵删

作者：夕小瑶
https://www.zhihu.com/question/68109802/answer/263503269

反对回答区中一部分称“模型收敛于鞍点”的回答。当然也有的大牛可以一针见血，那我就对这个问题多展开一下吧，让鲜血流的更猛烈一些。（害怕.jpg）

真的结束于最优点吗？

我们知道，在局部最优点附近，各个维度的导数都接近0，而我们训练模型最常用的梯度下降法又是基于导数与步长的乘积去更新模型参数的，因此一旦陷入了局部最优点，就像掉进了一口井，你是无法直着跳出去的，你只有连续不间断的依托四周的井壁努力向上爬才有可能爬出去。更何况梯度下降法的每一步对梯度正确的估计都在试图让你坠入井底，因此势必要对梯度“估计错很多次”才可能侥幸逃出去。那么从数学上看，什么才是局部最优点呢？

这个问题看似很白痴，很多人会说“局部最优点不就是在loss曲面上某个一阶导数为0的点嘛”。这就不准确啦，比如下面这个马鞍形状的中间的那个点：

图片来自《deep learning》

显然这个点也是（一阶）导数为0，但是肯定不是最优点。事实上，这个点就是我们常说的鞍点。

显然，只用一阶导数是难以区分最优点和鞍点的。

我们想一下，最优点和鞍点的区别不就在于其在各个维度是否都是最低点嘛～只要某个一阶导数为0的点在某个维度上是最高点而不是最低点，那它就是鞍点。而区分最高点和最低点当然就是用二阶导数（斜率从负变正的过程当然就是“下凸”，即斜率的导数大于0，即二阶导数大于0。反之则为“上凹”，二阶导数小于0）。也就是说，若某个一阶导数为0的点在至少一个方向上的二阶导数小于0，那它就是鞍点啦。

那么二阶导数大于0和小于0的概率各是多少呢？由于我们并没有先验知识，因此按照最大熵原理，我们认为二阶导数大于和小于0的概率均为0.5！

那么对于一个有n个参数的机器学习/深度学习模型，“loss曲面”即位于n+1维空间（loss值为纵轴，n个参数为n个横轴）。在这个空间里，如果我们通过梯度下降法一路下滑终于滑到了一个各方向导数均为0的点，那么它为局部最优点的概率即，为鞍点的概率为，显然，当模型参数稍微一多，即n稍微一大，就会发现这个点为鞍点的概率会远大于局部最优点！

好吧我再啰嗦的举个栗子，已经反应过来的同学可以跳过这个栗子：

假设我们的模型有100个参数（实际深度学习模型中一般会远大于100），那么某一阶导数为0的点为局部最优点的概率为约为，而为鞍点的概率则为。就算我们的模型在训练时使用了特别厉害的“超级梯度下降法”，它可以每走一步都恰好踩在一个一阶导数为0的点上，那么从数学期望上来看，我们需要走10^31步才行。而实际的projects中，哪怕数据集规模为千万级，我们分了100万个batches，然后要迭代100次，那也仅仅是走了步，你真的觉得运气可以辣么好的走到局部最优点上去吗？所以实际中，当我们的深度学习模型收敛时，几乎没有必要认为它收敛到了一个局部最优点，这完全等同于杞人忧天。

也就是说，如果最后模型确实在梯度下降法的指引下收敛到了一个导数为0的点，那这个点几乎可以肯定就是一个鞍点。

如果我们的模型真的收敛到鞍点上了，会很可怕吗？

这就又回到了文章开头的那副马鞍状的图。

显然，站在马鞍中央的时候，虽然很难翻过两边的山坡，但是往前或者往后随便走一步就能摔下马鞍！而在文章《batch size》中小夕讲过，我们默认使用的mini-batch梯度下降法本身就是有噪声的梯度估计，哪怕我们位于梯度为0的点，也经常在某个mini-batch下的估计把它估计偏了，导致往前或者往后挪了一步摔下马鞍，也就是mini-batch的梯度下降法使得模型很容易逃离特征空间中的鞍点。

那么问题来了，既然局部最优点很难踩到，鞍点也很容易逃离出去，那么

为什么我们的模型看起来是收敛了呢？

初学者可能会说 “诶诶，会不会是学习率太大了，导致在“鞍点”附近震荡？” 首先，鞍点不像最优点那样容易震荡，而且哪怕你不断的减小学习率继续让模型收敛，大部分时候你这时计算output层或者后几层的梯度向量的长度时往往会发现它依然离0很遥远！（这句话是有实验支撑的，不过那篇论文我暂时没记起来，找到时贴出来）说明大部分时候收敛到的并不是鞍点。

那会不会踩到的鞍点太多，虽然前面的鞍点都轻松逃逸了，但是最后恰好收敛到一个跳不下去的鞍点身上了？

这倒是有可能，不排除有一些“马鞍面”特别平坦的鞍点区域，当模型陷入这种鞍点上时，由于计算出的梯度非常小，导致要连续迭代非常多次才可能慢慢移开这个鞍点，事实上大部分工程情况下，没等它移开的时候我们就已经默认为模型收敛、训练结束了，实际上人家模型还在努力逃离鞍点中呢。

不过话说回来，虽然高维空间中的鞍点数量远远大于最优点，而且鞍点数量随着特征空间维度增高而指数级增长，但是鞍点的数量在整个空间中又是微不足道的：按前面的假设，假设在某个维度上随机一跳有10%的概率踩到导数为0的点，那么我们在101维的空间中的一步恰好踩到这个点上的概率为10^-100，也就是说在101维空间里随机乱跳的时候，有10^-100的可能性踩到鞍点身上。因此，即使有难以逃离的鞍点，即使我们的优化算法在努力向附近的鞍点靠拢，那么被我们正好踩到那些难以逃离的特殊鞍点的概率也是非常小的。

所以更令人信服的是，在高维空间里（深度学习问题上）真正可怕的不是局部最优也不是鞍点问题，而是一些特殊地形。比如大面积的平坦区域：

图片来自《deep learning》

在平坦区域，虽然导数不为0但是却不大。虽然是在不断下降但是路程却非常长。对于优化算法来说，它需要走很多很多步才有可能走过这一片平坦区域。甚至在这段地形的二阶导数过于特殊的情况下，一阶优化算法走无穷多步也走不出去（设想一下，如果终点在一米外，但是你第一次走0.5米，后续每一步都是前一步的一半长度，那么你永远也走不到面前的一米终点处）。

所以相比于栽到最优点和鞍点上，优化算法更有可能载到这种类似平坦区的地形中（如果这个平坦区又是“高原地带”，即loss值很高的地带，那么恭喜你悲剧了）。更糟糕的是，由于高维地形难以可视化，还有很多更复杂的未知地形会导致假收敛，一旦陷入到这些危险地形中，几乎是无解的。

所以说，在深度学习中，与其担忧陷入局部最优点怎么跳出来，更不如去考虑数据集要怎么做才能让网络更好学习，以及网络该怎么设计才能更好的捕获pattern，网络该怎么训练才能学到我们想让它学习的知识。

深度神经网络“容易收敛到局部最优”，很可能是一种想象，实际情况是，我们可能从来没有找到过“局部最优”，更别说全局最优了。

很多人都有一种看法，就是“局部最优是神经网络优化的主要难点”。这来源于一维优化问题的直观想象。在单变量的情形下，优化问题最直观的困难就是有很多局部极值，如

人们直观的想象，高维的时候这样的局部极值会更多，指数级的增加，于是优化到全局最优就更难了。然而单变量到多变量一个重要差异是，单变量的时候，Hessian矩阵只有一个特征值，于是无论这个特征值的符号正负，一个临界点都是局部极值。但是在多变量的时候，Hessian有多个不同的特征值，这时候各个特征值就可能会有更复杂的分布，如有正有负的不定型和有多个退化特征值（零特征值）的半定型

在后两种情况下，是很难找到局部极值的，更别说全局最优了。

前面很多回答说了，现在看来神经网络的训练的困难主要是鞍点的问题。在实际中，我们很可能也从来没有真的遇到过局部极值。Bengio组这篇文章Eigenvalues of the Hessian in Deep Learning里面的实验研究给出以下的结论：

• Training stops at a point that has a small gradient. The norm of the gradient is not zero, therefore it does not, technically speaking, converge to a critical point.
• There are still negative eigenvalues even when they are small in magnitude.

另一方面，一个好消息是，即使有局部极值，具有较差的loss的局部极值的吸引域也是很小的Towards Understanding Generalization of Deep Learning: Perspective of Loss Landscapes。

For the landscape of loss function for deep networks, the volume of basin of attraction of good minima dominates over that of poor minima, which guarantees optimization methods with random initialization to converge to good minima.

所以，很可能我们实际上是在“什么也没找到”的情况下就停止了训练，然后拿到测试集上试试，“咦，效果还不错”。

补充说明，这些都是实验研究结果。理论方面，在各种假设下，深度神经网络的Landscape 的鞍点数目指数增加，而具有较差loss的局部极值非常少。

SGD收敛性的很多结论都是经验性的。在loss function landscape是退化的情况下loss 停滞在某个数值上训练不动的原因，很大程度上不是因为停在某个点不动了，是停在某个区域不动了。over-parameterized的神经网络有大片的平坦区域，这里一阶二阶乃至更高阶都是退化的，甚至有实验说这样的区域时dominant的（虽然我觉得那个结论有点大）。这时候可以说反复迭代也没啥改进，但是这反过来说算法无需太多迭代就能找到这样一个平坦区域，这里loss 和其中的local minima （可能也是退化的）相差不大，是不是真的找到local minima也没那么重要了。

作者：知乎用户
https://www.zhihu.com/question/68109802/answer/263714561

反对@夕小瑶的答案。我虽然（还）不是做机器学习的，但是优化在计算化学中也算是一个中心议题。假如说神经网络的梯度下降法和一般计算数学中的“梯度下降法”一样，并且只用到loss函数的一阶偏导数和的话，那从原理上就很难出现@夕小瑶提到的那种在（或者）方向最大，并且在（或者）方向最小的一阶鞍点。为什么呢？因为优化的时候在和方向就是沿着和的负方向前进的啊，除非初始点正巧落到了坐标轴上，否则如何能沿着另外一个方向爬山呢？

那么，为什么最终的优化结果，又很可能是一个鞍点呢？实际上，不需要更多维空间，一个二维曲面就能演示出来。如下图（来自于Symmetry of second derivatives）所示，完全可以在两个坐标轴方向都是“下凸”，但是在方向是“上凸”。不妨假设在轴及其邻域内，轴及其邻域内（也就是说山脊并不是那么尖，而是可以很平坦的），那么根据最朴素的梯度下降法，对于初始点在坐标轴附近的系统，最终就收敛于图中这样有四条上山路径和四条下山路径的四岔鞍点（比三条上山/下山路径的“猴鞍点”还复杂一点）。

很显然，对于一个一般的函数，由于其一阶偏导数只考虑到了沿坐标轴方向的变化，它根本就不能反映任何一个点沿任何其它方向的变化。考虑到，那么根据一阶偏导数来估计鞍点的数目也根本无法进行。如果我们对loss曲面一无所知，那么仅仅对于一个二元函数，收敛到鞍点的概率恐怕也是无穷大。当然了，我们似乎总是怀着良好的信念，认为实际遇到的函数的性质足够良好，并没有那么那么多猴鞍点、四岔鞍点、五岔鞍点……虽然好像没有什么理论上的证明，但至少根据大家对化学势能面的研究，这种信念在大多数情况下好像是有效的。

作者：looooooop
https://www.zhihu.com/question/68109802/answer/264008642

很多回答已经从梯度的角度深入分析了收敛性，在这里我补充一下这个问题和泛化能力的关系，解释一下为什么没有收敛也不妨碍应用。

tl;dr：首先在实际的训练中，由于SGD以及dropout等regularization方法的使用，
最后模型基本不可能收敛于某一个点，它只是处在了一个比较平坦的区域。其次，神经网络的神奇之处在于，在这个平坦的区域内随便选一个点（即网络参数）都会具有很好的泛化能力，且这个平坦区域越大，泛化能力越好，从而可以在测试集上取得比较好的结果。这也是神经网络应用广泛的原因。

1. 最后不会收敛到某一点。sgd和dropout等都相当于是在模型中注入了具有随机性的噪声，所以基本没有可能存在一个点，可以在这些噪声的干扰下得到零梯度。所以最终稳定的模型应该是处在一个区域内，这些噪声的干扰不会让模型脱离这个区域。

2. 没有收敛并不是坏事。尽管模型最后并没有收敛到某一个点，我们仍将最后的稳定位置称为一个minima，在这里minima指的并不是点，而是一个区域。在这个区域里面，loss surface是基本平坦的，且低于周围的位置，看起来像是一个盆地。在[1]里面，作者指出神经网络的loss surface上会有很多这种minima，使用sgd得到的minima的函数值通常都比较小。这和我们的经验是相符合的：配合各种训练方法，随机初始化的神经网络训练到最后的training loss都会比较小。特别地，[1]里面提到全局最优的参数往往意味着严重过拟合（可以从数据存在噪声的角度理解这个结论）。在[2]以及它引用的一些文献中，我们可以看到，这些小“盆地”的面积和网络泛化能力强相关。通常，面积大的盆地（flat minima）泛化能力好（可以从loss对权重噪声的稳定性上理解）。

[1] Choromanska, A., Henaff, M., Mathieu, M., Arous, G. B., & LeCun, Y. (2015, February). The loss surfaces of multilayer networks. In Artificial Intelligence and Statistics (pp. 192-204).

[2] Hochreiter, S., & Schmidhuber, J. (1997). Flat minima. Neural Computation, 9(1), 1-42.

作者：李珂
https://www.zhihu.com/question/68109802/answer/261755787

因为你的直觉是错的。

你以为你所优化的神经网络参数空间可能会像下图一样陷入local minima：

图片来源：Deep Learning Specialization by Andrew Ng

但实际上在高维空间中绝大多数梯度值为0的点不是上图所示的local minima，而是saddle point（我们在将低维空间中的直觉想当然地推广到高维时出现了问题）：

图片来源：Deep Learning Specialization by Andrew Ng

假设在一个20,000维的参数空间中，如果某个点梯度值为0，那么在每个方向上既可以是凸（convex）函数也可以是凹（concave）函数（如下图所示）。但要想该点成为local minima的话，所有的20,000个方向都必须是凸的，在神经网络构成的巨大的参数空间中，这个概率是十分小的。

图片来源：Deep Learning Specialization by Andrew Ng

作者：苏剑林
https://www.zhihu.com/question/68109802/answer/1533958114

我很奇怪这两个东西有什么逻辑关系吗？人干活很多时候连局部最优都做不到，难道就不用干了吗？比如你每天上班的路线，我估计也不是一个局部最优解，更不用说全局最优，难道就不用上班了？你等下想要吃的晚餐，也不一定就是最有营养的，难道就不吃了？

我们从来就没有多少次要求自己得到最优解的行为，何苦强求模型最优解？反过来讲，既然我们的“远远不足最优解”还能让我们好好活着，那就说明模型也未必需要最优解。

作者：知乎用户
https://www.zhihu.com/question/68109802/answer/262019967

SGD被广泛用于训练神经网络的主要原因是，在实际中好用。

对于机器学习来说，是不是收敛到局部最优其实无所谓，只要拿到的model能generalize就是好model。更极端点的说，其实很多时候收不收敛都无所谓，这个在深度学习里不少吧。

至于说一定要研究收敛到什么样的解，都是从理论的角度出发。所谓追求“deep thinking”嘛。不过很多时候deep thinking被狭隘的理解为deep math，完全是本末倒置了。

很多时候，所谓“理论上的局限性”只是做理论的人的局限性。因为没做明白嘛！

作者：Ginger
https://www.zhihu.com/question/68109802/answer/1679865421

这种优化问题其实大都是为了解释而解释，强行解释。其实在数据在高维空间形态各异，每种优化方法也可能在某些数据流型上适用。而对于它们之间的比较，不同的实验数据甚至模型都会让优化算法的高低排位重新洗牌。这也是为什么到目前为止并没有一个有效的确定的优化算法。

就像中医一样，靠经验就行。根据经验风险最小化，adam最好，而且没必要指定lr。

虽然有极少情况下它确实不收敛，在扫完一两个epoch之后，acc等指标雪崩。

作者：张翰韬
https://www.zhihu.com/question/68109802/answer/262985356

梯度下降通常是收敛到saddle points而不是收敛到局部最优，尤其是高维问题里面。目前，还没有很好的方法来解决神经网络里面的优化问题。实际上这一类问题通常不是凸优化问题，它不像凸优化问题性质那么好，但是目前基本都是借鉴凸优化的解决办法，比如梯度下降。另一方面，其实我们很多时候也不是说一定要最优解甚至全局最优解，够用就行了。

梯度下降简单，易于实现，如果考虑二阶优化的话，比如L-BFGS，那么通常需要你的硬件能够支持full batch update。现在人们针对梯度下降又设计了很多改进方法，来解决优化过程中被困在saddle points，或者local minima 的问题。主要有两类改进：一类是SGD + Momentum，可以理解为下坡的时候增加一点前面步骤留下来的惯性；另一类是AdaGrad，可以理解为在学习率上面动手脚, 使得每一个参数更新都会有自己与众不同的学习率。如果对AdaGrad里面grad_squared (dx^2)那一项加入Momentum那就是RMSProp，再给grad (dx)加上Momentum就是Adam，这些就是现在最常用的梯度下降法的延伸，确实能在一定程度上解决大部分问题。

作者：知乎用户
https://www.zhihu.com/question/68109802/answer/260067336

其实是分情况的，对于人类自己定义的知识集图谱内，存在比SGD更好的办法，AlphaZero就是一个例子，因为围棋的规则还有信息对于机器是完全透明公开的，所以它可以在短短时间内就超越前代经过人工训练的版本，甚至发现许多新的套路和招式(避开了陷入Local minimum的坑)。

然而在现实世界中，人们对于许多问题的信息并不是百分百清楚了解的，因为这些隐藏的未知信息，影响了我们的判断，也成为了让机器找到全局最优解的障碍，这种情况下，我们只能接受不完美，努力获取更多的信息.

个人认为，机器学习其实就是在大海捞针，以前我们人力有限，现在因为我们拥有近乎无限的计算力，所以可以，不同的区别在于，我们所处的海（问题领域）不尽相同，对于那些我们已知边界的海洋，我们是可以找到那一根针（最优解）的，而对于有的海洋，如同浩瀚宇宙一般无边无际的时候（受限于时间空间），我们所能做的就是找到一根最像针的物件作为我们的解。

SGD应用的广泛归根究底其实是我们还需要更努力的去探索这个世界

作者：KizW
https://www.zhihu.com/question/68109802/answer/262085594

先不管他是能不能局部最优，至少当初gd从凸优化过来，人家确实想找个最优解。而且mit那个deep learning那个书前面讲了好多怎么跳出saddle points，怎么跳出局部最优的吗。

就算你找到了个算法，能达到全局最优，但是你实际问题上不好用，因为问题本身有随机性，模型本身存在误差，另外你那个数据集不能包含整个问题空间的所有情况。就像比如一个人男生找女朋友，结果次次被骗，那么他就学习到了女生都是骗子，所以实际训练出来的网络可能是个喷子。好多算法模型确实是凸的，所以能找到全局最优解，但实际上工程师们不喜欢全局最优解，所以会搞个正则化项在模型里。

从数学的角度来讲，数值优化确实想找到最优解，但是大家发现挺难找的。但从机器学习的角度来讲，我们一开始就不想要最优解，当然要是我们有无限的数据量，无限的计算能力，那么我们肯定也想要最优解啊。类似的情况是机器人定位，现在传感器和控制器都有误差，最早用determinate的模型效果很差，现在在模型里人为引入误差，反而定位定的很准。反正做计算机别和做数学的混到一起了，管你数学上的性质有多好，解决不了问题都白扯。

☆ END ☆

如果看到这里，说明你喜欢这篇文章，请转发、点赞。微信搜索「uncle_pn」，欢迎添加小编微信「 mthler」，每日朋友圈更新一篇高质量博文。

↓扫描二维码添加小编↓

[特殊字符] AlphaGo：“神之一手”背后的智能革命与人机博弈新纪元大千AI助手人工智能 Python #OTHER 人工智能算法数据挖掘机器学习 alphago google 围棋
从围棋棋盘到科学前沿的通用人工智能范式突破本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！一、核心定义与历史意义AlphaGo是由谷歌DeepMind团队开发的围棋人工智能程序，其里程碑意义在于：首破人类围棋壁垒：2016年以4:1击败世界冠军李世石九段，成为首个在完整对局中战胜人类顶尖棋手的AI。
PageRank：互联网的马尔可夫链平衡态大千AI助手人工智能 Python #OTHER 人工智能机器学习条件概率贝叶斯 PageRank 马尔科夫链 MC
本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！PageRank算法本质上是一个在网页图上定义的离散时间马尔可夫链（DTMC），其核心思想是将网页间的链接关系转化为状态转移概率。以下是详细分析：一、马尔可夫链的核心要素在PageRank中的体现马尔可夫链要素PageRank对应数学描述状态空间网页集
MCMC：高维概率采样的“随机游走”艺术大千AI助手人工智能 Python #OTHER 人工智能数据挖掘机器学习算法 MCMC 马尔科夫概率论
MCMC（马尔可夫链蒙特卡洛）是一种从复杂概率分布中高效采样的核心算法，它解决了传统采样方法在高维空间中的“维度灾难”问题。以下是其技术本质、关键算法及实践的深度解析：本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！一、MCMC要解决的核心问题目标：从目标分布(π(x)\pi(\mathbf{x})
LeetCode 刷题：数据结构与算法的实战经验分享
LeetCode刷题：数据结构与算法的实战经验分享关键词：LeetCode、数据结构、算法、刷题经验、实战摘要：本文将围绕LeetCode刷题展开，深入探讨数据结构与算法在实际刷题过程中的应用。通过分享实战经验，帮助读者更好地理解和掌握数据结构与算法知识，提升解题能力。文章将从背景介绍入手，阐述刷题的目的和意义，接着详细解释核心概念，分析它们之间的关系，然后介绍核心算法原理和具体操作步骤，结合数学
量化价值投资中的深度学习技术：TensorFlow实战
量化价值投资中的深度学习技术：TensorFlow实战关键词：量化价值投资,深度学习,TensorFlow,股票预测,因子模型,LSTM神经网络,量化策略摘要：本文将带你走进"量化价值投资"与"深度学习"的交叉地带，用小学生都能听懂的语言解释复杂概念，再通过手把手的TensorFlow实战案例，教你如何用AI技术挖掘股票市场中的价值宝藏。我们会从传统价值投资的痛点出发，揭示深度学习如何像"超级分析
高压电缆护层电流监测系统的技术实现李子圆圆人工智能
目录文章目录概要高精度电流监测的技术实现多级预警机制的构建逻辑极端环境下的稳定运行技术远程运维的技术支撑概要高压电缆护层作为电力传输的关键防护结构，其接地电流的异常变化是判断设备状态的重要指标。TLKS-PLGD高压电缆护层电流监测系统通过传感器技术与智能算法的结合，构建了一套完整的电缆安全监测方案。高精度电流监测的技术实现高精度电流监测的技术实现护层电流监测的核心在于数据采集的精准性。该系统采用
【人工智能】Spring AI Alibaba，一个面向 Java 开发者的开源框架，它旨在简化将人工智能（AI）功能集成到应用程序中的过程。本本本添哥 A -AIGC 人工智能大模型人工智能 java spring
一、SpringAIAlibaba介绍SpringAIAlibaba是一个面向Java开发者的开源框架，它旨在简化将人工智能（AI）功能集成到应用程序中的过程。该项目基于SpringAI构建，并且是阿里云通义系列模型及服务在JavaAI应用开发领域的最佳实践。SpringAIAlibaba的目标是为开发者提供一套高层次的AIAPI抽象以及与云原生基础设施的深度集成方案，从而帮助他们快速构建智能应用
构建安全密码存储策略：核心原则与最佳实践 weixin_47233946 信息安全安全
密码是用户身份认证的第一道防线，其存储安全性直接关系到用户隐私和企业信誉。近年来频发的数据泄露事件揭示了密码管理的关键性。本文将深入探讨从加密算法到系统性防护的完整密码存储方案，帮助开发者构建企业级安全防御体系。一、密码存储基本准则绝对禁止明文存储：即使采用数据库加密措施，直接存储用户原始密码仍存在不可逆泄露风险。运维人员权限滥用或备份文件泄露都可能成为突破口。加密≠安全：AES等对称加密存在密钥
模型融合与人机协同：构建人机共生的智能未来 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍在科技日新月异的今天，人工智能（AI）已经成为了我们生活中不可或缺的一部分。从智能手机，到自动驾驶汽车，再到医疗诊断，AI的应用已经渗透到了我们生活的方方面面。然而，尽管AI的发展已经取得了显著的成就，但是我们仍然面临着一个重大的挑战：如何让AI系统更好地理解和适应人类的需求，以实现人机共生的智能未来。为了解决这个问题，越来越多的研究者开始探索模型融合和人机协同的方法。2.核心概念与联
数据结构实验解析(C++版)——实验一复杂度分析拯救三金数据结构 c++算法
目录一、实验例题例题1例题2二、实验原理与背景知识1、实验原理2、背景知识三、解题思路与算法1、解题思路2、算法四、代码实现例题1代码例题2代码五、实验结果分析与总结1、实验结果分析2、该实验与数据结构的联系一、实验例题例题1时间空间限制时间限制：1SEC空间限制：128MB问题描述分析以下代码：for(i=1;iusingnamespacestd;intmain(){longlongn;//输入
vLLM 优化与调优：提升模型性能的关键策略强哥之神人工智能深度学习计算机视觉 deepseek 智能体 vllm
在当今人工智能领域，大语言模型（LLM）的应用日益广泛，而优化和调优这些模型的性能成为了至关重要的任务。vLLM作为一种高效的推理引擎，提供了多种策略来提升模型的性能。本文将深入探讨vLLMV1的优化与调优策略，帮助读者更好地理解和应用这些技术。抢占式调度（Preemption）由于Transformer架构的自回归特性，有时键值缓存（KVcache）空间不足以处理所有批量请求。在这种情况下，vL
Spring Data Neo4j 与后端人工智能算法的数据交互 AI大模型应用实战 spring neo4j 人工智能 ai
SpringDataNeo4j与后端人工智能算法的数据交互关键词：SpringDataNeo4j、图数据库、人工智能算法、数据交互、知识图谱、图神经网络、数据集成摘要：本文深入探讨了如何利用SpringDataNeo4j框架实现后端人工智能算法与图数据库的高效数据交互。文章首先介绍了图数据库和人工智能算法的基本概念，然后详细解析了SpringDataNeo4j的核心架构和原理。接着，通过实际代码示
【数据结构】复杂度分析
目录一、算法1.基本概念2.描述方法3.算法效率二、算法的时间复杂度三、算法的空间复杂度一、算法1.基本概念通俗的讲，算法是解决问题的方法，比如在现实生活中一道菜谱，一个安装轮椅的操作指南等。严格的说，算法是对特定问题求解步骤的一种描述，是指令的有限序列。算法具有的基本特性有：（1）有穷性。一个算法必须总是在执行有穷步之后结束，且每一步都在有求时间内完成。（2）确定性。算法中的每一条指令必须有确切
ResNet：深度卷积神经网络的里程碑心想事“程” 小知识点 cnn 人工智能神经网络
一、引言在深度学习的发展历程中，深度卷积神经网络（CNN）不断演进，旨在提升对图像等数据的特征提取与分类能力。然而，随着网络层数的增加，传统CNN面临着梯度消失、梯度爆炸以及退化等棘手问题，训练变得愈发困难。2015年，由微软研究院提出的ResNet（ResidualNetworks，残差网络）横空出世，它以独特的残差学习思想，成功攻克了这些难题，在ImageNet竞赛中大放异彩，开创了深度神经网
视觉算法之卷积神经网络清风AI 深度学习算法详解及代码复现计算机视觉 cnn 神经网络深度学习 python 课程设计毕业设计
定义与特点卷积神经网络(ConvolutionalNeuralNetwork,CNN)是一种专为处理具有网格结构的数据而设计的深度学习模型。其独特的结构和功能使其在图像处理、语音识别等领域展现出卓越的性能:CNN的核心设计理念源于对生物视觉系统的模仿。通过模拟大脑皮层中视网膜和视觉皮层的层次化结构,CNN能够有效地捕捉图像中的局部特征并逐步抽象为高层语义信息。这种设计使得CNN特别擅长处理图像和音
卷积神经网络架构的演进：从AlexNet到EfficientNet t0_54manong 大数据与人工智能 cnn 架构人工智能个人开发
在过去的8.5年里，深度学习取得了飞速的进步。回溯到2012年，AlexNet在ImageNet上的Top-1准确率仅为63.3%，而如今，借助EfficientNet架构和师生训练法，我们已经能达到超过90%的准确率。本文将聚焦于卷积神经网络（CNN）架构的演变，深入探究其背后的基本原理。一些关键术语在深入了解各种架构之前，我们需要明确几个关键术语。更宽的网络意味着卷积层中有更多的特征图（滤波器
心理健康语音分析AI模型：开启心理评估新时代 AI大模型应用实战人工智能语音识别 ai
心理健康语音分析AI模型：开启心理评估新时代关键词：心理健康评估、语音信号处理、情感计算、AI模型、多模态融合摘要：传统心理评估依赖量表问卷和人工观察，存在主观性强、效率低、难以实时监测等局限。本文将带您走进“心理健康语音分析AI模型”的世界，从基础概念到核心技术，从算法原理到实战案例，揭秘AI如何通过“听声音”读懂心理状态，开启心理评估的智能化新时代。背景介绍目的和范围心理健康问题已成为全球公共
【AI大模型】深入解析预训练：大模型时代的核心引擎我爱一条柴ya 学习AI记录深度学习人工智能 ai python AI编程算法
预训练已成为现代人工智能，尤其是自然语言处理和计算机视觉领域的基石技术。它彻底改变了模型开发范式，催生了BERT、GPT等革命性模型。本文将系统阐述预训练的核心概念、原理、方法、应用及挑战。一、预训练的本质：为何需要它？核心问题：数据标注的瓶颈监督学习依赖海量高质量标注数据，获取成本极高（时间、金钱、专业知识）。对于复杂任务（如理解语义、生成文本），标注难度呈指数级上升。标注数据稀缺导致模型泛化能
MySQL存储结构深度解析：Buffer Pool与Page管理 hdzw20 mysql复习 mysql 数据库
MySQL存储结构解析：BufferPool与Page管理在MySQL的InnoDB存储引擎中，BufferPool是其核心组件之一，它极大地提升了数据库的性能。理解BufferPool的内部结构和工作机制，对于优化MySQL数据库至关重要。本文将讨论BufferPool的结构、三大链表、改进型LRU算法以及ChangeBuffer机制。1.BufferPool结构：控制块与缓存页BufferPo
广州曼顿2P数字微断：保护电力设备的安全守护者 mdkk678 安全
在现代社会，电力设备的安全运行对各行各业至关重要。然而，电力系统中存在各种电压波动、过载和短路等问题，可能对设备造成损害。为了保护电力设备免受这些问题的影响，广州曼顿推出了2P数字微断器。本文将介绍这一创新产品的特点和优势，以及它对电力设备的保护作用。广州曼顿科技有限公司专注用户侧智慧数字电气产品研制，以及智慧电能服务大数据云平台建设。基于人工智能技术，大幅提升人触电时的生命安全保障，以及电气火灾
Python通关秘籍之基础教程(一） Smile丶Life丶 Python 通关指南：从零基础到高手之路 python 开发语言后端
引言在编程的世界里，Python就像一位温和而强大的导师，它以简洁优雅的语法和强大的功能吸引着无数初学者和专业人士。无论你是想开发网站、分析数据、构建人工智能，还是仅仅想学习编程思维，Python都是你的理想选择。Python的魅力在于它的易读性和广泛的应用场景。它的代码就像英语句子一样自然，即使是完全没有编程经验的人也能快速上手。同时，Python拥有庞大的生态系统，从Web开发（Django、
多模态大模型发展全景：从架构创新到应用突破陈敬雷-充电了么-CEO兼CTO python 大模型多模态大模型 AIGC 机器学习深度学习 DeepSeek
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】《GPT多模态大模型与AIAgent智能体》新出书籍配套视频【陈敬雷】推荐算法系统实战全系列精品课【陈敬雷】文章目录GPT多模态大模型系列四多模态大模型发展全景：从架构创新到应用突破更多技术内容总结GPT多模态大模型系列四多模态大模型
Python异步编程终极指南：用协程与事件循环重构你的高并发系统
title:Python异步编程终极指南：用协程与事件循环重构你的高并发系统date:2025/2/24updated:2025/2/24author:cmdragonexcerpt:深入剖析Python异步编程的核心机制。你将掌握：\n事件循环的底层实现原理与调度算法\nasync/await协程的6种高级用法模式\n异步HTTP请求的性能优化技巧（速度提升15倍+）\n常见异步陷阱的26种解决
一文搞懂 Cursor 内部工作原理~ zz_jesse
介绍了Cursor，一个结合了AI技术的代码编辑器，它通过深度学习和语义索引的方式，提升了开发者的工作效率。Cursor通过与VSCode相似的界面和功能，以及自己的AI特性，实现了代码的智能化编辑和错误检查。译文从这开始～～你可能已经看到新闻：OpenAI正以高达30亿美元的价格收购Windsurf！与此同时，Cursor的母公司Anysphere也正在以90亿美元估值融资9亿美元！这对于代码生
开源人工神经网络库（OpenANN） deepdata_cn 人工智能神经网络
OpenANN（OpenANN，OpenArtificialNeuralNetworkLibrary）是一个开源的人工神经网络库，基于C++编写，依赖Eigen3库进行高效的矩阵运算，使用CMake进行项目构建，支持多种神经网络架构，包括前馈神经网络、卷积神经网络和循环神经网络等，适用于图像识别、自然语言处理、时间序列预测等多种场景。提供数据预处理、模型保存和加载、超参数优化等功能。支持GPU加速
python程序基本架构_Python 程序基本架构尤尔小喵喵 python程序基本架构
Python的一般程序基本架构为：输入，处理，输出，这三块。输入：包括两个内容，变量赋值与输入语句处理：包括算术运算，逻辑运算，算法处理这三方面输出：包括打印输出，写入文件，写入数据库这三块下面举两个例子具体了解一下Python的程序基本架构1输入：变量赋值处理：算术运算输出：打印输出x=12#变量赋值x=12y=13#变量赋值y=13z=x+y#算术运算print(z)#打印输出252输入：输入
Hanbit便携式GIS局部放电检测仪中PRPD图的绘制方法研究
Hanbit便携式GIS局部放电检测仪中PRPD图的绘制方法研究摘要本报告详细阐述了韩国HanbitPoDAS便携式GIS局部放电检测仪软件中相分辨局部放电（PRPD）图的生成方法。报告旨在阐明其技术原理、数据采集、信号处理以及分析功能，这些功能共同实现了对气体绝缘开关设备（GIS）绝缘状态的精确评估。HanbitPoDAS系统利用超高频（UHF）传感器和智能软件算法来捕获、处理并显示PRPD模式
如何让AI真正理解你的意图（自适应Prompt实战指南） nine是个工程师大语言模型人工智能 prompt
目前的LLM模型，在理解用户意图方面，正在使用自适应Prompt技术，来提升模型的理解能力。目前使用deepseek推理模型能明显看到自适应的一个过程。前言：为什么你的AI总是"答非所问"？相信很多人都遇到过这样的情况：你问：“帮我写一个Python爬虫”AI答：给你一堆理论知识和完整教程（你只想要简单代码）你问：“推荐一部电影”AI答：推荐了《教父》（你想看轻松喜剧）你问：“解释一下机器学习”A
ollama v0.9.6版本发布详解：修复启动屏幕样式及新增工具名称参数支持福大大架构师每日一题文心一言vschatgpt ollama
作为近年来备受瞩目的开源对话式人工智能框架之一，ollama持续更新优化其产品，致力于为开发者带来更稳定、高效的使用体验。2025年7月8日，ollama发布了v0.9.6版本，这一版本在用户界面和API的可用性方面做出了重要改进，进一步增强了开发和集成的便捷性。本文将对ollamav0.9.6版本的更新内容进行全面解析，详细介绍新特性、修复的具体问题、应用示例及最佳实践，帮助开发者快速掌握和应用
AI人工智能与机器学习的大数据融合应用 AI智能探索者人工智能机器学习大数据 ai
AI人工智能与机器学习的大数据融合应用关键词：AI人工智能、机器学习、大数据、融合应用、数据挖掘摘要：本文深入探讨了AI人工智能与机器学习在大数据融合应用方面的相关内容。首先介绍了研究的背景、目的、预期读者和文档结构，对核心术语进行了清晰定义。接着阐述了AI、机器学习和大数据的核心概念及相互联系，给出了形象的文本示意图和Mermaid流程图。详细讲解了核心算法原理，并通过Python源代码进行说明
java Illegal overloaded getter method with ambiguous type for propert的解决 zwllxs java jdk
好久不来iteye,今天又来看看，哈哈,今天碰到在编码时，反射中会抛出 Illegal overloaded getter method with ambiguous type for propert这么个东东，从字面意思看，是反射在获取getter时迷惑了，然后回想起java在boolean值在生成getter时，分别有is和getter，也许我们的反射对象中就有is开头的方法迷惑了jdk，
IT人应当知道的10个行业小内幕 beijingjava 工作互联网
10. 虽然IT业的薪酬比其他很多行业要好，但有公司因此视你为其“佣人”。　　尽管IT人士的薪水没有互联网泡沫之前要好，但和其他行业人士比较，IT人的薪资还算好点。在接下的几十年中，科技在商业和社会发展中所占分量会一直增加，所以我们完全有理由相信，IT专业人才的需求量也不会减少。　　然而，正因为IT人士的薪水普遍较高，所以有些公司认为给了你这么多钱，就把你看成是公司的“佣人”，拥有你的支配
java 实现自定义链表 CrazyMizzz java 数据结构
1.链表结构链表是链式的结构 2.链表的组成链表是由头节点，中间节点和尾节点组成节点是由两个部分组成： 1.数据域 2.引用域 3.链表的实现 &nbs
web项目发布到服务器后图片过一会儿消失麦田的设计者 struts2 上传图片永久保存
作为一名学习了android和j2ee的程序员，我们必须要意识到，客服端和服务器端的交互是很有必要的，比如你用eclipse写了一个web工程，并且发布到了服务器（tomcat）上，这时你在webapps目录下看到了你发布的web工程，你可以打开电脑的浏览器输入http://localhost:8080/工程/路径访问里面的资源。但是，有时你会突然的发现之前用struts2上传的图片
CodeIgniter框架Cart类 name 不能设置中文的解决方法 IT独行者 CodeIgniter Cart 框架　
今天试用了一下CodeIgniter的Cart类时遇到了个小问题，发现当name的值为中文时，就写入不了session。在这里特别提醒一下。在CI手册里也有说明，如下： $data = array( 'id' => 'sku_123ABC', 'qty' => 1, '
linux回收站 _wy_ linux 回收站
今天一不小心在ubuntu下把一个文件移动到了回收站，我并不想删，手误了。我急忙到Nautilus下的回收站中准备恢复它，但是里面居然什么都没有。后来我发现这是由于我删文件的地方不在HOME所在的分区，而是在另一个独立的Linux分区下，这是我专门用于开发的分区。而我删除的东东在分区根目录下的.Trash-1000/file目录下，相关的删除信息（删除时间和文件所在
jquery回到页面顶端知了ing html jquery css
html代码： <h1 id="anchor">页面标题</h1> <div id="container">页面内容</div> <p><a href="#anchor" class="topLink">回到顶端</a><
B树、B-树、B+树、B*树矮蛋蛋 B树
原文地址： http://www.cnblogs.com/oldhorse/archive/2009/11/16/1604009.html B树即二叉搜索树： 1.所有非叶子结点至多拥有两个儿子（Left和Right）； &nb
数据库连接池 alafqq 数据库连接池
http://www.cnblogs.com/xdp-gacl/p/4002804.html @Anthor:孤傲苍狼数据库连接池用MySQLv5版本的数据库驱动没有问题，使用MySQLv6和Oracle的数据库驱动时候报如下错误： java.lang.ClassCastException: $Proxy0 cannot be cast to java.sql.Connec
java泛型百合不是茶 java泛型
泛型在Java SE 1.5之前，没有泛型的情况的下，通过对类型Object的引用来实现参数的“任意化”，任意化的缺点就是要实行强制转换，这种强制转换可能会带来不安全的隐患泛型的特点：消除强制转换确保类型安全向后兼容简单泛型的定义：泛型：就是在类中将其模糊化，在创建对象的时候再具体定义 class fan
javascript闭包[两个小测试例子] bijian1013 JavaScript JavaScript
一.程序一 <script> var name = "The Window"; var Object_a = { 　　name : "My Object", 　　getNameFunc : function(){ var that = this; 　　　　return function(){ 　　　　
探索JUnit4扩展：假设机制（Assumption） bijian1013 java Assumption JUnit 单元测试
一.假设机制（Assumption）概述理想情况下，写测试用例的开发人员可以明确的知道所有导致他们所写的测试用例不通过的地方，但是有的时候，这些导致测试用例不通过的地方并不是很容易的被发现，可能隐藏得很深，从而导致开发人员在写测试用例时很难预测到这些因素，而且往往这些因素并不是开发人员当初设计测试用例时真正目的，
【Gson四】范型POJO的反序列化 bit1129 POJO
在下面这个例子中，POJO(Data类)是一个范型类，在Tests中，指定范型类为PieceData，POJO初始化完成后，通过 String str = new Gson().toJson(data); 得到范型化的POJO序列化得到的JSON串，然后将这个JSON串反序列化为POJO import com.google.gson.Gson; import java.
【Spark八十五】Spark Streaming分析结果落地到MySQL bit1129 Stream
几点总结： 1. DStream.foreachRDD是一个Output Operation，类似于RDD的action，会触发Job的提交。DStream.foreachRDD是数据落地很常用的方法 2. 获取MySQL Connection的操作应该放在foreachRDD的参数（是一个RDD[T]=>Unit的函数类型)，这样，当foreachRDD方法在每个Worker上执行时，
NGINX + LUA实现复杂的控制 ronin47 nginx lua
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-递归判断数组是否升序 bylijinnan java
public class IsAccendListRecursive { /*递归判断数组是否升序 * if a Integer array is ascending,return true * use recursion */ public static void main(String[] args){ IsAccendListRecursiv
Netty源码学习-DefaultChannelPipeline2 bylijinnan java netty
Netty3的API http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/ChannelPipeline.html 里面提到ChannelPipeline的一个“pitfall”：如果ChannelPipeline只有一个handler（假设为handlerA）且希望用另一handler（假设为handlerB）来
Java工具之JPS chinrui java
JPS使用熟悉Linux的朋友们都知道，Linux下有一个常用的命令叫做ps（Process Status)，是用来查看Linux环境下进程信息的。同样的，在Java Virtual Machine里面也提供了类似的工具供广大Java开发人员使用，它就是jps（Java Process Status)，它可以用来
window.print分页打印 ctrain window
function init() { var tt = document.getElementById("tt"); var childNodes = tt.childNodes[0].childNodes; var level = 0; for (var i = 0; i < childNodes.length; i++) {
安装hadoop时执行jps命令Error occurred during initialization of VM daizj jdk hadoop jps
在安装hadoop时，执行JPS出现下面错误 [slave16][email protected]:/tmp/hsperfdata_hdfs# jps Error occurred during initialization of VM java.lang.Error: Properties init: Could not determine current working
PHP开发大型项目的一点经验 dcj3sjt126com PHP 重构
一、变量最好是把所有的变量存储在一个数组中，这样在程序的开发中可以带来很多的方便，特别是当程序很大的时候。变量的命名就当适合自己的习惯，不管是用拼音还是英语，至少应当有一定的意义，以便适合记忆。变量的命名尽量规范化，不要与PHP中的关键字相冲突。二、函数 PHP自带了很多函数，这给我们程序的编写带来了很多的方便。当然，在大型程序中我们往往自己要定义许多个函数，几十
android笔记之--向网络发送GET/POST请求参数 dcj3sjt126com android
使用GET方法发送请求 private static boolean sendGETRequest (String path, Map<String, String> params) throws Exception{ //发送地http://192.168.100.91:8080/videoServi
linux复习笔记之bash shell (3) 通配符 eksliang linux 通配符 linux通配符
转载请出自出处： http://eksliang.iteye.com/blog/2104387 在bash的操作环境中有一个非常有用的功能，那就是通配符。下面列出一些常用的通配符，如下表所示符号意义 * 万用字符，代表0个到无穷个任意字符 ? 万用字符，代表一定有一个任意字符 [] 代表一定有一个在中括号内的字符。例如：[abcd]代表一定有一个字符，可能是a、b、c
Android关于短信加密 gqdy365 android
关于Android短信加密功能，我初步了解的如下（只在Android应用层试验）： 1、因为Android有短信收发接口，可以调用接口完成短信收发；发送过程：APP（基于短信应用修改）接受用户输入号码、内容——>APP对短信内容加密——>调用短信发送方法Sm
asp.net在网站根目录下创建文件夹 hvt .net C#hovertree asp.net Web Forms
假设要在asp.net网站的根目录下建立文件夹hovertree,C#代码如下： string m_keleyiFolderName = Server.MapPath("/hovertree"); if (Directory.Exists(m_keleyiFolderName)) { //文件夹已经存在 return; } else { try { D
一个合格的程序员应该读过哪些书 justjavac 程序员书籍
编者按：2008年8月4日，StackOverflow 网友 Bert F 发帖提问：哪本最具影响力的书，是每个程序员都应该读的？ “如果能时光倒流，回到过去，作为一个开发人员，你可以告诉自己在职业生涯初期应该读一本，你会选择哪本书呢？我希望这个书单列表内容丰富，可以涵盖很多东西。” 很多程序员响应，他们在推荐时也写下自己的评语。以前就有国内网友介绍这个程序员书单，不过都是推荐数
单实例实践跑龙套_az 单例
1、内部类 public class Singleton { private static class SingletonHolder { public static Singleton singleton = new Singleton(); } public Singleton getRes
PO VO BEAN 理解 q137681467 VO DTO po
PO：全称是 persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。 BO：全称是 business object:业务对象主要作用是把业务逻辑封装为一个对象。这个对
战胜惰性，暗自努力金笛子努力
偶然看到一句很贴近生活的话：“别人都在你看不到的地方暗自努力，在你看得到的地方，他们也和你一样显得吊儿郎当，和你一样会抱怨，而只有你自己相信这些都是真的，最后也只有你一人继续不思进取。”很多句子总在不经意中就会戳中一部分人的软肋，我想我们每个人的周围总是有那么些表现得“吊儿郎当”的存在，是否你就真的相信他们如此不思进取，而开始放松了对自己的要求随波逐流呢？我有个朋友是搞技术的，平时嘻嘻哈哈，以
NDK/JNI二维数组多维数组传递 wenzongliang 二维数组 jni NDK
多维数组和对象数组一样处理，例如二维数组里的每个元素还是一个数组用jArray表示，直到数组变为一维的，且里面元素为基本类型，去获得一维数组指针。给大家提供个例子。已经测试通过。 Java_cn_wzl_FiveChessView_checkWin( JNIEnv* env,jobject thiz,jobjectArray qizidata) { jint i,j; int s

梯度下降法的神经网络容易收敛到局部最优，为什么应用广泛？

真的结束于最优点吗？

如果我们的模型真的收敛到鞍点上了，会很可怕吗？

为什么我们的模型看起来是收敛了呢？

你可能感兴趣的:(神经网络,算法,机器学习,人工智能,深度学习)