/home/liupc

Gradient Descent

//李宏毅视频官网：http://speech.ee.ntu.edu.tw/~tlkagk/courses.html 点击此处返回总目录

//邱锡鹏《神经网络与深度学习》官网：https://nndl.github.io

今天要讲的是Gradient descent，Gradient descent 已经大概讲过怎么做了。但是有一些小技巧你可能是不知道的。所以我们要再详细说明一下Gradient descent，你要怎么把它做得更好。

-------------------------------------------------------------------------------------------------------------------------------

我们上次是这样说的，在整个machine learning的第三个步骤，我们要找一个最好的function。找一个最好的function这件事呢，是要解一个optimization problem。也就是在第二步的时候，我们定义了一个Loss function ，L。这个Loss function 呢，是function的function。你把一个function带到这个Loss function里面，或者你把一个操控function形状的参数（这里写作）带到Loss function里面，就会得到这组参数有多不好。那接下来要做的事情呢，就是找一组参数，让Loss function 越小越好。

那这件事情怎么做呢？可以用Gradient descent。

假设这个参数的set，里面有两个参数。首先随机选取起始的点，随机选取一组起始的参数，写成：。用上标0表示初试的那一组参数，用下标代表说这是这一组参数里面的第几个component。接下来计算偏微分。然后更新。然后这个步骤反复不断地进行。这个就是Gredient descent.

如果你想要写的更简洁一些，假设你现在有两个参数，你可以这样写：

把L对参数求偏微分，然后把两个偏微分放在一起，组成一个向量。这个向量就叫做梯度。

所以，可以把更新过程简写为：

-------------------------------------------------------------------------------------------------------------------------------

如果把它virtualize的话呢，他看起来是这个样子：

首先初始，随机找两个参数：

然后计算这个点，对Loss function的梯度。假设梯度是红色的箭头。Gradient是一个向量。如果你不知道gradient是什么的话，你就想成它是等高线的法线方向。如果你把Loss function 的等高线画出来的话呢，这个红色的箭头指的方向就是等高线的法线方向。

那怎么update参数呢？你就把这个gredient乘上learning rate。再取一个负号，就是这个蓝色的箭头。再加上，就得到。

然后这个步骤就反复地进行下去，再计算一遍梯度，得到另外一个红色的箭头，走的方向是红色箭头相反的方向。一直进行下去。算一次Gredient，决定要走的方向。。。

-------------------------------------------------------------------------------------------------------------------------------

以上的这些，我们其实都讲过了。接下来呢，讲一下gradient descent的tips。第一个呢是，你要小心地调你的learning rete。

如果你已经开始做作业1的话呢，你会知道说，learning rate 有时候会给你造成一些问题的。举例来说，下面是Loss function的曲线，长这个样子。

如果你的learning rate 调的刚刚好的话，你从左边开始，顺着红色的箭头可以很顺利地走到最低点。

可是，如果learning rate 调的太小的话，会变得非常慢。虽然，实际上给它足够的时间，它终究会走到local minimum的地方。但是，如果他走得太慢的话，你会没有办法接受这件事。

如果，今天这个learning rate 调的稍微大一点。像绿色这个箭头的话，那就变成说呢，它的步伐太大，它变得像个巨人一样，它永远没有办法走到这个特别低的地方。它都在这个山谷的口这个地方震荡。它永远走不下去。

甚至，如果今天你把learning rate 调的太大的话，它可能就一瞬间就飞出去了。结果你update参数以后，loss function反而越来越大。

其实是只有你的参数在一维或者二维的时候，你才能画出这样的图。如果你有很多维的参数，error 在一个高维的空间里面，你是没有办法visualize它的。但是有另外一个东西，你是可以visualize的。什么东西呢，你可以visualize参数的变化对loss的变化。你可以visualize每次参数update的时候，Loss的改变的情形。所以如果你今天learning rate设置的太小的话，你就会发现，Loss下降的非常非常慢。

如果，你今天learning rate调的太大的话，在前面的图也可以看到，loss 先快速的下降，接下来就卡住了。画出图来，是下面绿色的线，Loss很快就下降了，然后很快就卡住了。

如果，你的learning rate 调的过于大了，你会发现你的loss直接就飞出去了。

你需要调整他到刚刚好。你才能得到一个好的结果。

所以你在做gradient descent 的时候，你应该要把这个图画出来，没有把这个图画出来会非常非常的卡。有的人反正就把gradient descent的式子写好，写好就开始跑，跑完之后就会说，结果烂掉了，他也不知道烂在哪里。

所以在做gradient descent的时候，你应该把这张图画出来。你要看一下它前几次update参数的时候，它update的走法是什么样子，搞不好它一下子就爆炸了，你就知道你赶快调learning rate。你要确定它是在稳定的下降。

-------------------------------------------------------------------------------------------------------------------------------

但是要调learning rate很麻烦，有没有办法自动地调learning rate呢？有一些自动的方法可以帮我们调learning rate。

最基本的而简单的大原则是，通常learning rate是随着参数的update会越来越小的。为什么会这样呢？因为当你在刚开始的起始点的时候，通常是离最低点是比较远的，所以步伐要踏大一点，走得快一点才能走到最低点。但是呢，经过好几次的参数的update以后呢，你已经比较靠近你的目标了，所以这个时候你就应该减小你的learning rate，让他能够收敛在最低点的地方。举例来说，你的learning rate的设法可以这样：，learning rate 是一个t的函数，在第t次update你的参数的时候，为常数除以根号t+1,这样当update的次数越多，learning rate越小。

但是光这样呢，是不够的。我们需要因材施教。所以，最好的状况应该是，每个不同的参数都给他不同的learning rate。

-------------------------------------------------------------------------------------------------------------------------------

这件事情呢，是有很多小的技巧的。其中，我觉得最容易最简单的叫做，Adagrad。

Adagrad是这样子的，他说呢，每一个参数的learning rate都把它除以之前算出来的微分值的root mean square(均方根).

什么意思呢？我们原来的gradient descent是这样：

其中，

假设W呢，是某一个参数。现在的w不是一组参数，而是我们只考虑一个参数。因为我们现在在做Adagrad，adagrad的每一个参数都有不同的learning rate,所以呢，我们要把每一个参数都分开来考虑。w是一个参数，w的learning rate，在一般的gradient descent中，可能就给他一个depend on 时间的值，比如说。但是，你可以把这件事情做得更好：

在adagrad里面呢，你把除以。是过去所有的微分的值的均方根。这个值对每一个参数而言，都是不一样。所以现在变成说，不同的参数，他的learning rate都是不一样的。

我们来实际举一个例子，来看这件事情是怎么做的。

假设初始的值是w0,接下来计算w0点的微分g0。他的learning rate是什么呢，是。是一个时间depend的参数，呢是，过去所有微值的均方根。在这里，之算过一个，所以是根号g0的平方。以此类推。

所以呢，我们用adagrad的时候呢。他update的式子呢，可以写成下图中上式子。但是发现，分子分母都可以约掉根号t+1。所以式子可以化简。

-------------------------------------------------------------------------------------------------------------------------------

这个方法你可以接受么？大家有问题么？

Adagrad他的参数uptate其实是越来越慢的。如果不喜欢这个结果的话，有很多比这个更强的方法。Adaptive learning rate其实是一些列的方法，今天将的adagrad其实是里面最简单的。有很多其他的，差不多都是用“ada-”开头这样。所以，如果你用别的方法，比如adam,它就比较不会有这样的情形。如果，其实你没有什么特别的偏好的话，其实你可以用adam,他现在应该是我觉得最稳定的。但是他的实现比较复杂，但是其实也没有特别复杂。

大家还有什么问题么？

好，我其实是有一个问题。我们在做一般的gradient descent的时候，我们参数的update取决于两件事情，一件事情是learning rate，另外一件事情是gradient。我们一直说，gradient越大，参数update的就越快。我相信你可以接受这件事情。但是在adagrad里面，你不觉得相当矛盾么，有些怪怪的地方。右边一项说，微分的值越大，参数update的越快。但是下面一项是相反的，当微分越大的时候，底下算出来的这一项越大，参数update的步伐越小。这不就跟我们原来要做的事情有所冲突的么？分子说gradient越大，参数update越大，分母说gradient越大，参数update的越小。好，怎么解释这件事情呢？

有一些paper是这样解释的。这个adagrad想要考虑的是，今天这个gradient有多surprise，也就是所谓的“反差”。反差大家都知道么。反差就是如果本来很凶恶的角色，突然对你很温柔这样子，就会觉得特别温柔。对gradient来说，也是一样的道理。假设有某一个参数，他在刚开始参数gradient为0.001，之后是0.001,0.003，。。到某一次呢，gradient算出来是0.1,你就觉得特别大。因为比之前的gradient算出来大了100倍。但是，如果有另外一个参数，他一开始算出来是10.8，然后是20.9,31.7,...但是，在某一次呢，他算出来是0.1，这时候就会觉得他特别小。所以为了强调这种反差的效果，所以在adagrad里面呢，我们就把它除以根号平方和这一项。这一项呢，就是把过去的gradient的平方和算出来，这样就知道过去gradient有多大，然后相除，看看反差有多大。【这一块没听懂】

上面是直观的解释。更正式的解释呢，我有这样的解释：

我们来考虑一个二次函数，这个二次函数为，它只有一个参数x。求微分为2ax+b。最低点在-b/2a。高中就学过。

如果，今天呢，在这个二次函数上，随机地选一个点开始，要做gradient descent。那你的步伐踏出去多大是最好的呢？假设起始点是x0,最低点是-b/2a。那踏出去的一步最好的步伐其实就是这两个点之间的距离，因为如果踏出去的距离是这两个点之间的距离的话，就一步到位了。这两个点之间的距离就是x0+b/2a，整理一下就是(2ax0+b)/2a。

分子2ax0+b就是导数这一项。就是x0这一点的微分。所以，gradient descent 听起来很有道理，就是说，如果我今天算出来的微分越大，我就离最低点越远，如果我踏出去的最好的步伐是跟微分的大小成正比。

所以呢，如果踏出去的步伐跟微分成正比，他可能是最好的步伐。但是呢，这个事情是在只考虑一个参数的时候才成立。如果我们今天呢，我们要同时考虑好几个参数，这个时候呢，刚才的论述就不见得成立了。也就是说，gradient的值越大，就跟最低点的距离越远，这一件事情，在有好多个参数的时候，是不一定成立的。

比如，我们考虑w1和w2这两个参数。这个图上的颜色是他的loss.如果我们考虑w1的变化，我们就在这个蓝色这条线切一刀。我没看到error的surface（表面）长这样。如果比较图上的a点和b点，确实a点的微分值比较大，它离最低点比较远。

我们考虑w2这个参数，在绿色这条线上切一刀。我们得到的值是这样子。得到的error surface是这样。它是比较尖的，谷是比较深的。w2在这个方向的变化是比较猛烈的。如果我们只比较这根线上的两个点c跟d的话，确实c的微分比较大，距离最低点比较远。

但是如果今天比较跨参数的话，如果我们比较a点和c点，我们比较a这个点对w1的微分和c这个点对w2的微分。这个结论呢，就不成立了。虽然说c这个点的微分值是比较大的，a点的微分值是比较小的，但是c离最低点是比较近的，a离最低点是比较远的。所以，更新参数跟微分的值成正比，这样的论述是在没有考虑跨参数的情境下才成立的。当我们同时考虑好几个参数的时候，我们这样想呢，就不足够了。

所以我们今天要同时考虑好几个参数的时候，我们要怎么想呢？我们看刚才的最好的步伐，除了分子之外，分母还有2a,这个2a是什么呢？如果把y做二次微分，就会得到2a。所以今天最好的step他不只是要正比于一次微分，他同时要和二次微分的大小成反比。

所以，最好的step他要把二次微分考虑进来。如果今天把二次微分考虑进来，会发现，在w1这个方向上，二次微分是比较小的。因为第一个抛物线比较平滑。在w2这个方向上，这个抛物线是比较深的谷，它的二次微分是比较大的。所以光比较a和c的微分值是不够的。你要比较a的微分值除以它的二次微分跟 c的微分值除以它的二次微分来比较。这样才能真正显示这些点跟最低点的真正距离。在a点，他的微分是比较小的，但是他的二次微分也是比较小的；在c点处，他的微分是比较大的，但是他的二次微分也是比较大的。

好，这件事情，跟adagrad的关系是什么呢？

如果你把adagrad的式子列出来的话，参数的update的量是左边这个样子。是一个常量，所以不理他。就是一次微分。下面这个所有过去微分值的平方和再开根号，它想要代表的就是二次微分。你可能会说，怎么不直接算二次微分呢？确实可以做二次微分，但是有时候你会遇到的状况是，参数量大，data多，可能算二次微分要花很长的时间。有时候这样的结果是你不能承受的。而且多花时间不一定效果好。adagrad的做法就是，我们在没有增加任何额外运算的前提之下，想办法能不能做一件事情去估一下二次微分是多少。在adagrad里面，只需要一次微分的值，而这个本来就是要算的，所以没有多做多余的任何运算。

那怎么做呢？如果我们考虑一个二次微分比较小的峡谷跟一个二次微分比较大的峡谷。他们的一次微分为下面的图。

如果只是随机sample一个点，算他的一次微分的话，你看不出来他的二次微分的值是多少。

但是，如果你sample够多点，你就会发现说，在比较平滑的峡谷里面，他的一次微分通常是比较小的；在比较尖的峡谷里面，他的微分通常是比较大的。而adagrad中过去微分值的平方和再开根号，就相当于sample的这些点做平方和再开根号，就反映了二次微分的大小。adagrad怎么做，我们上次有示范过，就不在示范了。

-------------------------------------------------------------------------------------------------------------------------------

接下来，我们要讲的另外一件事情呢，是stochastic gradient descent （随机梯度下降）。他可以让你的training 更快一点。

这个怎么说呢，我们之前的Regression里面讲，Loss function 长这样：

这个式子非常合理，我们本来就应该考虑所有的sample。有了这些以后，就可以做gradient descent。但是stochastic gradient descent 它的想法就不一样，它每次就拿一个example xn出来（你可以按照顺序去，也可以随机取。），然后计算Loss，Loss呢，只考虑一个example。不做summation了。我们写作L上标n，表示考虑第n个example的Loss function。接下来呢，在update参数的时候，你只算L上标n的gradient。然后就很急躁的update参数了。所以在原来的gradient descent里面，要计算所有data的loss，然后再update参数。但是在随机梯度下降法里面，你看一个example就更新一下参数。这有啥好呢？听起来好像没有什么好的。

那我们来实际操作一下。

我们看到的图呢，可能是这样。原来的gradient descent，看完一遍example之后，就更新一遍参数。你会发现他是比较稳定的，他走的方向就是按照gradient descent 建议我们的方向来走。但是如果你是随机梯度下降的话，你每看一个example，你就update一次参数，如果你有20个example的时候，那你就update20次参数。所以当左边update一次的时候，右边已经update20次参数。右边，如果只看一个参数的话，他的步伐是小的，而且可能是散乱的，因为你每次只考虑一个example，他update的方向跟gradient descent 的tool Loss的error surface建议我们的方向不见得是一致的，但是因为我们可以看很多个example，左边走一步的时候，右边已经走了20步了，所以他走得反而是比较快的。

-------------------------------------------------------------------------------------------------------------------------------

接下来，我们讲的是第三个，就是你可以做feature scaling(特征归一化)。

所谓的feature scaling的意思呢，是这样。假设现在我们要做Regression，那我们这个Regression 的function中input的feature有两个x1和x2。如果x1和x2他们的分布的range很不一样的话，那就建议你把他们做scaling。把他们range的分布变成是一样的。举例来说，x2他的分布呢，是远比x1大的。那就建议你呢，把x2做一下scaling，把他的值呢缩小，让x2的分布跟x1的分布是比较像的。希望不同的feature他们的scaling是一样的。

为什么要这么做呢？我们举一个例子。假设下面是我们的Regression的function。写成这样跟意思是一样的。

假设x1平常的值都是比较小的，比如说1啊,2啊之类的。假设x2平常的值都很大，都是100啊，200啊之类的。那把Loss的surface画出来，会遇到什么状况呢?你会发现，如果你更改w1和w2的值，假设你把w1和w2的值都做一样的变动，都加个daita w，你会发现w1的变化对y的变化是比较小的。w2的变化对y的变化而言是比较大的。这个是很合理的，因为你要把w2乘上100,200这些值，而w1乘上1,2这些值。如果w2乘上的这些值是比较大的，w2只需要做小小的变化，y就变化很大。所以把Loss的surface画出来，可能是下面这个样子：

这个图呢，是什么意思呢？因为w1的变化的y的影响比较小，所以w1就对Loss的影响比较小。所以w1对Loss是有比较小的微分的。所以在w1这个方向上是比较平滑的。w2对y的影响比较大，所以对Loss的影响比较大。改变w2的时候对loss的影响比较大，所以在w2的方向上是比较sharp的，在w2这个方向上有一个比较尖的峡谷。

如果x1和x2他们的scale是接近的。如果你把Loss画出来的话呢，他就会比较接近圆形，因为w1和w2呢，对Loss是有差不多的影响力的。

那这个对做gradient descent 会有什么样的影响呢？是会有影响的。比如从某个点开始，这种长椭圆的error surface，如果你不出些adagrad之类的方法，很难搞定它。因为在不同的方向上你会需要不同的learning rate，同一组learning rate你会搞不定他，一定要各自的learning rate才能搞定。所以没有scaling的时候，它update参数是比较难的。但是，如果你有scaling的话，他就变成正圆形。正圆形的时候，update参数就会变得比较容易。而且，你知道gradient descent并不是向着最低点走的，update的时候是顺着等高线的方向，是顺着gradient建议我们的方向。左边的图，虽然最低点在中间，但是不会指向最低点去走。但是右边的图呢，就不一样，如果是正圆的话，不管在区域的哪一个点，他都会向着圆心走。所以，如果有做scaling，在update参数的时候，是会比较有效率。

那怎么做scaling？方法有千百种。选一个你喜欢的就是了。常见的做法是这样的。假设我有R笔example，x1到xR。每一笔example里面都有一组feature。

那怎么做feature scaling，你就对每一个dimension i，都去算他的mean,写成mi；都去算他的stand deviation，写成。

然后对每一个example，比如第r个example的第i个component，减掉mi,再除以。做完这件事以后，所有dimension的mean就是0，variance就会是1。

这就是常见的做normalization的方法。

-------------------------------------------------------------------------------------------------------------------------------

最后，我们来讲一下为什么gradient descent他会work。他背后的理论基础是什么。

在真正深入数学部分之前呢，我们来问大家一个问题。大家都已经知道gradient descent是怎么做的。假设，问一个判断题。每一次我们在update参数的时候，我们都得到一个新的。这个新的总是会让我们的Loss比较小么？

答案：update参数以后，Loss不见得会下降的。

-------------------------------------------------------------------------------------------------------------------------------

在解释theory之前。首先声明一下，这一部分就算你没有听懂，也没有关系，太阳明天已经回升起。

好，我们先不要管gradient descent。假设你要解一个问题，你要在图上找他的最低点。你到底应该怎么做。有一个这样的做法，如果今天给我一个起始的点，也就是，我们有方法在起始点的附近画一个圆圈，画一个范围，然后在红色圈圈里面，找出他的最低点，比如在边上。这个的意思是说，如果你给我一整个error function，我没有办法立刻告诉你说它的最低点在哪里。但是，你给我一个error function加上一个初试的点，我会告诉你，在这个初试点的附近，画一个范围之内，找出一个最小的点。

假设找到最小的值之后，我们就更新我们的中心的位置，把中心的位置挪到。接下来，再画一个圆圈，我们可以在这个圆圈范围之内，再找一个最小的点，假设落在上面这个地方。

然后再更新中心的位置到这个地方。然后再找范围内最小的点。。。就这样更新下去。

那现在的问题就是，怎么很快地，在红色的圈圈里面，找一个可以让Loss最小的参数呢？怎么做这件事情呢？

这个地方就要从泰勒公式说起。

-------------------------------------------------------------------------------------------------------------------------------

在讲之前，我首先补充一下高数里面泰勒公式的内容。

-------------------------------------------------------------------------------------------------------------------------------

泰勒公式说，任何一个function h(x),如果在x0点，是无限可微的。那可以把h(x)写成以下这个样子：

当x很接近x0的时候，(x-x0)就远大于(x-x0)的平方。所以就可以把后面的高次项删掉。

下面一个例子，假设h(x)=sin(x).在x0=pi/4时。sin(x)可以写成以下式子。如果把这些项画出来的话是下图这个样子。如果只考虑一项的话就是直线；如果考虑2项的话，就是直线；考虑3项的话就是抛物线。在pi/4附近，就可以用一次的来代替。

-------------------------------------------------------------------------------------------------------------------------------

泰勒series也可以有好几个参数的。如果有好几个参数，就可以这样做：

-------------------------------------------------------------------------------------------------------------------------------

回到刚才的问题，怎么在红色的圈圈里面，找一个可以让Loss最小的参数呢？

如果今天给我一个中心点(a,b)，那我画一个很小很小的圆圈。在这个红色圆圈的范围之内，我其实可以把Loss function泰勒展开。

L(a,b)就是一个常数，两个偏微分也是常数。我们用s,u,v来替换：

那么就得到：

这样能不能秒算哪一个和让Loss最小呢？我们还是来解一下。

我们的问题是，在红色圈圈里面找和让Loss最小。

在红色圈圈的意思就是：

我们用，来表示和。s的值不影响Loss的变化，可以化简掉。

这样Loss就变成了两个向量的乘积：

画成图就是：

那向量取什么值才能让乘积最小呢？显然，只有当向量与向量方向相反且长度为d（即长到红色圈圈边缘）时，乘积才最小：

所以：

其中，用来调节长度，使得长度刚好低到红色圈圈的边边。

代回和得：

代回u,v得：

这个式子，发现其实就是gradient descent。我们做gradient descent 就是找一个初始值；然后算初始值地方的偏微分，把它排成一个向量，就是gradient；最后乘以一个learning rate ；再把它减掉。

所以这个式子就是gradient descent。

-------------------------------------------------------------------------------------------------------------------------------

注意1：

我们可以用上面的方法来找一个最小的Loss（即，我们可以用gradient descent的方法来做），有一个前提就是

这个式子要成立。

只有当今天画出来的圈圈够小的时候，泰勒公式才成立。

这就告诉我们说，红色圈圈的半径要够小。而learning rate 跟红色圈圈的半径是成正比的。因此learning rate不能太大。learning rate 要无穷小，式子才成立。所以gradient descent 你要让你的Loss都越来越小的话，理论上你的learning rate要无穷小，才能保证这件事情。实际操作上只要够小就行了。

所以，如果你的learning rate 没有设好，是有可能你每次update 参数的时候，这个式子是不成立的，所以导致没有办法让loss越来越小。

注意2：

你会发现说，它只考虑了泰勒公式的一次式。可不可以考虑二次式呢？

是可以的，有一些方法比如牛顿法。但是在实际上，尤其是你在做deep learning的时候，这些方法并不见得太普及，太实用。

因为你要算二次微分，甚至还会算海森矩阵，总之会多很多运算。而这些运算你在做deep learning的时候呢，你是无法承受的。用这个运算来换，update的时候比较有效率，是不划算的。所以，要做deep learning的时候，gradient descent还是比较主流的做法。

-------------------------------------------------------------------------------------------------------------------------------

最后要讲一下gradient descent的限制。

有一个大家都知道的，就是它会卡在局部最小值的地方。如果下图是你的error surface，从左边的点开始更新参数，最后走到一个微分值是0，也就是local minimum的地方，参数就不更新了。

一般人都知道上面这个问题，其实还有别的问题。事实上，微分值是0的地方不一定只有local minimum。saddle point(鞍点)的微分值也是0。不是local minimum 但是微分值是0，也是有可能发生的。

其实在local minima或者是saddle point都是幻想，真正的问题是，并不是算出来微分值正好等于0的时候停下来的，而是微分值小于一个很小的值就停下来了。你怎么知道微分值算出来很小的时候，就很接近local minimum呢？不见得接近。有可能算出来很小，但是在一个高原的地方，觉得是在local minimum。因为很少有机会算出来正好是0.

你可能感兴趣的:(15,机器学习)

基于STM32金属探测器设计
摘要随着便携式金属探测器在安防，考古及工业检测等领域需求的增加，现有探测器的体积大，能耗高，操作复杂的缺点亟需解决。本文针对便携式金属探测器的设计进行探索，在硬件上使用了STM32F103C8T6单片机模块，WL02涡流传感器模块，ADS1115模数转换模块，蜂鸣器模块等设计出本系统的电路，在软件上设计出主程序，信号采集及报警子程序等，对系统进行基础功能，灵敏度，抗干扰和耐久性测试，测试结果表明探
三网BGP服务器——CDN加速的底层基石群联云防护小杜安全问题汇总服务器 python 运维游戏安全自动化网络
为什么跨网访问会成为业务性能杀手？场景痛点当电信用户访问联通机房的资源时，平均延迟高达120ms以上，而跨网丢包率可达15%。传统单线机房导致30%的用户体验直接下降。BGP协议的核心价值#三网路由优化模拟器（Python3）importrandomdefbgp_route_selection(user_isp,cdn_nodes):#用户ISP：1=电信2=移动3=联通#节点示例：{'node1
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
macd的python代码同花顺_同花顺最牛MACD副图源码再来一碗饭
DIFF:EMA(CLOSE,6)-EMA(CLOSE,16),ColorFFFF26;DEA:EMA(DIFF,5),Color8A15FF;MACD:=2*(DIFF-DEA);对DIFF:0-(EMA(CLOSE,6)-EMA(CLOSE,16));对DEA:0-(EMA(DIFF,5));对称:0-(2*(DIFF-DEA)),STICK,ColorFF6060,LINETHICK1;{D
AWS 管理秘籍（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/cf1c4e1db999839ba88fc56df4011156译者：飞龙协议：CCBY-NC-SA4.0序言AWS平台的增长速度非常快，正在被各行各业广泛采用。正如俗话所说，朋友不会让朋友建立数据中心。不管从哪个角度看，按需计算、网络和存储的模式将持续存在。尤其是当你看到AWS平台在功能和增强方面的更新速度时，很难再去反对站在巨人的肩膀上，尤其是
诗人郑愁予去世：达达马蹄声远去，留下一个世纪的美丽诗篇羊城派2025-06-15 19:07据中国诗歌网消息，著名诗人郑愁予因心脏衰竭，6月13日在美国去世，享年92岁。“我达达的马蹄分享是一种传递，一种快乐杂学百货铺-啥都学 word
编辑百度首页编辑诗人郑愁予去世：达达马蹄声远去，留下一个世纪的美丽诗篇羊城派2025-06-1519:07据中国诗歌网消息，著名诗人郑愁予因心脏衰竭，6月13日在美国去世，享年92岁。“我达达的马蹄是美丽的错误/我不是归人，是个过客……”这传诵半世纪的诗句，如今成为诗人郑愁予留给世间的最后回响。郑愁予，原名郑文韬，祖籍河北宁河，1933年生于山东济南&#x
GMSK调制解调算法的仿真与研究(源码+万字报告+讲解) 炳烛之明科技算法
目录GMSK调制解调算法的仿真与研究1摘要1Abstract11绪论51.1研究背景及意义51.2国内外研究现状61.3研究内容102几种数字调制方式112.1GMSK调制112.1.1GMSK简介112.1.2GMSK调制原理122.2QPSK调制152.3二进制相移键控(BPSK)163GMSK调制与解调方案与研究173.1GMSK传统调制方法173.1.1直接产生GMSK信号173.1.2P
Mac上的java_home命令的作用
https://my.oschina.net/shishaomeng/blog/537444摘要:刚上手Mac还是有些别扭的，尤其安装个JDK都跟Windows不一样，而且是完全的不同本文仅针对macosx10.5+,其他版本有可能出现不适.JDK安装JDK1.6安装系统默认自带jdk1.6，如因意外被卸载，可从如下地址下载安装：https://support.apple.com/kb/DL157
穿越虚拟边界：VirtualBox NAT 网络探秘与技术解析 109702008 网络运维网络运维人工智能
摘要：本文通过用户与AI助手的真实技术对话，系统解析VirtualBox的NAT网络模式工作原理，揭示主机与虚拟机通信受阻的根本原因，并提供三种实用解决方案。同时深入剖析网络地址转换（NAT）技术的核心机制与时代意义。一、问题起源：为何主机无法Ping通NAT模式的虚拟机？用户在使用VirtualBox时发现：虚拟机网络配置为NAT（网络地址转换）模式虚拟机内ipa显示IP地址为10.0.2.15
Mac 电脑crontab执行定时任务【Python 实战】 qifengle2014 Linux Docker Java Python技术分享合集 macos python 开发语言
1、crontab-e编辑定时任务列表crontab-e查看当前定时任务列表，长按i编辑，编辑完之后按esc退出编辑，然后输入:wq保存并提出。如下：(base)charles@zl~%crontab-e5815***/Library/Frameworks/Python.framework/Versions/3.8/bin/python3/Users/charles/Documents/first
mac m1安装大模型工具vllm liliangcsdn macos
1更新系统环境参考vllm官网文档，vllm对applem1平台macos,xcoder,clang有如下要求OS:macOSSonomaorlaterSDK:XCode15.4orlaterwithCommandLineToolsCompiler:AppleClang>=15.0.0在AppStore更新macOS和XCoder，依据XCoder版本号安装commandlinetools。htt
在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
村村通--洛谷（并查集的运用）
P1536村村通题目描述某市调查城镇交通状况，得到现有城镇道路统计表。表中列出了每条道路直接连通的城镇。市政府“村村通工程”的目标是使全市任何两个城镇间都可以实现交通（但不一定有直接的道路相连，只要相互之间可达即可）。请你计算出最少还需要建设多少条道路？输入格式输入包含若干组测试测试数据，每组测试数据的第一行给出两个用空格隔开的正整数，分别是城镇数目n和道路数目m；随后的m行对应m条道路，每行给出
jmeter的时间戳函数使用 flower_1111 代码 jmeter jmeter
原文：https://blog.csdn.net/jocleyn/article/details/834144331、__time：获取时间戳、格式化时间（1）、${__time(yyyy-MM-ddHH:mm:ss:SSS,time)}：格式化生成时间格式2018-10-2611:08:23:635（2）、${__time(,)}：默认该公式精确到毫秒级别，13位数1527822855323（3
同城搭子交友小程序：千亿级社交市场的下一个风口？
传统婚恋网站式微，Z世代“轻社交”需求爆发！搭子经济正成为新蓝海：1.市场规模与增长潜力数据：2023年中国陌生人社交市场规模达1500亿元，年复合增长率超20%；趋势：搭子类小程序用户规模突破8000万，预计2025年将占社交市场30%份额。2.竞争格局与差异化机会头部平台：Soul、探探聚焦泛社交，搭子类小程序仍属蓝海；细分场景：运动、美食、游戏等垂直领域搭子需求未被充分满足；下沉市场：三四线
【机器学习笔记Ⅰ】9 特征缩放巴伦是只猫机器学习机器学习笔记人工智能
特征缩放（FeatureScaling）详解特征缩放是机器学习数据预处理的关键步骤，旨在将不同特征的数值范围统一到相近的尺度，从而加速模型训练、提升性能并避免某些特征主导模型。1.为什么需要特征缩放？(1)问题背景量纲不一致：例如：特征1：年龄（范围0-100）特征2：收入（范围0-1,000,000）梯度下降的困境：量纲大的特征（如收入）会导致梯度更新方向偏离最优路径，收敛缓慢。量纲小的特征（如
解决SQL Server SQL语句性能问题（9）——SQL语句改写（7） lhdz_bj SQL Server SQL性能优化 SQL Server 性能优化改写 join 集合
9.4.15.消除join场景一与Oracle等其他关系库类似，SQLServer中，join作为基本语法用于SQL语句中相关表之间的连接，有些场景中，join既可以增强SQL语句的可读性，同时，又可以提升SQL语句的性能，但有些场景中，join会导致CBO为SQL语句产生次优的查询计划，进而出现SQL语句性能方面的问题。所以，有时为了解决SQL语句的性能问题，我们需要改写SQL语句，那就是利用e
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
嵌入式硬件中电容的基本原理与实现详解02 嵌入式开发星球单片机项目实战操作之优秀单片机嵌入式硬件
我们今天重点讨论点知识点如下：1.各种种类的电容优缺点对比讲解2.电容的标称值介绍3.电容的单位介绍4.常见的电压信号有哪些？5.电容的耐压值讲解6.电容的容值有哪些？7.12pF、15pF电容常用在什么场合？8.振荡电路中使用的电容常常需要使用什么材质的电容？9.100nF电容常用在什么场合？有什么作用？10.独石电容介绍
15：00开始面试，15：06就出来了，问的问题有点变态。。。程序员霄霄软件测试面试职场和发展功能测试软件测试自动化测试程序人生
从小厂出来，没想到在另一家公司又寄了。到这家公司开始上班，加班是每天必不可少的，看在钱给的比较多的份上，就不太计较了。没想到4月一纸通知，所有人不准加班，加班费不仅没有了，薪资还要降40%,这下搞的饭都吃不起了。还在有个朋友内推我去了一家互联网公司，兴冲冲见面试官，没想到一道题把我给问死了：如果模块请求http改为了https,测试方案应该如何制定，修改?感觉好简单的题，硬是没有答出来，早知道好好
AI 时代程序员的出路：高薪神话还能撑多久？ freewind 人工智能
2025年，美国市场一名普通软件工程师的平均总包仍在15–16万美元/年，位居各行业顶薪之列BuiltInCoursera。可就在同时，71%的企业已经把AI写码模型引入生产线，近一半“用得相当激进”LegitSecurity——意味着写代码这件事，正在被机器半自动接管。下一个五年，程序员还能稳坐“金饭碗”吗？1|程序员为什么一直“贵”？原因解释稀缺性计算机教育普及赶不上互联网爆发，10年形成长期
java list<> class_java-List>转换成List>实体类的集合刘杭州 java list<>class
1classJavabean1{2privateStringdata1;3privateStringdata2;4privateStringdata3;5//...6}7classJavabean2{8privateStringdata1;9privateStringdata2;10privateStringdata3;11//...12}1314classclassAll{15privateJa
OpenCV图片操作100例：从入门到精通指南（3）总有刁民想爱朕ha opencv 人工智能计算机视觉
高效学习路径：1️⃣分阶段学习：入门：1-20例（基础操作）进阶：21-50例（图像处理）高级：51-100例（计算机视觉）2️⃣项目驱动学习：证件照背景替换（1-15例）停车场车位检测（30-45例）视频运动追踪（70-85例）3️⃣性能优化技巧：#使用UMat加速图像处理umat_img=cv2.UMat(img)processed=cv2.GaussianBlur(umat_img,(5,5
IP与“谷子”齐飞，阅文“乘势而上”？
爆火的“谷子经济”，又捧出一只“潜力股”。近日，阅文集团股价持续上涨，5日累计涨幅达13.20%。这其中，周三股价一度大涨约15%至29.15港元，强势突破20日、30日、120日等多根均线，市值突破280亿港元关口。股价持续大涨的背后，阅文集团领投卡牌潮流文化品牌Hitcard发出来新的信号。显然，这是“阅文好物”商业化提速的一次关键布局。预计阅文好物后续将与Hitcard拓展IP商业化合作范围
wireshark分析以太网帧结构_[半小时]以太网数据帧的结构分析 whph
以太网帧，属于二层数据，分为2种：EthernetII帧和IEEE802.3帧。其中EthernetII帧格式为：而IEEE802.3帧格式为：两种帧的区别----->在于Type/Length字段数值的大小。Type/Length>=1536(0x0600)----->EthernetIIType/LengthIEEE802.3最常见的基本都是EthernetII类型的帧，STP协议的帧格式属于
统信UOS安装Oracle 11g的客户端 u011189649 oracle 数据库
统信UOS安装Oracle11g的客户端一个积分的下载地址https://download.csdn.net/download/u011189649/89791511解压客户端压缩文件到/db/#首先执行xhost+xhost+#上传linux.x64_11gR2_client.zip文件至/db/目录;#如果上传不了就在局域网搭个http服务，然后用wget下载#wgethttp://ip/li
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
物联网入门资料收集 Robin罗兵物联网
1、动动手做一个简单的物联网门禁，手机远程开锁，还带本地射频遥控https://blog.csdn.net/qq_40582683/article/details/796439082、一张图读懂基于微信硬件平台的物联网架构：https://blog.csdn.net/yueqian_scut/article/details/491534053、疯狂物联的控制模块：https://s.taobao.
Maven 构建性能优化深度剖析：原理、策略与实践越重天 Java Maven实战 maven 性能优化 java
博主简介：CSDN博客专家，历代文学网（PC端可以访问：https://literature.sinhy.com/#/?__c=1000，移动端可微信小程序搜索“历代文学”）总架构师，15年工作经验，精通Java编程，高并发设计，Springboot和微服务，熟悉Linux，ESXI虚拟化以及云原生Docker和K8s，热衷于探索科技的边界，并将理论知识转化为实际应用。保持对新技术的好奇心，乐于分
目前主流图像分类模型的详细对比分析 @comefly 闲聊 linux 运维服务器
以下是目前主流图像分类模型的详细对比分析，结合性能、架构特点及应用场景进行整理：一、主流模型架构分类与定量对比模型名称架构类型核心特点ImageNetTop-1准确率参数量（百万）计算效率典型应用场景ResNetCNN残差连接解决梯度消失，支持超深网络（如ResNet-152）76.1%25.6中等通用分类、目标检测ViTTransformer将图像分割为patches，用标准Transforme
基本数据类型和引用类型的初始值 3213213333332132 java基础
package com.array; /** * @Description 测试初始值 * @author FuJianyong * 2015-1-22上午10:31:53 */ public class ArrayTest { ArrayTest at; String str; byte bt; short s; int i; long
摘抄笔记--《编写高质量代码：改善Java程序的151个建议》白糖_ 高质量代码
记得3年前刚到公司，同桌同事见我无事可做就借我看《编写高质量代码：改善Java程序的151个建议》这本书，当时看了几页没上心就没研究了。到上个月在公司偶然看到，于是乎又找来看看，我的天，真是非常多的干货，对于我这种静不下心的人真是帮助莫大呀。看完整本书，也记了不少笔记
【备忘】Django 常用命令及最佳实践 dongwei_6688 django
注意：本文基于 Django 1.8.2 版本生成数据库迁移脚本（python 脚本） python manage.py makemigrations polls 说明：polls 是你的应用名字，运行该命令时需要根据你的应用名字进行调整查看该次迁移需要执行的 SQL 语句（只查看语句，并不应用到数据库上）： python manage.p
阶乘算法之一N! 末尾有多少个零周凡杨 java 算法阶乘面试效率
&n
spring注入servlet g21121 Spring注入
传统的配置方法是无法将bean或属性直接注入到servlet中的，配置代理servlet亦比较麻烦，这里其实有比较简单的方法，其实就是在servlet的init()方法中加入要注入的内容： ServletContext application = getServletContext(); WebApplicationContext wac = WebApplicationContextUtil
Jenkins 命令行操作说明文档 510888780 centos
假设Jenkins的URL为http://22.11.140.38:9080/jenkins/ 基本的格式为 java 基本的格式为 java -jar jenkins-cli.jar [-s JENKINS_URL] command [options][args] 下面具体介绍各个命令的作用及基本使用方法 1. &nb
UnicodeBlock检测中文用法布衣凌宇 UnicodeBlock
/** * 判断输入的是汉字 */ public static boolean isChinese(char c) { Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
java下实现调用oracle的存储过程和函数 aijuans java orale
1.创建表：STOCK_PRICES 2.插入测试数据： 3.建立一个返回游标： PKG_PUB_UTILS 4.创建和存储过程：P_GET_PRICE 5.创建函数： 6.JAVA调用存储过程返回结果集 JDBCoracle10G_INVO
Velocity Toolbox antlove 模板 tool box velocity
velocity.VelocityUtil package velocity; import org.apache.velocity.Template; import org.apache.velocity.app.Velocity; import org.apache.velocity.app.VelocityEngine; import org.apache.velocity.c
JAVA正则表达式匹配基础百合不是茶 java 正则表达式的匹配
正则表达式;提高程序的性能,简化代码,提高代码的可读性,简化对字符串的操作正则表达式的用途; 字符串的匹配字符串的分割字符串的查找字符串的替换正则表达式的验证语法 [a] //[]表示这个字符只出现一次 ,[a] 表示a只出现一
是否使用EL表达式的配置 bijian1013 jsp web.xml EL EasyTemplate
今天在开发过程中发现一个细节问题，由于前端采用EasyTemplate模板方法实现数据展示，但老是不能正常显示出来。后来发现竟是EL将我的EasyTemplate的${...}解释执行了，导致我的模板不能正常展示后台数据。网
精通Oracle10编程SQL(1-3)PLSQL基础 bijian1013 oracle 数据库 plsql
--只包含执行部分的PL/SQL块 --set serveroutput off begin dbms_output.put_line('Hello,everyone!'); end; select * from emp; --包含定义部分和执行部分的PL/SQL块 declare v_ename varchar2(5); begin select
【Nginx三】Nginx作为反向代理服务器 bit1129 nginx
Nginx一个常用的功能是作为代理服务器。代理服务器通常完成如下的功能：接受客户端请求将请求转发给被代理的服务器从被代理的服务器获得响应结果把响应结果返回给客户端实例本文把Nginx配置成一个简单的代理服务器对于静态的html和图片，直接从Nginx获取对于动态的页面，例如JSP或者Servlet，Nginx则将请求转发给Res
Plugin execution not covered by lifecycle configuration: org.apache.maven.plugin blackproof maven 报错
转：http://stackoverflow.com/questions/6352208/how-to-solve-plugin-execution-not-covered-by-lifecycle-configuration-for-sprin maven报错： Plugin execution not covered by lifecycle configuration:
发布docker程序到marathon ronin47 docker 发布应用
1 发布docker程序到marathon 1.1 搭建私有docker registry 1.1.1 安装docker regisry docker pull docker-registry docker run -t -p 5000:5000 docker-registry 下载docker镜像并发布到私有registry docker pull consol/tomcat-8.0
java-57-用两个栈实现队列&&用两个队列实现一个栈 bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; /* * Q 57 用两个栈实现队列 */ public class QueueImplementByTwoStacks { private Stack<Integer> stack1; pr
Nginx配置性能优化 cfyme nginx
转载地址：http://blog.csdn.net/xifeijian/article/details/20956605 大多数的Nginx安装指南告诉你如下基础知识——通过apt-get安装，修改这里或那里的几行配置，好了，你已经有了一个Web服务器了。而且，在大多数情况下，一个常规安装的nginx对你的网站来说已经能很好地工作了。然而，如果你真的想挤压出Nginx的性能，你必
[JAVA图形图像]JAVA体系需要稳扎稳打,逐步推进图像图形处理技术 comsci java
对图形图像进行精确处理，需要大量的数学工具，即使是从底层硬件模拟层开始设计，也离不开大量的数学工具包，因为我认为，JAVA语言体系在图形图像处理模块上面的研发工作，需要从开发一些基础的，类似实时数学函数构造器和解析器的软件包入手，而不是急于利用第三方代码工具来实现一个不严格的图形图像处理软件...... &nb
MonkeyRunner的使用 dai_lm android MonkeyRunner
要使用MonkeyRunner，就要学习使用Python，哎先抄一段官方doc里的代码作用是启动一个程序（应该是启动程序默认的Activity），然后按MENU键，并截屏 # Imports the monkeyrunner modules used by this program from com.android.monkeyrunner import MonkeyRun
Hadoop-- 海量文件的分布式计算处理方案 datamachine mapreduce hadoop 分布式计算
csdn的一个关于hadoop的分布式处理方案，存档。原帖：http://blog.csdn.net/calvinxiu/article/details/1506112。 Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同ja
以資料庫驗證登入 dcj3sjt126com yii
以資料庫驗證登入由於 Yii 內定的原始框架程式, 採用綁定在UserIdentity.php 的 demo 與 admin 帳號密碼: public function authenticate() { $users=array( &nbs
github做webhooks：[2]php版本自动触发更新 dcj3sjt126com github git webhooks
上次已经说过了如何在github控制面板做查看url的返回信息了。这次就到了直接贴钩子代码的时候了。工具/原料 git github 方法/步骤在github的setting里面的webhooks里把我们的url地址填进去。钩子更新的代码如下： error_reportin
Eos开发常用表达式蕃薯耀 Eos开发 Eos入门 Eos开发常用表达式
Eos开发常用表达式 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2014年8月18日 15:03:35 星期一 &
SpringSecurity3.X--SpEL 表达式 hanqunfeng SpringSecurity
使用 Spring 表达式语言配置访问控制，要实现这一功能的直接方式是在<http>配置元素上添加 use-expressions 属性： <http auto-config="true" use-expressions="true"> 这样就会在投票器中自动增加一个投票器：org.springframework
Redis vs Memcache IXHONG redis
1. Redis中，并不是所有的数据都一直存储在内存中的，这是和Memcached相比一个最大的区别。 2. Redis不仅仅支持简单的k/v类型的数据，同时还提供list，set，hash等数据结构的存储。 3. Redis支持数据的备份，即master-slave模式的数据备份。 4. Redis支持数据的持久化，可以将内存中的数据保持在磁盘中，重启的时候可以再次加载进行使用。 Red
Python - 装饰器使用过程中的误区解读 kvhur JavaScript jquery html5 css
大家都知道装饰器是一个很著名的设计模式，经常被用于AOP(面向切面编程)的场景，较为经典的有插入日志，性能测试，事务处理，Web权限校验， Cache等。原文链接：http://www.gbtags.com/gb/share/5563.htm Python语言本身提供了装饰器语法（@），典型的装饰器实现如下： @function_wrapper de
架构师之mybatis-----update 带case when 针对多种情况更新 nannan408 case when
1.前言. 如题. 2. 代码. <update id="batchUpdate" parameterType="java.util.List"> <foreach collection="list" item="list" index=&
Algorithm算法视频教程栏目记者 Algorithm 算法
课程：Algorithm算法视频教程百度网盘下载地址： http://pan.baidu.com/s/1qWFjjQW 密码: 2mji 程序写的好不好,还得看算法屌不屌！Algorithm算法博大精深。一、课程内容：课时1、算法的基本概念 + Sequential search 课时2、Binary search 课时3、Hash table 课时4、Algor
C语言算法之冒泡排序 qiufeihu c 算法
任意输入10个数字由小到大进行排序。代码： #include <stdio.h> int main() { int i,j,t,a[11]; /*定义变量及数组为基本类型*/ for(i = 1;i < 11;i++){ scanf("%d",&a[i]); /*从键盘中输入10个数*/ } for
JSP异常处理 wyzuomumu Web jsp
1.在可能发生异常的网页中通过指令将HTTP请求转发给另一个专门处理异常的网页中: <%@ page errorPage="errors.jsp"%> 2.在处理异常的网页中做如下声明： errors.jsp: <%@ page isErrorPage="true"%>，这样设置完后就可以在网页中直接访问exc