双木的木

2-3 李宏毅2021春季机器学习教程-类神经网络训练不起来怎么办（二）批次与动量（Batch and Momentum）

上一篇文章2-2 李宏毅2021春季机器学习教程-类神经网络训练不起来怎么办（一）局部最小值与鞍点（Local Minima and Saddle Point）介绍了机器学习时训练神经网络的第一个策略。下面介绍第二个策略：批次与动量。

Review： Optimization with Batch

Small Batch v.s. Large Batch

Larger batch size does not require longer time to compute gradient.

Smaller batch requires longer time for one epoch

“Noisy” update is better for training

“Noisy” update is better for generalization

Momentum

Small Gradient

Vanilla Gradient Descent

Gradient Descent + Momentum

结束语

Review： Optimization with Batch

上次我们有讲说，实际上在算微分的时候，并不是真的用所有 Data 对 L 作微分，而是分成一个一个的 Batch，有的人是叫Mini Batch （这边叫做 Batch，助教投影片里面是写 Mini Batch）。

每一个 Batch 的大小，就是B 笔的资料，我们每次在 Update 参数的时候，拿 B 笔资料出来算 Loss，算Gradient，Update 参数；然后拿另外B笔资料，再算Loss，再算Gradient，再 Update 参数，以此类推。所以我们不会拿所有的资料一起去算出 Loss，只会拿一个 Batch 的资料来算 Loss。

所有的 Batch 看过一遍，叫做一个 Epoch。事实上在做这些 Batch 时，会做一件事情叫做 Shuffle（中文意思有洗牌，这里表示将数据集进行打乱操作）。Shuffle 有很多不同的做法，一个常见的做法是：在每一个 Epoch 开始之前，会分一次 Batch，然后每个 Epoch 的 Batch 都不一样。第一个 Epoch，我们分这样子的 Batch；第二个 Epoch，会重新再分一次 Batch；所以哪些资料在同一个 Batch 里面，每一个 Epoch 都不一样的这件事情，叫做 Shuffle。

Small Batch v.s. Large Batch

我们先解释为什么要用 Batch，再说 Batch 对 Training 带来了什么样的帮助。

如上图，我们来比较左右两边这两个 Case，那假设现在我们有20个训练资料。看两个最极端的状况。

左边 Case 就是没有用 Batch，Batch Size直接跟训练资料一样多，这做 Full Batch，就是没有用 Batch 的意思。Model 必须把20个训练资料都看完，才计算 Loss和Gradient，然后参数才 Update 一次。假设开始的地方在右上边，把所有资料都看完以后，Update 参数就从这里移动到下边。
那右边 Case 就是Batch Size = 1。代表我们只需要拿一笔资料出来算 Loss，就可以 Update 参数，同样假设开始的点在右上边，今天总共20个资料的话，在每一个 Epoch里面参数会 Update 20次，看一笔资料就 Update 一次参数，但是这样算出来的 Loss显然Noisy ，你会发现Update 的方向是曲曲折折的。

所以我们比较左边跟右边，哪一个比较好呢，他们有什么差别呢？

你会发现左边蓄力的时间比较长，它技能冷却的时间比较长，你要把所有的资料都看过一遍，才能够 Update 一次参数，这一步走的是稳的；而右边的方法，Batch Size = 1，蓄力的时间比较短，每次看到一笔资料，就会更新一次参数。这个例子有20个资料，所有资料看过一遍已经更新了20次的参数，但是它每一步走的是不稳的。

看起来左边的方法跟右边的方法各自都有擅长跟不擅长的东西，左边是蓄力时间长，但是威力比较大；右边技能冷却时间短，但是它是比较不准的。但是你会觉得说，左边的方法技能冷却时间长，右边的方法技能冷却时间短，那只是你没有考虑并行运算的问题。实际上考虑并行运算的话，左边这个并不一定时间比较长。

Larger batch size does not require longer time to compute gradient.

这边是真正的实验结果，事实上，比较大的 Batch Size，你要算 Loss，再进而算 Gradient，所需要的时间不一定比小的 Batch Size 要花的时间长。

那以下是做在一个叫做 MNIST 上面，MNIST (Mixed National Institute of Standards and Technology database)是美国国家标准与技术研究院收集整理的大型手写数字数据库，机器要做的事情是给它一张图片，然后判断这张图片是0到9的哪一个数字，它要做数字的分类。那 MNIST 是机器学习的hello-world，假设你今天从来没有做过机器学习的任务，一般大家第一个会尝试的机器学习的任务往往就是做 MNIST 做手写数字辨识。

这边我们就是做了一个实验，我们想要知道给机器一个 Batch，它要计算出 Gradient，进而 Update 参数，到底需要花多少的时间？

这边列出了 Batch Size 等于1，等于10，等于100 ，等于1000 所需要耗费的时间。

Batch Size 从1到1000，需要耗费的时间几乎是一样的。直觉上我们可能认为有1000笔资料，那需要计算 Loss，然后计算 Gradient花的时间不会是一笔资料的1000倍吗，但是实际上并不是这样的。因为实际上，做运算的时候我们有 GPU，可以做并行运算，这1000笔资料是平行处理的，所以1000笔资料所花的时间，并不是一笔资料的1000倍，当然 GPU 平行运算的能力还是有它的极限，当你的 Batch Size 真的非常非常巨大的时候，GPU 在跑完一个 Batch，计算出 Gradient 所花费的时间，还是会随着 Batch Size 的增加而逐渐增长。

所以当你的 Batch Size 增加到 10000乃至增加到60000的时候，你就会发现 GPU 要算完一个 Batch，把这个 Batch 里面的资料都拿出来算 Loss，再进而算 Gradient，所要耗费的时间确实有随着 Batch Size 的增加而逐渐增长，但你会发现这边用的是 V100，所以它挺厉害的，给它60000笔资料，一个 Batch 里面60000笔资料，它在10秒钟之内把 Gradient 就算出来。

而 Batch Size 的大小跟时间的关系，其实每年都会做这个实验，我们可以看到这个时代的演进这样，17年的时候用的是那个980啊，2015年的时候用的是那个760啊，然后980要跑60000个 Batch，那要跑好几分钟才跑得完啊，现在只要10秒钟就可以跑得完了，你可以看到时代的演进。

Smaller batch requires longer time for one epoch

GPU 虽然有平行运算的能力，但它平行运算能力终究是有个极限，所以当 Batch Size 真的很大的时候，时间还是会增加的。

实际上，当Batch Size 小的时候，由于并行运算，跑完一个 Epoch花的时间是比大的 Batch Size 还要多的，为什么呢？

如上图所示，假设我们的训练资料只有60000笔，当 Batch Size = 1时，那你要60000个 Update 才能跑完一个 Epoch；如果今天是 Batch Size 等于1000，你要60个 Update 才能跑完一个 Epoch，算 Gradient 的时间根本差不多。那60000次跟60次 Update 比起来，它的时间的差距量就非常可观了。你会发现左边的图（一次Update的时间）跟右边的图（一次Epoch的时间）趋势正好是相反的。假设Batch Size =1，跑完一个 Epoch，你要 Update 60000次参数，它的时间是非常可观的，但是 Batch Size = 1000，你只要跑60次就会跑完一个 Epoch，看完所有资料的时间其实是比较短的，比 Batch Size =1 还要更快。右边的图告诉我们跑完一个Epoch大的 Batch Size 反而是较有效率的，是不是跟你直觉想的不太一样。在没有考虑平行运算的时候，你觉得大的 Batch 比较慢，但实际上，在有考虑平行运算的时候，一个 Epoch 大的 Batch 花的时间反而是比较少的。

我们如果要比较这个 Batch Size 大小的差异的话，直接用技能时间冷却的长短并不是一个精确的描述，大的 Batch 并没有比较吃亏，甚至还占到优势了。事实上，如果你用 GPU 的话，左边20笔资料 Update 一次的时间，跟右边看一笔资料 Update 一次的时间其实可能一样。大的 Batch技能冷却的时间并没有比较长。那你可能就会说那个大的 Batch 的劣势消失了，看起来大的 Batch 应该比较好?

我们还注意到大Batch的 Update 比较稳定，小Batch的 Gradient 的方向比较 Noisy 。神奇的地方是 Noisy 的 Gradient反而可以帮助 Training，这个也是跟直觉正好相反的。如果你今天拿不同的 Batch 来训练你的模型，你可能会得到这样子的结果。如下图所示，左边是 MNIST ，右边是 CIFAR-10 ，两者都是影像辨识的问题。

横轴代表的是 Batch Size，从左到右越来越大。

纵轴代表的是正确率，越往上正确率越高，当然正确率越高越好。

看 Validation Acc 的结果会发现Batch Size 越大，Validation Acc 结果越差，但这个不是 Overfitting，因为 Batch Size 越大，Training 的结果也是越差的。而我们现在用的是同一个模型，照理说，它们可以表示的 Function 就是一模一样的。但是神奇的事情是，大的 Batch Size往往在 Training 的时候会给你带来比较差的结果。

所以同样的 Model，不是 Model Bias 的问题，是 Optimization 的问题。大 Batch Size 的时候，你的 Optimization 可能会有问题，小 Batch Size的Optimization 的结果反而是比较好的，为什么会这样子呢？

“Noisy” update is better for training

为什么小的 Batch Size在 Training Set 上会得到比较好的结果，为什么 Noisy 的 Update，Noisy 的 Gradient 会在 Training 的时候，给我们比较好的结果呢？

如上图，左边是Full Batch，在 Update 参数时，你用一个Loss Function走到一个 Local Minima，走到一个 Saddle Point，显然就停下来了，Gradient 是零，如果你不特别去看Hession的话，那你用 Gradient Descent 的方法，你就没有办法再更新你的参数了。

右边是 Small Batch ，我们每次挑一个 Batch 出来算它的 Loss，所以等于你每一次 Update 参数时，用的 Loss Function 都有差异——第一个 Batch 时，是用 L1 来算你的 Gradient；第二个 Batch 是用 L2 来算你的 Gradient。假设在L1 算 Gradient 时，Gradient 是零，卡住了，但 L2 的 Function 跟 L1 又不一样，L2 就不一定会卡住，所以 L1 卡住了没关系，换下一个 Batch 来。这样你还是有办法 Training 你的 Model，继续让你的 Loss 变小，所以今天这种 Noisy 的 Update 的方式，结果反而对 Training有帮助。

“Noisy” update is better for generalization

这边还有另外一个更神奇的事情，其实小的 Batch 也对 Testing 有帮助。

假设我们在 Training 的时候，都不管是大的 Batch 还小的 Batch，都 Training 到一样好。刚才的 Case是Training 的时候就已经 Training 不好了，假设你想办法把大的 Batch跟小的 Batch Training 得一样好，结果小的 Batch居然在 Testing 的时候会是比较好的。我们看下面的这个实验结果，引用自On Large-Batch Training For Deep Learning，Generalization Gap And Sharp Minima

，是这篇 Paper 的实验结果。

如上图，作者训练了六个 Network ，里面有 CNN和 Fully Connected Network 的，做在不同的 Cover 上，代表这个实验是很泛用的。在很多不同的 Case 都观察到一样的结果，那它有小的 Batch size = 256，大的 Batch size = Data Set 乘 0.1 = 6000。然后想办法，大的 Batch跟小的 Batch都 Train 到差不多的 Training Accuracy。但是Testing 时小的 Batch 居然比大的 Batch 好，这个才是 Over Fitting ，那为什么会有这样子的现象呢？在这篇文章里面也给出了一个解释。

假设实线是 Training Loss，那可能有很多个 Local Minima，那这些 Local Minima 的 Loss 都很低，它们 Loss 可能都趋近于 0，但是这个 Local Minima，还是有好 Minima 跟坏 Minima 之分。如果一个 Local Minima 它在一个峡谷里面，它是坏的 Minima，然后它在一个平原上，它是好的 Minima，为什么会有这样的差异呢？

因为假设现在 Training 跟 Testing 中间，有一个 Mismatch，Training Loss 跟 Testing Loss，它们的 Function 不一样，有可能本来 Training 跟 Testing 的 Distribution就不一样。
那也有可能是因为Training 跟 Testing，Sample 到的 Data 不一样，那所以它们算出来的 Loss当然是有一点差距。

假设Training 跟 Testing的差距就是把 Training 的 Loss Function 往右平移一点，这时候你会发现，对左边这个在一个盆地里面的 Minima 来说，它的在 Training 跟 Testing 上面的结果，不会差太多，只差了一点点，但是对右边这个在峡谷里面的 Minima 来说，一差就可以天差地远。它在这个 Training Set 上的 Loss 很低，但是因为 Training 跟 Testing 之间的不一样，所以 Testing 时 Error Surface 一变，它算出来的 Loss 就变得很大，而很多人相信这个大的 Batch Size，会让我们倾向于走到峡谷里面，而小的 Batch Size，倾向于让我们走到盆地里面。

直觉上的想法是小的 Batch有很多的 Loss，它每次 Update 的方向都不太一样，所以如果今天这个峡谷非常地窄，它可能一个不小心就跳出去了，因为每次 Update 的方向都不太一样，它的 Update 的方向也就随机性，所以一个很小的峡谷，没有办法困住小的 Batch，它可能动一下就跳出去。之后停下来如果有一个非常宽的盆地，它才会停下来，那对于大的 Batch Size，反正它就是顺着规定 Update，然后它就很有可能，走到一个比较小的峡谷里面。

但这只是一个解释，那也不是每个人都相信，那其实还是一个尚待研究的问题。

那下面比较了大的 Batch 跟小的 Batch。

（1）在有平行运算的情况下，小的 Batch 跟大的 Batch，其实运算的时间并没有太大的差距，除非你的大的 Batch 那个大是真的非常大，才会显示出差距来。但是一个 Epoch 需要的时间，小的 Batch 比较长，大的 Batch 反而是比较快的，所以从一个 Epoch 需要的时间来看，大的 Batch 其实是占到优势的。（2）而小 Batch的 Update 的方向比较 Noisy，大Batch 的 Update 的方向比较稳定，但是 Noisy 的 Update 的方向，反而在 Optimization 的时候会占到优势，而且在 Testing 的时候也会占到优势，所以大的 Batch 跟小的 Batch，它们各自有它们擅长的地方。因此 Batch Size变成另外一个你需要去调整的 Hyperparameter。

那我们能不能够鱼与熊掌兼得呢，我们能不能够截取大的 Batch 跟小的 Batch 的优点，我们用大的 Batch Size 来做训练，用平行运算的能力来增加训练的效率，但是训练出来的结果同时又得到好的结果呢，又得到好的训练结果呢？请看下图：

这是有可能的，有很多文章都在探讨这个问题。今天我们不细讲，把Reference 列在这边给大家参考，那你发现这些 Paper，往往它想要做的事情是什么，76分钟训练 BERT，15分钟训练 ResNet？！多大的数据集，一分钟 Train Imagenet 等等。这为什么他们可以做到那么快，就是因为他们 Batch Size 是真的开很大，比如说在第一篇 Paper 的Batch Size 里面有三万个 Example ，真的可以算很快，你可以在很短的时间内看到大量的资料，那他们需要有一些特别的方法来解决，Batch Size 可能会带来的劣势。

Momentum

Momentum也是另外一个有可能可以对抗 Saddle Point或 Local Minima 的技术，Momentum 的运作是这个样子的。

Small Gradient

如上图，假设 Error Surface 就是真正的斜坡，而我们的参数是一个球，你把球从斜坡上滚下来，如果今天是 Gradient Descent，它走到 Local Minima 就停住了，走到 Saddle Point 就停住了。

但是在物理的世界里，一个球如果从高处滚下来，从高处滚下来就算滚到 Saddle Point，因为惯性的关系它还是会继续往右走，甚至它走到一个 Local Minima，如果今天它的动量够大的话，它还是会继续往右走，甚至翻过这个小坡然后继续往右走。所以它并不会被 Saddle Point或 Local Minima卡住。我们有没有办法运用这样子的概念到 Gradient Descent 里面呢？这个就是我们要讲的Momentum 这个技术。

Vanilla Gradient Descent

那我们先很快的复习一下，原来的 Gradient Descent 长得是什么样子，Vanilla （一般的）的 Gradient Descent长什么样子呢？

一般的 Gradient Descent 说，我们有一个初始参数 θ^0，我们计算Gradient，然后往 Gradient 的反方向去 Update 参数 θ^1 = θ^0 - ηg^0 。到达了新的参数以后，同样再计算一次 Gradient，再往 Gradient 的反方向，再 Update 一次参数，这个 Process 就一直这样子下去。

Gradient Descent + Momentum

现在考虑Momentum。每一次在移动参数时，我们不是只往 Gradient 的反方向来移动参数，我们是 Gradient 的反方向加上前一步移动的方向，两者加起来的结果，去调整去到我们的参数。

如上图所示，那具体说起来是这样，先找初始的参数 θ^0 ，假设前一步的参数的 Update 量 m^0 = 0 ，接着计算 Gradient 的方向g^0。然后接下来你要决定下一步要怎么走，它是 Gradient 的方向加上前一步的方向，现在是刚初始的时候所以前一步是 0，所以 Update 的方向跟原来的 Gradient Descent 是一样的， m^1 = λm^0- ηg^0，θ^1 = θ^0 + m^1。但从第二步开始，加上 Momentum 以后就不太一样了。我们计算 g^1，然后接下来我们 Update 的方向，不是 g^1的反方向，而是根据上一次 Update 方向，写成m^2 = λm^1-ηg^1，当做我们新的 Update 的方向。

如上图左边图示，g1 告诉我们要往红色反方向这边走，但是我们也考虑 Momentum，也会看前一次 Update 的方向，如果前一次要往m^1蓝色及蓝色虚线这个方向走，把两者相加起来，也就是往蓝色m^2这一个方向走，所以我们就移动了 m2，走到 θ2 这个地方。接下来就反覆进行同样的过程。

每一步的移动，我们都用 m 来表示，其实可以写成之前所有算出来的Gradient 的 Weighted Sum，表达式如下：

这里λ 和 η （Learning Rate ）是我们要调的参数。观察这个式子，（1）一个解读是 Momentum 是Gradient 的负反方向加上前一次移动的方向，（2）那但另外一个解读方式是当加上 Momentum 时，我们 Update 的方向不是只考虑现在的 Gradient，而是考虑过去所有 Gradient 的总和。

有一个更简单的例子，希望帮助你了解 Momentum。

注释：Gradient 的反方向用红色实线箭头，前一步的方向用蓝色虚线箭头来表示。

那我们从红点①开始 Update 参数，根据 Gradient 的方向应该往右 Update 参数，那现在没有前一次 Update 的方向，所以我们就完全按照 Gradient 给我们的指示往右移动参数，那我们的参数就往右移动了一点到红点②。此时Gradient 变得很小，告诉我们往右移动，但前一步是往右移动的，两者方向加起来，得到往右走的方向，那再往右走，走到红点③，这是一个 Local Minima，一般 Gradient Descent 就无法向前走了，因为已经没有这个 Gradient 的方向，那走到 Saddle Point 也一样，没有 Gradient 的方向已经无法向前走了。

但没有关系，如果有 Momentum 的话，你还是有办法继续走下去，因为 Momentum 不是只看 Gradient，Gradient 就算是 0，你还有前一步的方向，前一步的方向告诉我们向右走，我们就继续向右走，甚至你走到红点④，Gradient 告诉你应该要往左走了，但是假设你前一步的影响力，比 Gradient 要大的话，你还是有可能继续往右走，甚至翻过一个小丘，搞不好就可以走到更好 Local Minima，这个就是 Momentum 有可能带来的好处。

结束语

临界点斜率为零。（Critical points have zero gradients.）
临界点可以是鞍点，也可以是局部极小点。（Critical points can be either saddle points or local minima.）
鞍点或者局部极小点可以由Hessian矩阵确定。（Saddle points or local minima can be determined by the Hessian matrix.）
局部极小值可能很少见。（Local minima may be rare.）
沿着Hessian矩阵的特征向量方向可以避开鞍点。（It is possible to escape saddle points along the direction of eigenvectors of the Hessian matrix.）
更小的批量大小和动量有助于逃离临界点。（Smaller batch size and momentum help escape critical points.）

那以上就是今天想要跟大家说的内容。

说明：记录学习笔记，如果错误欢迎指正！写文章不易，转载请联系我。

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
android系统selinux中添加新属性property 辉色投像
1.定位/android/system/sepolicy/private/property_contexts声明属性开头：persist.charge声明属性类型：u:object_r:system_prop:s0图12.定位到android/system/sepolicy/public/domain.te删除neverallow{domain-init}default_prop:property
10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
每日一题——第八十九题互联网打工人no1 C语言程序设计每日一练 c语言
题目：在字符串中找到提取数字，并统计一共找到多少整数，a123xxyu23&8889，那么找到的整数为123，23，8889//思想：#include#include#includeintmain(){charstr[]="a123xxyu23&8889";intcount=0;intnum=0;//用于临时存放当前正在构建的整数。boolinNum=false;//用于标记当前是否正在读取一个整
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
每日一题——第八十一题互联网打工人no1 C语言程序设计每日一练 c语言
打印如下图案:#includeintmain(){inti,j;charch='A';for(i=1;i<5;i++,ch++){for(j=0;j<5-i;j++){printf("");//控制空格输出}for(j=1;j<2*i;j++)//条件j<2*i{printf("%c",ch);//控制字符输出}printf("\n");}return0;}
每日一题——第八十二题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将一个控制台输入的字符串中的所有元音字母复制到另一字符串中#include#include#include#include#defineMAX_INPUT1024boolisVowel(charp);intmain(){charinput[MAX_INPUT];charoutput[MAX_INPUT];printf("请输入一串字符串：\n");fgets(input,sizeof(inp
每日一题——第八十三题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将输入的整形数字输出,输出1990，输出"1990"#include#defineMAX_INPUT1024intmain(){intarrr_num[MAX_INPUT];intnum,i=0;printf("请输入一个数字：");scanf_s("%d",&num);while(num!=0){arrr_num[i++]=num%10;num/=10;}printf("\"");for(
git常用命令笔记咩酱-小羊 git 笔记
###用习惯了idea总是不记得git的一些常见命令，需要用到的时候总是担心旁边站了人~~~记个笔记@_@，告诉自己看笔记不丢人初始化初始化一个新的Git仓库gitinit配置配置用户信息gitconfig--globaluser.name"YourName"gitconfig--globaluser.email"[email protected]"基本操作克隆远程仓库gitclone查看
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
509. 斐波那契数(每日一题) lzyprime
lzyprime博客(github)创建时间：2021.01.04qq及邮箱：2383518170leetcode笔记题目描述斐波那契数，通常用F(n)表示，形成的序列称为斐波那契数列。该数列由0和1开始，后面的每一项数字都是前面两项数字的和。也就是：F(0)=0，F(1)=1F(n)=F(n-1)+F(n-2)，其中n>1给你n，请计算F(n)。示例1：输入：2输出：1解释：F(2)=F(1)+
拥有断舍离的心态，过精简生活--《断舍离》读书笔记爱吃丸子的小樱桃
不知不觉间房间里的东西越来越多，虽然摆放整齐，但也时常会觉得空间逼仄，令人心生烦闷。抱着断舍离的态度，我开始阅读《断舍离》这本书，希望从书中能找到一些有效的方法，帮助我实现空间、物品上的断舍离。《断舍离》是日本作家山下英子通过自己的经历、思考和实践总结而成的，整体内涵也从刚开始的私人生活哲学的“断舍离”升华成了“人生实践哲学”，接着又成为每个人都能实行的“改变人生的断舍离”，从“哲学”逐渐升华成“
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
高端密码学院笔记285 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（598）期《幸福》之回归内在深层生命原动力基础篇——揭秘“激励”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:成功=艰苦劳动+正确方法+少说空话。贪图省力的船夫，目标永远下游。智者的梦再美，也不如愚人实干的脚印。幸福早课堂2020.10.16星期五一笔记:1，重视和珍惜的前提是知道它的价值非常重要，当你珍惜了，你就真正定下来，真正的学到身上。2，大家需要
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
jQuery 跨域访问的三种方式 No 'Access-Control-Allow-Origin' header is present on the reque qiaolevip 每天进步一点点学习永无止境跨域众观千象
XMLHttpRequest cannot load http://v.xxx.com. No 'Access-Control-Allow-Origin' header is present on the requested resource. Origin 'http://localhost:63342' is therefore not allowed access. test.html:1
mysql 分区查询优化 annan211 java 分区优化 mysql
分区查询优化引入分区可以给查询带来一定的优势，但同时也会引入一些bug. 分区最大的优点就是优化器可以根据分区函数来过滤掉一些分区，通过分区过滤可以让查询扫描更少的数据。所以，对于访问分区表来说，很重要的一点是要在where 条件中带入分区，让优化器过滤掉无需访问的分区。可以通过查看explain执行计划，是否携带 partitions
MYSQL存储过程中使用游标 chicony Mysql存储过程
DELIMITER $$ DROP PROCEDURE IF EXISTS getUserInfo $$ CREATE PROCEDURE getUserInfo(in date_day datetime)-- -- 实例-- 存储过程名为：getUserInfo-- 参数为：date_day日期格式:2008-03-08-- BEGINdecla
mysql 和 sqlite 区别 Array_06 sqlite
转载： http://www.cnblogs.com/ygm900/p/3460663.html mysql 和 sqlite 区别 SQLITE是单机数据库。功能简约，小型化，追求最大磁盘效率 MYSQL是完善的服务器数据库。功能全面，综合化，追求最大并发效率 MYSQL、Sybase、Oracle等这些都是试用于服务器数据量大功能多需要安装，例如网站访问量比较大的。而sq
pinyin4j使用 oloz pinyin4j
首先需要pinyin4j的jar包支持；jar包已上传至附件内方法一:把汉字转换为拼音；例如：编程转换后则为biancheng /** * 将汉字转换为全拼 * @param src 你的需要转换的汉字 * @param isUPPERCASE 是否转换为大写的拼音； true:转换为大写；fal
微博发送私信随意而生微博
在前面文章中说了如和获取登陆时候所需要的cookie，现在只要拿到最后登陆所需要的cookie，然后抓包分析一下微博私信发送界面 http://weibo.com/message/history?uid=****&name=**** 可以发现其发送提交的Post请求和其中的数据，让后用程序模拟发送POST请求中的数据，带着cookie发送到私信的接入口，就可以实现发私信的功能了。
jsp 香水浓 jsp
JSP初始化容器载入JSP文件后，它会在为请求提供任何服务前调用jspInit()方法。如果您需要执行自定义的JSP初始化任务，复写jspInit()方法就行了 JSP执行这一阶段描述了JSP生命周期中一切与请求相关的交互行为，直到被销毁。当JSP网页完成初始化后
在 Windows 上安装 SVN Subversion 服务端 AdyZhang SVN
在 Windows 上安装 SVN Subversion 服务端2009-09-16高宏伟哈尔滨市道里区通达街291号最佳阅读效果请访问原地址：http://blog.donews.com/dukejoe/archive/2009/09/16/1560917.aspx 现在的Subversion已经足够稳定，而且已经进入了它的黄金时段。我们看到大量的项目都在使
android开发中如何使用 alertDialog从listView中删除数据？ aijuans android
我现在使用listView展示了很多的配置信息，我现在想在点击其中一条的时候填出 alertDialog,点击确认后就删除该条数据，（ ArrayAdapter ，ArrayList，listView 全部删除），我知道在下面的onItemLongClick 方法中参数 arg2 是选中的序号，但是我不知道如何继续处理下去 1 2 3
jdk-6u26-linux-x64.bin 安装 baalwolf linux
1.上传安装文件(jdk-6u26-linux-x64.bin) 2.修改权限 [root@localhost ~]# ls -l /usr/local/jdk-6u26-linux-x64.bin 3.执行安装文件 [root@localhost ~]# cd /usr/local [root@localhost local]# ./jdk-6u26-linux-x64.bin&nbs
MongoDB经典面试题集锦 BigBird2012 mongodb
1.什么是NoSQL数据库？NoSQL和RDBMS有什么区别？在哪些情况下使用和不使用NoSQL数据库？ NoSQL是非关系型数据库，NoSQL = Not Only SQL。关系型数据库采用的结构化的数据，NoSQL采用的是键值对的方式存储数据。在处理非结构化/半结构化的大数据时；在水平方向上进行扩展时；随时应对动态增加的数据项时可以优先考虑使用NoSQL数据库。在考虑数据库的成熟
JavaScript异步编程Promise模式的6个特性 bijian1013 JavaScript Promise
Promise是一个非常有价值的构造器，能够帮助你避免使用镶套匿名方法，而使用更具有可读性的方式组装异步代码。这里我们将介绍6个最简单的特性。在我们开始正式介绍之前，我们想看看Javascript Promise的样子： var p = new Promise(function(r
[Zookeeper学习笔记之八]Zookeeper源代码分析之Zookeeper.ZKWatchManager bit1129 zookeeper
ClientWatchManager接口 //接口的唯一方法materialize用于确定那些Watcher需要被通知 //确定Watcher需要三方面的因素1.事件状态 2.事件类型 3.znode的path public interface ClientWatchManager { /** * Return a set of watchers that should
【Scala十五】Scala核心九：隐式转换之二 bit1129 scala
隐式转换存在的必要性，在Java Swing中，按钮点击事件的处理，转换为Scala的的写法如下： val button = new JButton button.addActionListener( new ActionListener { def actionPerformed(event: ActionEvent) {
Android JSON数据的解析与封装小Demo ronin47
转自：http://www.open-open.com/lib/view/open1420529336406.html package com.example.jsondemo; import org.json.JSONArray; import org.json.JSONException; import org.json.JSONObject; impor
[设计]字体创意设计方法谈 brotherlamp UI ui自学 ui视频 ui教程 ui资料
从古至今，文字在我们的生活中是必不可少的事物，我们不能想象没有文字的世界将会是怎样。在平面设计中，UI设计师在文字上所花的心思和功夫最多，因为文字能直观地表达UI设计师所的意念。在文字上的创造设计，直接反映出平面作品的主题。如设计一幅戴尔笔记本电脑的广告海报，假设海报上没有出现“戴尔”两个文字，即使放上所有戴尔笔记本电脑的图片都不能让人们得知这些电脑是什么品牌。只要写上“戴尔笔
单调队列-用一个长度为k的窗在整数数列上移动，求窗里面所包含的数的最大值 bylijinnan java 算法面试题
import java.util.LinkedList; /* 单调队列滑动窗口单调队列是这样的一个队列：队列里面的元素是有序的，是递增或者递减题目：给定一个长度为N的整数数列a(i),i=0,1,...,N-1和窗长度k. 要求：f(i) = max{a(i-k+1),a(i-k+2),..., a(i)},i = 0,1,...,N-1 问题的另一种描述就
struts2处理一个form多个submit chiangfai struts2
web应用中，为完成不同工作，一个jsp的form标签可能有多个submit。如下代码： <s:form action="submit" method="post" namespace="/my"> <s:textfield name="msg" label="叙述：">
shell查找上个月，陷阱及野路子 chenchao051 shell
date -d "-1 month" +%F 以上这段代码，假如在2012/10/31执行，结果并不会出现你预计的9月份，而是会出现八月份，原因是10月份有31天，9月份30天，所以-1 month在10月份看来要减去31天，所以直接到了8月31日这天，这不靠谱。野路子解决：假设当天日期大于15号
mysql导出数据中文乱码问题 daizj mysql 中文乱码导数据
解决mysql导入导出数据乱码问题方法：１、进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+----------------------------------------+ | Variable_name&nbs
SAE部署Smarty出现：Uncaught exception 'SmartyException' with message 'unable to write dcj3sjt126com PHP smarty sae
对于SAE出现的问题：Uncaught exception 'SmartyException' with message 'unable to write file...。官方给出了详细的FAQ：http://sae.sina.com.cn/?m=faqs&catId=11#show_213 解决方案为： 01 $path
《教父》系列台词 dcj3sjt126com
Your love is also your weak point. 你的所爱同时也是你的弱点。 If anything in this life is certain, if history has taught us anything, it is that you can kill anyone. 不顾家的人永远不可能成为一个真正的男人。 &
mongodb安装与使用 dyy_gusi mongo
一.MongoDB安装和启动,widndows和linux基本相同 1.下载数据库, linux:mongodb-linux-x86_64-ubuntu1404-3.0.3.tgz 2.解压文件,并且放置到合适的位置 tar -vxf mongodb-linux-x86_64-ubun
Git排除目录 geeksun git
在Git的版本控制中，可能有些文件是不需要加入控制的，那我们在提交代码时就需要忽略这些文件，下面讲讲应该怎么给Git配置一些忽略规则。有三种方法可以忽略掉这些文件，这三种方法都能达到目的，只不过适用情景不一样。 1. 针对单一工程排除文件这种方式会让这个工程的所有修改者在克隆代码的同时，也能克隆到过滤规则，而不用自己再写一份，这就能保证所有修改者应用的都是同一
Ubuntu 创建开机自启动脚本的方法 hongtoushizi ubuntu
转载自： http://rongjih.blog.163.com/blog/static/33574461201111504843245/ Ubuntu 创建开机自启动脚本的步骤如下： 1) 将你的启动脚本复制到 /etc/init.d目录下以下假设你的脚本文件名为 test。 2) 设置脚本文件的权限 $ sudo chmod 755
第八章流量复制/AB测试/协程 jinnianshilongnian nginx lua coroutine
流量复制在实际开发中经常涉及到项目的升级，而该升级不能简单的上线就完事了，需要验证该升级是否兼容老的上线，因此可能需要并行运行两个项目一段时间进行数据比对和校验，待没问题后再进行上线。这其实就需要进行流量复制，把流量复制到其他服务器上，一种方式是使用如tcpcopy引流；另外我们还可以使用nginx的HttpLuaModule模块中的ngx.location.capture_multi进行并发
电商系统商品表设计 lkl
DROP TABLE IF EXISTS `category`; -- 类目表 /*!40101 SET @saved_cs_client = @@character_set_client */; /*!40101 SET character_set_client = utf8 */; CREATE TABLE `category` ( `id` int(11) NOT NUL
修改phpMyAdmin导入SQL文件的大小限制 pda158 sql mysql
　用phpMyAdmin导入mysql数据库时，我的10M的数据库不能导入，提示mysql数据库最大只能导入2M。　　 phpMyAdmin数据库导入出错：　　You probably tried to upload too large file. Please refer to documentation for ways to workaround this limit.
Tomcat性能调优方案 Sobfist apache jvm tomcat 应用服务器
一、操作系统调优对于操作系统优化来说，是尽可能的增大可使用的内存容量、提高CPU的频率，保证文件系统的读写速率等。经过压力测试验证，在并发连接很多的情况下，CPU的处理能力越强，系统运行速度越快。。【适用场景】任何项目。二、Java虚拟机调优应该选择SUN的JVM，在满足项目需要的前提下，尽量选用版本较高的JVM，一般来说高版本产品在速度和效率上比低版本会有改进。 J
SQLServer学习笔记 vipbooks 数据结构 xml
1、create database school 创建数据库school 2、drop database school 删除数据库school 3、use school 连接到school数据库，使其成为当前数据库 4、create table class(classID int primary key identity not null) 创建一个名为class的表，其有一

2-3 李宏毅2021春季机器学习教程-类神经网络训练不起来怎么办（二）批次与动量（Batch and Momentum）

Review： Optimization with Batch

Small Batch v.s. Large Batch

Larger batch size does not require longer time to compute gradient.

Smaller batch requires longer time for one epoch

“Noisy” update is better for training

“Noisy” update is better for generalization

Momentum

Small Gradient

Vanilla Gradient Descent

Gradient Descent + Momentum

结束语

你可能感兴趣的:(李宏毅机器学习笔记,AI,笔记,神经网络,人工智能,深度学习,机器学习,python)