ZJ_Improve

Coursera | Andrew Ng (02-week-3-3.5)—将 Batch Norm 拟合进神经网络

该系列仅在原课程基础上部分知识点添加个人学习笔记，或相关推导补充等。如有错误，还请批评指教。在学习了 Andrew Ng 课程的基础上，为了更方便的查阅复习，将其整理成文字。因本人一直在学习英语，所以该系列以英文为主，同时也建议读者以英文为主，中文辅助，以便后期进阶时，为学习相关领域的学术论文做铺垫。- ZJ

Coursera 课程 |deeplearning.ai |网易云课堂

转载请注明作者和出处：ZJ 微信公众号-「SelfImprovementLab」

知乎：https://zhuanlan.zhihu.com/c_147249273

CSDN：http://blog.csdn.net/junjun_zhao/article/details/79122303

3.5 Fitting Batch Norm into a neural network 将 Batch Norm 拟合进神经网络

(字幕来源：网易云课堂)

So you have seen the equations for how to implement Batch Norm for maybe a single hidden layer.Let’s see how it fits into the training of a deep network.So, let’s say you have a neural network like this,you’ve seen me say before that you can view each of the unit as computing two things.First, it computes z and then it applies the activation function to compute a .And so we can think of each of these circles as representing a two step computation.And similarly for the next layer,that is z2 1, and a2 1, and so on.

你已经看到那些等式，它可以在单一隐藏层上进行 Batch 归一化，接下来 让我们看看它是怎样在深度网络训练中拟合的吧，假设你有一个这样的神经网络，我之前说过，你可以认为每个单元负责计算两件事，第一它先计算 z ，然后应用其到激活函数中在计算 a ，所以我们可以认为，每个圆圈代表着两步的计算过程，同样的对于下一层而言，那就是 z[2]1 和 a[2]1 等。

So, if you were not applying Batch Norm,you would have an input X fit into the first hidden layer,and then first compute z1,and this is governed by the parameters z1 and b1.And then ordinarily, you would fit z1 into the activation function to compute a1.But what would do in Batch Norm is take this value z1,and apply Batch Norm,sometimes abbreviated BN to it,and that’s going to be governed by parameters,Beta 1 and Gamma 1,and this will give you this new normalized value z1.And then you fit that to the activation function to get a1,which is G1 applied to z tilde 1.Now, you’ve done the computation for the first layer,where this Batch Norms that really occurs in between the computation from z and a.Next, you take this value a1 and use it to compute z2,and so this is now governed by w2, b2.And similar to what you did for the first layer,you would take z2 and apply it through Batch Norm, and we abbreviate it to BN now.This is governed by Batch Norm parameters specific to the next layer.So Beta 2, Gamma 2,and now this gives you z tilde 2,and you use that to compute a2 by applying the activation function, and so on.So once again, the Batch Norms that happens between computing z and computing a.And the intuition is that,instead of using the un-normalized value z,you can use the normalized value z tilde, that’s the first layer.The second layer as well,instead of using the un-normalized value z2,you can use the mean and variance normalized values Z tilde 2.

所以如果你没有应用 Batch 归一化，你会把拟合到第一隐藏层，然后首先计算 z[1] ，这是由 w[1] 和 b[1] 两个参数控制得，接着通常而言你会把 z[1] 拟合到激活函数以计算 a[1] ，但 Batch 归一化的做法是将 z[1] 值，进行 Batch 归一化，简称 BN，此过程将由， β[1] 和 γ[1] 两参数控制，这一步操作会给你一个新的规范化的 z[1] 值，然后将其输入激活函数中得到 a[1] ，即 g[1](z̃ [1]) ，现在你已在第一层进行了计算，此时这项 Batch 归一化发生在 z 的计算和 a 之间，接下来你需要应用 a[1] 值来计算 z[2] ，此过程是由 w[1] 和 b[1] 控制的，与你在第一层所做的类似，你会将 z[2] 进行 Batch 归一化我们现在简称 BN，这是由下一层的 Batch 归一化参数所管控的的，即 β[2] 和 γ[2] ，现在你得到 z̃ [2] ，再通过激活函数计算出 a[2] 等等，所以 需强调的是 Batch 归一化是发生在计算 z 和 a 之间的，直觉就是，与其应用没有归一化的 z 值，不如用归一过的 z̃ 这是第一层，第二层同理，与其应用没有规范过的 z[2] 值，不如用经方差和均值归一后的 z̃ [2] 。

So the parameters of your network are going to be w1, b1.It turns out we’ll get rid of the parameters But for now, imagine the parameters are the usual w1，b1……wl, bl,and we have added to this new network,additional parameters，Beta 1, Gamma 1, Beta 2, Gamma 2,and so on,for each layer in which you are applying Batch Norm.For clarity, note that these Betas here,these have nothing to do with the hyperparameter betabut we’ll see why in the next slide.that we had for momentum or for the computing the various exponentially weighted averages.You know,the authors of the Adam paper had used Beta in their paper to denote that hyperparameter,the authors of the Batch Norm paper had used Beta to denote this parameter,but these are two completely different Betas.I decided to stick with Beta on in both cases,in case you read the original papers.But the Beta 1,Beta 2, and so on,that Batch Norm tries to learn is a different Beta thanthe hyperparameter Beta used in momentum and the Adam and RMSprop algorithms.So now that these are the new parameters of your algorithm,you would then use whether optimization you want,such as creating descent in order to implement it.

所以你网络的参数就会是 w[1] b[1] ，我们将要去掉这些参数，但现在想像参数是 w[1] b[l] 到 w[l] b[l] ，我们将另一些参数，加入到此新网络中， β[1] \beta^{[2]} γ[1] γ[2] 等等，对于应用 Batch 归一化的每一层而言，需要澄清的是请注意这里的这些 β ，和超参数 β 没有任何关系，下一张幻灯片中会解释原因，后者是用于 momentum ，或计算各个指数的加权平均值， Adam 论文的作者，在论文里用 β 代表超参数， Batch 归一化论文的作者，则使用 β 代表此参数，但这是两个完全不同的 β ，我在两种情况下都决定使用 β ，以便你阅读那些原创的论文，但 β[1] β[2] 等等， Batch 归一化试图去学习 β 和，用于 momentum 、the Adam 、RMS prop 算法中的 β 不同，所以现在这是你算法的新参数，接下来你可以使用想用的任一种优化法。

So for example, you might compute d Beta l for a given layer,and then update the parameters Beta,gets updated as Beta minus learning rate times D Beta L.And you can also use Adam or RMS prop or momentum in order to update the parameters Beta and Gamma,not just creating descent.And even though in the previous video,I had explained what the Batch Norm operation does,computes mean and variances and subtracts and divides by them.If they are using a Deep Learning Programming Framework,usually you won’t have to implement the Batch Norm step on Batch Norm layer yourself.So the probing frameworks,can be sub one line of code.So for example, in the TensorFlow framework,you can implement Batch Normalization, you know, with this function.We’ll talk more about probing frameworks later,but in practice you might not end up needing to implement all these details yourself,but self-aware of knowing how it worksso that you can get a better understanding of what your code is doing.But implementing Batch Norm is often，you know,something like one line of code in the deep learning frameworks.Now, so far, we’ve talked about Batch Normas if you were training on your entire training site at the other timeas if you are using Batch gradient descent.

比如创造下降来应用它，举个例子对于给定层你会计算 dβ[l] ，接着 更新参数 β 为 β[l] ，即为 β[l]−αdβ[l] ，你也可以使用 Adam 或 RMS prop或 momentum ，以更新参数 β 和 γ ，并不只用创造下降法，即使在之前的视频中，我已经解释过 Batch 归一化是怎么操作的，计算均值和方差减去再被它们除，如果它们使用的是深度学习编程框架，通常你不必自己，把 Batch 归一化步骤应用于 Batch 归一化层，因此探究框架，可写成一行代码，比如说在 TensorFlow 框架中，你可以用这个函数来实现 Batch 归一化，我们会稍后讲解，但实践中你不必自己操作所有这些具体的细节，但知道它是如何作用的，这样你会更好的理解代码的作用，但在深度学习框架中 Batch 归一化的过程，经常是类似一行代码的东西，所以到目前为止我们已经讲了 Batch 归一化，就像你在整个训练站点上训练一样，或就像你正在使用 Batch 梯度下降。

In practice, Batch Norm is usually applied with mini-batch es of your training set.So the way you actually apply Batch Norm isyou take your first mini-batch and compute z1.Same as we did on the previous slide using the parameters w1,b1and then you take just this mini-batch andcompute mean and variance of the Z1 on just this mini batchand then goes to the second mini-batch x2,and then Batch Norm would subtract by the mean and divide by the standard deviation and then re-scale by Beta 1, Gamma 1, to give you z1,and all this is on the first mini-batch ,then you apply the activation function to get A1,and then you compute z2 using w2,b2, and so on.So you do all this in order to compute one step gradient descent on the first mini-batch and you do something similar where you will now compute z1 on the second mini-batch and then use Batch Norm to compute z1 tilde.And so here in this Batch Norm step,You would be normalizing z tilde using just the data in your second mini-batch ,so does Batch Norm step here.Let’s look at the examples in your second mini-batch ,computing the mean and variances of the z1’s on just that mini-batch andre-scaling by Beta and Gamma to get z tilde, and so on.And you do this with a third mini-batch , and keep training.

实践中， Batch 归一化通常和训练集的 mini-batch 一起使用，你应用 Batch 归一化的方式就是，你用第一个 mini-batch 然后计算 z[1] ，这和上张幻灯片上我们所做的一样应用参数 w[1] b[1] ，使用这个 mini-batch ，在其上计算 z[1] 的均值和方差，接着继续第二个 mini-batch x{2} ，接着 Batch 归一化会减去均值除以标准差，由 β[1] γ[1] 重新缩放这样就得到了 z[1] ，而所有的这些都是在第一个 mini-batch 的基础上，你再应用激活函数得到 a[1] ，然后用 w[2] b[2] 计算 z[2] 等等，所以你做的这一切都是为了，在第一个 mini-batch 上进行一步梯度下降法，做类似的工作，你会在第二个 mini-batch 上计算 z[1] ，然后用 Batch 归一化来计算 z˜[1] ，所以在 Batch 归一化的此步中，你用第二个 mini-batch 中的数据使z̃归一化，这里的 Batch 归一化步骤也是如此，让我们来看看在第二个 mini-batch 中的例子，在 mini-batch 上计算 z[1] 的均值和方差，重新缩放的 β 和 γ 得到z̃等等，然后在第三个 mini-batch 上同样这样做继续训练。

Now, there’s one detail to the parameterization that I want to clean up,which is previously, I said that the parameters was wl, bl,for each layer as well as Beta l, and Gamma l.Now notice that the way Z was computed is as follows,zl= wl x a of l - 1 + b of l. But what Batch Norm does,is it is going to look at the mini-batch and normalize zl to first of mean 0 and standard variance,and then a rescale by Beta and Gamma.But what that means is that,whatever is the value of bl is actually going to just get subtracted out,because during that Batch Normalization step,you are going to compute the means of the zl’s and subtract the mean.And so adding any constant to all of the examples in the mini-batch ,it doesn’t change anything.Because any constant you add will get cancelled out by the mean subtractions step.So, if you’re using Batch Norm,you can actually that parameter,or if you want, think of it as setting it permanently to 0.So then the parameterization becomes zl is just wl x al - 1,And then you compute zl normalized,and we compute z tilde = Gamma zl+ Beta,you end up using this parameter Beta Lin order to decide what’s the mean of z tilde l.Which is why guess post in this layer.So just to recap,because Batch Norm zeroes out the mean of these zl values in the layer,there’s no point having this parameter bl,and so you must get rid of it,and instead is sort of replaced by Beta l,which is a parameter that controls that ends up affecting the shift or the biased terms.

现在我想澄清此参数化的一个细节，先前我说过每层的参数是 w[l] b[1] ，还有 β[l] 和 γ[l] ，请注意计算 z 的方式如下， z[l]=w[l]a[l−1]+b[l] 但 Batch 归一化做的是，它要看这个 mini-batch ，先将 z[l] 归一化结果为均值 0 和标准方差，再由 β 和 γ 重缩放，但这意味着，无论 b[l] 的值是多少都是要被减去的，因为在 Batch 归一化的过程中，你要计算 z[l] 的均值再减去平均值，在此例的 mini-batch 中增加任何常数，数值都不会改变，因为加上的任何常数都将会被均值减法所抵消，所以如果你在使用 Batch 归一化，其实你可以消除这个参数，或者你也可以暂时把它设置为 0，那么参数化变成 z[l]=w[l]a[l−1] ，然后你计算归一化的 z[l] , z̃ =γ[l]z[l]+β[l] ，你最后会用参数 β[l] ，以便决定 z̃ [l] 的取值，这就是原因，所以总结一下，因为 Batch 归一化 0 超过了此层 z[l] 的均值， b[l] 这个参数没有意义，所以你必须去掉它，由 β[l] 替代，这是个控制参数会影响转移或偏置条件。

Finally, remember that the dimension of zl,because if you’re doing this on one example,it’s going to be nl by 1,and so bl had a dimension, nl by one,if nl was the number of hidden units in layer l.And so the dimension of Beta l and Gamma l is also going to be nl by 1 because that’s the number of hidden units you have.You have nl hidden units, and so Beta l and Gamma l are used to scale the mean and variance of each of the hidden units to whatever the network wants to set them to.

最后请记住 z[l] 的维数，因为在这个例子中，维数会是 (n[l]1) ， b[l] 的尺寸 (n[l]1) ，如果是 l 层隐藏单元的数量，那 β[l] 和 γ[l] 的维度，也是 (n[l]1) 因为这是你有的隐藏层的数量，你有 n[l] 隐藏单元所以 β[l] 和 γ[l] 用来，将每个隐藏层的均值和方差缩放为网络想要的值。

So, let’s pull all together and describe how you can implement gradient descent using Batch Norm.Assuming you’re using mini-batch gradient descent,it runs for t = 1 to the number of many batches.You would implement forward prop on mini-batch x t and doing forward prop in each hidden layer,use Batch Norm to replace zl with z tilde l.And so then it ensures that within that mini-batch ,the value z end up with some normalized mean and variance and the values and the version of the normalized mean and variance is this z tilde l.And then, you use back prop to compute dw,db,for all the values of l,d Beta, d Gamma.Although, technically, since you have got to get rid of b,this actually now goes away.And then finally, you update the parameters.So, w gets updated as w minus the learning rate times dw, as usual,Beta gets updated as Beta minus learning rate times d\beta,and similarly for Gamma.And if you have computed the gradient as follows,you could use gradient descent.That’s what I’ve written down here,but this also works with gradient descent with momentum ,or RMSprop, or Adam .Where instead of taking this gradient descent update mini-batch you could use the updates given by these other algorithmsas we discussed in the previous week’s videos.Some of these other optimization algorithms as well can be usedto update the parameters Beta and Gamma that Batch Norm added to algorithm.

让我们总结一下，关于如何用 Batch 归一化来应用梯度下降法，假设你在使用 mini-batch 梯度下降法，你运行同 t 等于 1 到 batch 数量的 for 循环，你会应用正向 prop 于 mini-batch x{num} ，每个隐藏层都应用正向 prop，用 Batch 归一化替代 z[l] 为 z̃ [l] ，接下来它确保在这个 mini-batch 中， z 值有归一化的均值和方差，归一化均值和方差是 z̃ [l] ，然后你用反向 prop 计算 dw[l] db[l] ，及 l 的所有值 dβ[l] dγ[l] ，尽管严格来说因为你要去掉 b ，这部分其实已经去掉了，最后你更新这些参数， w[l]=w[l]−αdw[l] 和以前一样， β[l]=β[l]−αdβ[l] ，对于 γ 也是如此，如果你已将梯度计算如下，你就可以使用梯度下降法了，这就是我写到这里的，但这也适用于有 momentum 、 RMSprop 、 Adam 的梯度下降法，与其使用梯度下降法更新 mini-batch ，你可以用这些其它的算法来更新，我们在之前几星期视频中讨论过的，也可以应用其它的一些优化算法，来更新由 Batch 归一化添加到算法中的 β 和 γ 参数。

So, I hope that gives you a sense ofhow you could implement Batch Norm from scratch if you wanted to.If you’re using one of the Deep Learning Programming frameworkswhich we will talk more about later,hopefully you can just call someone else’s implementation inthe Programming framework which will make using Batch Norm much easier.Now, in case Batch Norm still seems a little bit mysteriousif you’re still not quite sure why it speeds up training so dramatically,let’s go to the next video and talk more aboutwhy Batch Norm really works and what it is really doing.

我希望你能学会如何从头开始应用 Batch 归一化 。如果你想的话，如果你使用深度学习编程框架之一，我们之后会谈到，希望你可以直接叫别人应用于，编程框架这会使 Batch 归一化的使用变得很容易，现在以防 Batch 归一化仍然看起来有些神秘，尤其是你还不清楚为什么其能如此显著的加速训练，我们下一个视频中会谈到， Batch 归一化为何效果如此显著它到底在做什么。

重点总结：

在神经网络中融入Batch Norm

在深度神经网络中应用 Batch Norm，这里以一个简单的神经网络为例，前向传播的计算流程如下图所示：

实现梯度下降
- for t = 1 … num （这里 num 为 Mini Batch 的数量）：
- 在每一个 Xt 上进行前向传播（forward prop）的计算：
- 在每个隐藏层都用 Batch Norm 将 z[l] 替换为 z˜[l]

使用反向传播（Back prop）计算各个参数的梯度： dw[l]、dγ[l]、dβ[l]
- 更新参数：
  - w[l]:=w[l]−αdw[l]
  - γ[l]:=γ[l]−αdγ[l]
  - β[l]:=β[l]−αdβ[l]
同样与 Mini-batch 梯度下降法相同，Batch Norm 同样适用于 momentum、RMSprop、Adam 的梯度下降法来进行参数更新。

这里没有写出偏置参数 b[l] 是因为 z[l]=w[l]a[l−1]+b[l] ，而 Batch Norm 要做的就是将 z[l] 归一化，结果成为均值为 0，标准差为 1 的分布，再由 β 和 γ 进行重新的分布缩放，那就是意味着，无论 b[l] 值为多少，在这个过程中都会被减去，不会再起作用。所以如果在神经网络中应用 Batch Norm 的话，就直接将偏置参数 b[l] 去掉，或者将其置零。

参考文献：

[1]. 大树先生.吴恩达Coursera深度学习课程 DeepLearning.ai 提炼笔记（2-3）– 超参数调试和 Batch Norm

PS: 欢迎扫码关注公众号：「SelfImprovementLab」！专注「深度学习」，「机器学习」，「人工智能」。以及「早起」，「阅读」，「运动」，「英语」「其他」不定期建群打卡互助活动。

深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
《C++性能优化指南》 linux版代码及原理解读第一章 v俊逸 C++性能优化指南性能优化 C++性能优化性能优化
概述：目录概述：性能优化的必要性：C++代码优化策略总结用好的编译器并用好编译器使用更好的算法使用更好的库减少内存分配和复制移除计算使用更好的数据结构提高并发性优化内存管理性能优化的必要性：按照当今的CPU运行速度来说，执行一条指令所需要的时间是10的-9次方的时间单位，如此快速的执行速度是否就没有性能优化的必要了呢？其实不然，性能优化与CPU的执行速度并无非常大的关系，试想一下，一段代码，如果用
《C++性能优化指南》 linux版代码及原理解读第四章 v俊逸 C++性能优化指南性能优化 C++性能优化指南性能优化
目录概述为什么字符串很麻烦字符串是动态分配的字符串赋值背后的操作如何面对字符串会进行大量复制写时复制COW（copyonwrite）尝试优化字符串避免临时字符串通过预留存储空间减少内存分配通过传递引用减少实参复制使用迭代器操作减少循环中的比较操作减少返回值的复制还没有结束，使用字符数组代替字符串再次优化字符串尝试其他的算法叠加以前的优化方式使用其他的编译器使用其他字符串的库功能丰富的字符串库使用s
法律科技领域人工智能代理构建的十个经验教训，一位人工智能工程师通过构建、部署和维护智能代理的经验教训来优化法律工作流程的历程。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 ai
目录介绍什么是代理人？为什么它对法律如此重要？法律技术中代理用例示例-合同审查代理-法律研究代理在LegalTech中使用代理的十个教训-教训1：即使代理很酷，它们也不能解决所有问题-教训2：选择最适合您用例的框架-教训3：能够快速迭代不同的模型-教训4：从简单开始，必要时扩展-教训5：使用跟踪解决方案；您将需要它-教训6：确保跟踪成本，代理循环可能很昂贵-教训7：将控制权交给最终用户（人在环路中
C++ 性能优化指南三月微风 c++性能优化开发语言
C++性能优化指南（针对GCC编译器，面向高级工程师面试）代码优化面试常问点：如何避免不必要的对象拷贝？为什么要用引用或std::move？虚函数调用有什么性能开销？原理解释：传递对象时按值会拷贝整个对象，特别是大对象会频繁分配/释放内存，影响性能；应尽量改用引用或指针传递。C++11引入移动语义（move），允许“窃取”临时对象的资源，避免深拷贝。虚函数调用需要先通过对象的虚函数表指针（vptr
优化版三国主题MySQL建表与查询练习（细节增强）韩公子的Linux大集市五 MySQL运维DBA mysql 数据库
文章目录优化版三国主题MySQL建表与查询练习（细节增强）题目一：三国人物信息表（全面优化）建表语句（增强约束与注释）插入数据（含完整信息）查询练习（增强实用性）题目二：三国战役表（增强关系设计）建表语句（完整关系模型）插入数据（完整战役信息）查询练习（多表关联）综合实战演练1.人物能力值分析2.战役地图查询3.胜负因素分析设计亮点总结优化版三国主题MySQL建表与查询练习（细节增强）题目一：三国
8个Java TCP/UDP框架：优缺点及应用场景全解析！技术男老张 #编程语言 -JAVA 编程语言 java tcp/ip udp ssl 网络协议 websocket http
JavaTCP框架在现代网络编程中扮演着至关重要的角色，尤其是在需要高效、稳定且可扩展的网络通信解决方案时。本文将深入探讨一些主流的JavaTCP/UDP框架，分析它们的优缺点以及适用场景，旨在为开发者提供一份详尽的指南。一、NettyNetty是一个异步事件驱动的网络应用框架，用于快速开发高性能、高可靠性的网络IO程序。Netty的设计目标是简化网络编程的复杂性，同时提高网络应用的性能和可扩展性
三网BGP服务器——CDN加速的底层基石群联云防护小杜安全问题汇总服务器 python 运维游戏安全自动化网络
为什么跨网访问会成为业务性能杀手？场景痛点当电信用户访问联通机房的资源时，平均延迟高达120ms以上，而跨网丢包率可达15%。传统单线机房导致30%的用户体验直接下降。BGP协议的核心价值#三网路由优化模拟器（Python3）importrandomdefbgp_route_selection(user_isp,cdn_nodes):#用户ISP：1=电信2=移动3=联通#节点示例：{'node1
Java中hashmap的原理好好沉淀笔记学习 java 经验分享
是什么hashmap底层是由哈希表组成，用于存储键值对的，其核心就是将哈希值映射到数组索引位置上，通过数组+链条的方式来解决哈希冲突，java8之后优化成数组+链条+红黑树。存放hashmap的哈希值由hashcode方法来进行计算，确定存储在数组上的位置，哈希值进过计算之后可能会重复，此时直接加在链表上即可，防止冲突分布不均。扩容hashmap的数组默认长度是16，负载因子是0.75，当大于16
如何在Windows系统下使用Dockerfile构建Docker镜像：完整指南 996蹲坑 windows docker 容器
前言Docker作为当前最流行的容器化技术，已经成为开发、测试和运维的必备工具。本文将详细介绍在Windows系统下使用Dockerfile构建Docker镜像的完整流程，包括两种镜像构建方式的对比、Dockerfile核心指令详解、实战案例演示以及Windows系统下的特殊注意事项。一、Docker镜像构建的两种方式1.容器转为镜像（不推荐）这种方式适合临时保存容器状态，但不适合生产环境使用：#
深入理解 Linux 中的 stat 函数与文件属性操作
在Linux系统编程中，获取和操作文件属性是一项基础且重要的任务。stat函数作为获取文件状态信息的核心接口，为我们提供了丰富的文件元数据。本文将详细解析stat函数的用法、结构体成员含义，以及与文件时间戳、权限相关的实用操作。一、stat函数：文件信息的"万能查询器"stat函数的原型非常简洁：intstat(constchar*pathname,structstat*statbuf)功能：通过
Unity物理系统由浅入深第二节：物理系统高级特性与优化吉良吉影NeKoSuKi unity 游戏引擎架构 c#开发语言
本次我们将简单讲解Unity物理系统的一些高级特性，例如物理层、各种关节、布料系统和车辆物理等，这些能够帮助我们理解复杂的物理模拟原理。同时，我们也会探讨物理系统的性能开销，并提供优化策略，确保我们的游戏在拥有丰富物理效果的同时，也能保持良好的帧率。1.物理层（PhysicsLayers）：精细控制碰撞行为在大型或复杂的场景中，你可能不希望所有物体都相互碰撞。例如，玩家的子弹应该能击中敌人，但不应
《手机摄影从实战到精通》——多个技能多条路，手机拍摄技巧，着实过分实用了 Ann2015 智能手机程序人生学习生活风景
用小小的一部手机，就能拍大片？是的，手机摄影已不容小觑。近年来，一些手机厂商邀请知名导演使用手机拍大片，以彰显手机性能的强大，这也重新定义了我们对手机摄影的认知。相较于传统摄影设备，智能手机自带的“计算摄影”性能也降低了拍摄门槛，它可以将原本需要手动调节的各项参数指标进行自动调整和优化，使我们能轻松获得最佳拍摄效果。这也大大降低了拍摄的难度和门槛，让我们将重点放在内容创作上。手机与视频平台也密不可
Mamba项目用户指南：高效管理Python环境的利器左松钦Travis
Mamba项目用户指南：高效管理Python环境的利器mambaTheFastCross-PlatformPackageManager项目地址:https://gitcode.com/gh_mirrors/mam/mamba什么是Mamba？Mamba是一个基于Conda的CLI工具，专为高效管理Python环境而设计。它继承了Conda的所有优点，同时在性能上进行了显著优化，特别是在解决依赖关系
iOS应用性能优化指南
在移动应用开发领域，iOS应用性能优化一直是开发者关注的焦点。优化应用性能不仅能够提升用户体验，还能增强应用的竞争力。本文将从多个方面详细阐述iOS应用性能优化指南，帮助开发者打造更高效、更流畅的应用。优化内存管理内存泄漏的预防与检测内存泄漏是导致应用性能下降的常见问题。开发者应遵循ARC（自动引用计数）原则，合理管理对象的引用关系。同时，可以使用Xcode的Instruments工具检测内存泄漏
AI技术正在深刻重塑A/B测试优化的流程、效率和价值，推动其从传统的“手动实验”向“智能优化引擎”跃迁。 zzywxc787 人工智能
AI技术正在深刻重塑A/B测试优化的流程、效率和价值，推动其从传统的“手动实验”向“智能优化引擎”跃迁。以下是具体变革方向及实际影响：1.实验设计智能化：告别“猜猜看”传统痛点：依赖经验选择测试变量（如按钮颜色、文案），忽略潜在高价值组合。AI解决方案：多臂老虎机算法（MAB）：动态分配流量至表现最优的变体（如：80%流量给当前最优，20%探索新选项），减少流量浪费高达70%（Netflix案例）
资深开发者挖掘创作潜能指南
太棒了！码龄超过4年的开发者们，你们早已不是编程新手，而是积累了宝贵经验、踩过无数坑、解决过复杂问题的宝藏创作者！是时候将这些无形的资产转化为有影响力的内容，点亮他人也成就自己了。挖掘创作潜能、展现写作才华，可以从以下几个维度入手：一、重新认识你的“创作金矿”-找到你的独特价值深度复盘你的技术旅程：“踩坑”与“填坑”史：哪些Bug让你彻夜难眠？哪些架构设计让你拍案叫绝或后悔不已？哪些性能优化带来了
全面探索Kafka：架构、应用与流处理
Kafka：企业级消息系统与流处理平台的深度解析ApacheKafka作为分布式流处理平台，广泛应用于大数据处理和实时分析领域。本文将基于其官方文档，详细探讨Kafka的核心功能、应用场景以及如何进行有效管理。背景简介Kafka作为高吞吐量的消息系统，支持企业级的发布-订阅模式。它能够处理大量实时数据，并支持高并发读写操作。本文将依据Kafka官方文档的内容，逐层深入，从入门到高级应用，帮助读者全
操作系统级TCP性能优化：高并发场景下的内核参数调优实践 Edingbrugh.南空运维 tcp/ip 性能优化网络协议
在高并发网络场景中，操作系统内核的TCP/IP协议栈配置对系统性能起着决定性作用。本文聚焦操作系统层面，深入解析内核参数调优策略，帮助读者构建稳定高效的网络通信架构。一、连接管理参数优化：从三次握手到队列控制1.1监听队列与半连接管理1.1.1net.core.somaxconn-监听套接字队列上限作用：定义listen()系统调用的积压连接队列最大值，控制未接受连接的排队长度。默认值：128（L
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
RabbitMQ 消息队列：从入门到Spring Boot实战无糖星轨 rabbitmq spring boot java
RabbitMQ作为一款开源的、基于AMQP（AdvancedMessageQueuingProtocol）协议实现的消息代理，凭借其强大的功能、灵活的路由机制以及出色的性能，在业界得到了广泛的应用。无论是处理高并发订单、异步通知、日志收集还是系统解耦，RabbitMQ都能发挥其独特的作用。1.RabbitMQ核心概念RabbitMQ的强大功能离不开其背后一系列精心设计的核心概念。理解这些概念是掌
电梯开关状态人员进出检测数据集VOC+YOLO格式2220张4类别 fl176831 数据集 YOLO 深度学习机器学习
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：2220标注数量(xml文件个数)：2220标注数量(txt文件个数)：2220标注类别数：4标注类别名称:["CloseElevator","People-in-elevator","The-elevator-was-
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
spring boot 详解以及原理经典1992 spring boot 后端 java
SpringBoot是Spring框架的扩展，旨在简化Spring应用的开发和部署。它通过自动配置和约定优于配置的原则，让开发者能够快速搭建独立运行的、生产级别的Spring应用。以下是SpringBoot的详细解析和工作原理：一、SpringBoot的核心特性自动配置根据项目依赖和配置，自动配置Spring框架的组件（如数据源、Web服务器等）。例如，添加spring-boot-starter-
本地部署大模型的几种方式 AI产品经理语言模型人工智能自然语言处理 chatgpt 学习
现在大模型可谓是满天飞,只要你稍微关注时下的AI资讯,几乎每天都有新的AI大模型出现.这之中当然有诸如GhatGPT,Gemini这样的私有化大模型,更吸引人关注的可能是开源的可私有化部署的一些大模型.比如Meta前两天开放的Lamma3,Google的Gemma开源模型,国内也有Qwen以及YI等.前排提示，文末有大模型AGI-CSDN独家资料包哦！无论私有的大模型,还是开源的可私有化部署的大模
Claude code的强大之处，附国内Claude code镜像安装方式！
Anthropic的最新Claudecode在开发社区大行其道。许多程序员称赞它是目前最好的编程工具，能够在短短几分钟内解决困扰一整年的编程难题，这是了不起的成就。我们在本文中将探讨将Claudecode的强大和国内的使用的方案以及如何使用Claudecode。一、Claudecode是什么？ClaudeCode是Anthropic推出的一款Agent编码工具，支持在终端运行，理解代码库，并通过自
[转]Mac OS守护进程（服务）列表及优化建议叫大白 MacOS MacOS 常识技巧
/sbin/launchd系统及用户进程管理器，它是内核装载成功后在OS环境下启动的第一个进程，是MacOS最重要的进程之一。你无法禁用它。/usr/libexec/kextd内核扩展服务，响应内核或用户进程的请求，比如装载或卸载内核扩展或提供内核扩展信息给它们。这是Mac的关键守护进程，请不要去禁用它。/usr/sbin/notifyd消息服务，这是MacOS消息系统的组成部分之一。我们知道，操
实现快速查询的YashanDB数据库配置与调优方法数据库
在现代数据库应用中，查询速度直接影响到系统的性能与用户体验。因此，如何优化数据库查询速度成为一个亟需解决的问题。YashanDB作为一款高性能的数据库，支持多种配置与调优方法，以实现高效的查询性能。本文将探讨YashanDB的数据库配置与调优方法，帮助用户实现快速查询，提升数据库的使用效能和响应速度。数据库配置与调优方法部署架构的选择YashanDB支持多种部署架构，包括单机部署、共享集群部署及分
【Kafka专栏 13】Kafka的消息确认机制：不是所有的“收到”都叫“确认”！
作者名称：夏之以寒作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：夏之以寒-kafka专栏专栏介绍：本专栏旨在以浅显易懂的方式介绍Kafka的基本概念、核心组件和使用场景，一步步构建起消息队列和流处理的知识体系，无论是对分布式系统感兴趣，还是准备在大数据领域迈出第一步，本专栏都提供所需的一切资源、指导，以及相关面试题，立刻免费订阅，开启Kafka学习之旅！
【C#】依赖注入知识点汇总 Mike_Wuzy c#
在C#中实现依赖注入（DependencyInjection,DI）可以帮助你创建更解耦、可维护和易于测试的软件系统。以下是一些关于依赖注入的关键知识点及其示例代码。1.基本概念容器(Container)容器负责管理对象实例以及它们之间的依赖关系。IoC容器（InversionofControlContainer）是实现依赖注入的核心工具，常见的DI框架包括Unity、Autofac、Castle
ztree设置禁用节点 3213213333332132 JavaScript ztree json setDisabledNode Ajax
ztree设置禁用节点的时候注意，当使用ajax后台请求数据,必须要设置为同步获取数据，否者会获取不到节点对象，导致设置禁用没有效果。 $(function(){ showTree(); setDisabledNode(); });
JVM patch by Taobao bookjovi java HotSpot
在网上无意中看到淘宝提交的hotspot patch，共四个，有意思，记录一下。 7050685：jsdbproc64.sh has a typo in the package name 7058036：FieldsAllocationStyle=2 does not work in 32-bit VM 7060619：C1 should respect inline and
将session存储到数据库中 dcj3sjt126com sql PHP session
CREATE TABLE sessions ( id CHAR(32) NOT NULL, data TEXT, last_accessed TIMESTAMP NOT NULL, PRIMARY KEY (id) ); <?php /** * Created by PhpStorm. * User: michaeldu * Date
Vector 171815164 vector
public Vector<CartProduct> delCart(Vector<CartProduct> cart, String id) { for (int i = 0; i < cart.size(); i++) { if (cart.get(i).getId().equals(id)) { cart.remove(i);
各连接池配置参数比较 g21121 连接池
排版真心费劲，大家凑合看下吧，见谅~ Druid DBCP C3P0 Proxool 数据库用户名称 Username Username User 数据库密码 Password Password Password 驱动名
[简单]mybatis insert语句添加动态字段 53873039oycg mybatis
mysql数据库,id自增,配置如下： <insert id="saveTestTb" useGeneratedKeys="true" keyProperty="id" parameterType=&
struts2拦截器配置云端月影 struts2拦截器
struts2拦截器interceptor的三种配置方法方法1. 普通配置法 <struts> <package name="struts2" extends="struts-default"> &
IE中页面不居中，火狐谷歌等正常 aijuans IE中页面不居中
问题是首页在火狐、谷歌、所有IE中正常显示，列表页的页面在火狐谷歌中正常，在IE6、7、8中都不中，觉得可能那个地方设置的让IE系列都不认识，仔细查看后发现，列表页中没写HTML模板部分没有添加DTD定义，就是<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3
String,int,Integer,char 几个类型常见转换 antonyup_2006 html sql .net
如何将字串 String 转换成整数 int? int i = Integer.valueOf(my_str).intValue(); int i=Integer.parseInt(str); 如何将字串 String 转换成Integer ? Integer integer=Integer.valueOf(str); 如何将整数 int 转换成字串 String ? 1.
PL/SQL的游标类型百合不是茶显示游标(静态游标)隐式游标游标的更新和删除 %rowtype ref游标(动态游标)
游标是oracle中的一个结果集,用于存放查询的结果; PL/SQL中游标的声明; 1,声明游标 2,打开游标(默认是关闭的); 3,提取数据 4,关闭游标注意的要点:游标必须声明在declare中,使用open打开游标,fetch取游标中的数据,close关闭游标隐式游标:主要是对DML数据的操作隐
JUnit4中@AfterClass @BeforeClass @after @before的区别对比 bijian1013 JUnit4 单元测试
一.基础知识 JUnit4使用Java5中的注解（annotation），以下是JUnit4常用的几个annotation： @Before：初始化方法对于每一个测试方法都要执行一次（注意与BeforeClass区别，后者是对于所有方法执行一次）@After：释放资源对于每一个测试方法都要执行一次（注意与AfterClass区别，后者是对于所有方法执行一次
精通Oracle10编程SQL(12)开发包 bijian1013 oracle 数据库 plsql
/* *开发包 *包用于逻辑组合相关的PL/SQL类型（例如TABLE类型和RECORD类型）、PL/SQL项（例如游标和游标变量）和PL/SQL子程序（例如过程和函数） */ --包用于逻辑组合相关的PL/SQL类型、项和子程序，它由包规范和包体两部分组成 --建立包规范：包规范实际是包与应用程序之间的接口，它用于定义包的公用组件，包括常量、变量、游标、过程和函数等 --在包规
【EhCache二】ehcache.xml配置详解 bit1129 ehcache.xml
在ehcache官网上找了多次，终于找到ehcache.xml配置元素和属性的含义说明文档了，这个文档包含在ehcache.xml的注释中！ ehcache.xml ： http://ehcache.org/ehcache.xml ehcache.xsd ： http://ehcache.org/ehcache.xsd ehcache配置文件的根元素是ehcahe ehcac
java.lang.ClassNotFoundException: org.springframework.web.context.ContextLoaderL 白糖_ java eclipse spring tomcat Web
今天学习spring+cxf的时候遇到一个问题：在web.xml中配置了spring的上下文监听器： <listener> <listener-class>org.springframework.web.context.ContextLoaderListener</listener-class> </listener> 随后启动
angular.element boyitech AngularJS AngularJS API angular.element
angular.element 描述: 包裹着一部分DOM element或者是HTML字符串，把它作为一个jQuery元素来处理。（类似于jQuery的选择器啦）如果jQuery被引入了，则angular.element就可以看作是jQuery选择器，选择的对象可以使用jQuery的函数；如果jQuery不可用，angular.e
java-给定两个已排序序列，找出共同的元素。 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class CommonItemInTwoSortedArray { /** * 题目：给定两个已排序序列，找出共同的元素。 * 1.定义两个指针分别指向序列的开始。 * 如果指向的两个元素
sftp 异常，有遇到的吗？求解 Chen.H java jcraft auth jsch jschexception
com.jcraft.jsch.JSchException: Auth cancel at com.jcraft.jsch.Session.connect(Session.java:460) at com.jcraft.jsch.Session.connect(Session.java:154) at cn.vivame.util.ftp.SftpServerAccess.connec
[生物智能与人工智能]神经元中的电化学结构代表什么? comsci 人工智能
我这里做一个大胆的猜想,生物神经网络中的神经元中包含着一些化学和类似电路的结构,这些结构通常用来扮演类似我们在拓扑分析系统中的节点嵌入方程一样,使得我们的神经网络产生智能判断的能力,而这些嵌入到节点中的方程同时也扮演着"经验"的角色.... 我们可以尝试一下...在某些神经
通过LAC和CID获取经纬度信息 dai_lm lac cid
方法1：用浏览器打开http://www.minigps.net/cellsearch.html，然后输入lac和cid信息(mcc和mnc可以填0)，如果数据正确就可以获得相应的经纬度方法2：发送HTTP请求到http://www.open-electronics.org/celltrack/cell.php?hex=0&lac=<lac>&cid=&
JAVA的困难分析 datamachine java
前段时间转了一篇SQL的文章（http://datamachine.iteye.com/blog/1971896），文章不复杂，但思想深刻，就顺便思考了一下java的不足，当砖头丢出来，希望引点和田玉。 -----------------------------------------------------------------------------------------
小学5年级英语单词背诵第二课 dcj3sjt126com english word
money 钱 paper 纸 speak 讲，说 tell 告诉 remember 记得，想起 knock 敲，击，打 question 问题 number 数字，号码 learn 学会，学习 street 街道 carry 搬运，携带 send 发送，邮寄，发射 must 必须 light 灯，光线，轻的 front
linux下面没有tree命令 dcj3sjt126com linux
centos p安装 yum -y install tree mac os安装 brew install tree 首先来看tree的用法 tree 中文解释：tree 功能说明：以树状图列出目录的内容。语　　法：tree [-aACdDfFgilnNpqstux][-I <范本样式>][-P <范本样式
Map迭代方式，Map迭代，Map循环蕃薯耀 Map循环 Map迭代 Map迭代方式
Map迭代方式，Map迭代，Map循环 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年
Spring Cache注解+Redis hanqunfeng spring
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redis</artifactId>
Guava中针对集合的 filter和过滤功能 jackyrong filter
在guava库中，自带了过滤器(filter)的功能，可以用来对collection 进行过滤，先看例子： @Test public void whenFilterWithIterables_thenFiltered() { List<String> names = Lists.newArrayList("John"
学习编程那点事 lampcy 编程 android PHP html5
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
架构师之流处理---------bytebuffer的mark,limit和flip nannan408 ByteBuffer
1.前言。如题，limit其实就是可以读取的字节长度的意思，flip是清空的意思，mark是标记的意思。 2.例子. 例子代码: String str = "helloWorld"; ByteBuffer buff = ByteBuffer.wrap(str.getBytes()); Sy
org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1, column 1 Everyday都不同 $转义 el表达式
最近在做Highcharts的过程中，在写js时，出现了以下异常：严重: Servlet.service() for servlet jsp threw exception org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1,
用Java实现发送邮件到163 tntxia java实现
/* 在java版经常看到有人问如何用javamail发送邮件？如何接收邮件？如何访问多个文件夹等。问题零散，而历史的回复早已经淹没在问题的海洋之中。本人之前所做过一个java项目，其中包含有WebMail功能，当初为用java实现而对javamail摸索了一段时间，总算有点收获。看到论坛中的经常有此方面的问题，因此把我的一些经验帖出来，希望对大家有些帮助。此篇仅介绍用
探索实体类存在的真正意义 java小叶檀 POJO
一. 实体类简述实体类其实就是俗称的POJO,这种类一般不实现特殊框架下的接口，在程序中仅作为数据容器用来持久化存储数据用的 POJO（Plain Old Java Objects）简单的Java对象它的一般格式就是 public class A{ private String id; public Str

Coursera | Andrew Ng (02-week-3-3.5)—将 Batch Norm 拟合进神经网络

重点总结：

你可能感兴趣的:(深度学习,正则化以及优化,深度学习,吴恩达)