ZJ_Improve

Coursera | Andrew Ng (02-week-2-2.6)—动量（Momentum ）梯度下降法

该系列仅在原课程基础上部分知识点添加个人学习笔记，或相关推导补充等。如有错误，还请批评指教。在学习了 Andrew Ng 课程的基础上，为了更方便的查阅复习，将其整理成文字。因本人一直在学习英语，所以该系列以英文为主，同时也建议读者以英文为主，中文辅助，以便后期进阶时，为学习相关领域的学术论文做铺垫。- ZJ

Coursera 课程 |deeplearning.ai |网易云课堂

转载请注明作者和出处：ZJ 微信公众号-「SelfImprovementLab」

知乎：https://zhuanlan.zhihu.com/c_147249273

CSDN：http://blog.csdn.net/junjun_zhao/article/details/79102865

2.6 Gradient descent with Momentum (动量梯度下降法)

(字幕来源：网易云课堂)

There’s an algorithm called Momentum ,or gradient descent with Momentum that almost always works faster than the standard gradient descent algorithm.In one sentence, the basic idea is to compute an exponentially weighted average of your gradients,and then use that gradient to update your weights instead.In this video, let’s unpack that one sentence description and see how you can actually implement this.

还有一种算法叫做 Momentum ，或者叫做 Momentum 梯度下降法，运行速度几乎总是快于标准的梯度下降算法，简而言之，基本的想法就是，计算梯度的指数加权平均数，并利用该梯度更新你的权重，在本视频中我们要一起拆解单句描述，看看你到底如何计算。

As a example let’s say that you’re trying to optimize a cost function which has contours like this.So the red dot denotes the position of the minimum.Maybe you start gradient descent here and if you take one iteration of gradient descent either batch or mini-batch descent maybe end up heading there.But now you’re on the other side of this ellipse,and you take another step of gradient descent,maybe you end up doing that.And then another step, another step, and so on.And you see that gradient descents willsort of take a lot of steps, right?Just slowly oscillate toward the minimum.And this up and down oscillations slows down gradient descent and prevents you from using a much larger learning rate.In particular, if you were to use a much larger learning rate you might end up overshooting and end up diverging like so.And so the need to prevent the oscillations from getting too big forces you to use a learning rate that’s not itself too large.

例如，如果你要优化成本函数，函数形状如图，红点代表最小值的位置，假设你从这里开始梯度下降法，如果进行梯度下降法的一次迭代，无论是 batch 或 mini-batch 下降法，也许会指向这里，现在在椭圆的另一边，计算下一步梯度下降，结果或许如此，然后再计算一步再一步计算下去，你发现梯度下降法，要很多计算步骤对吧?，慢慢摆动到最小值，这种上下波动，减慢了梯度下降法的速度，你就无法使用更大的学习率，如果你要用较大的学习率，结果可能会偏离函数的范围，为了避免摆动过大，你要用一个较小的学习率。

Another way of viewing this problem is that on the vertical axis you want your learning to be a bit slower,because you don’t want those oscillations.But on the horizontal axis,you want faster learning.Right, because you want it to aggressively move from left to right,toward that minimum, toward that red dot.So here’s what you can doif you implement gradient descent with Momentum .On each iteration,or more specifically, during iteration tyou would compute the usual derivatives dw, db.I’ll omit the superscript square bracket l’s but you compute dw, db on the current mini-batch .And if you’re using batch gradient descent,then the current mini-batch would be just your whole batch.And this works as well off a batch gradient descent.So if your current mini-batch is your entire training set,this works fine as well.And then what you do isyou compute vdW to be Beta vdW plus 1 minus Beta dW.So this is similar to when we’re previously computing v data equals beta v data plus 1 minus beta data t.Right, so it’s computinga moving average of the derivatives for w you’re getting.And then you similarly compute vdb equals thatplus 1 minus Beta times db.And then you would update your weights,using W gets updated as W minus the learning rate times,instead of updating it with dW, with the derivative you update it with vdW .And similarly, b gets updated as b minus alpha times vdb .So what this does is smooth out the steps of gradient descent.

另一个看待问题的角度是，在纵轴上，你希望学习慢一点，因为你不想要这些摆动，但是在横轴上，你希望加快学习，你希望快速从左向右移，移向最小值移向红点，所以使用 Momentum 梯度下降法，你需要做的是，在每次迭代中，确切来说在第 t 次迭代的过程中，你会计算微分dw db，我会省略上标括号 l ，你用现有的 mini-batch 计算 dw db，如果你用 batch梯度下降法，现在的 mini-batch 就是全部的 batch，对于 batch 梯度下降法的效果是一样的，如果现有的 mini-batch 就是整个训练集，效果也不错，你要做的是， vdW=β∗vdW+(1−β)∗dW ，这跟我们之前的计算相似，也就是 v=β∗v+(1−β)∗ 数据 t，所以计算得到的是，dw 的移动平均数，接着同样地计算 vdb ，等于 β∗vdb+(1−β)∗db ，然后重新赋值权重， W=W−α 乘以，这里重新赋值不用 dW ，而用 vdW ，同样 b=b−α∗vdb ，这样就可以减缓梯度下降的幅度。

For example, let’s say that in the last few derivatives you computed were this, this, this, this, this.If you average out these gradients,you find that the oscillations in the vertical directionwill tend to average out to something closer to zero.So, in the vertical direction, where you want to slow things downthis will average out positive and negative numbers,so the average will be close to zero.Whereas, on the horizontal direction,all the derivatives are pointing to the right of the horizontal direction,so the average in the horizontal direction will still be pretty big.So that’s why with this algorithm, with a few iterations you find that the gradient descent with Momentum ends up eventually just taking steps that are much smaller oscillations in the vertical direction,but are more directed to just moving quickly in the horizontal direction.And so this allows your algorithm to take a more straightforward path,or to damp out the oscillations in this path to the minimum.

例如,在上几个导数中，你计算得到了这个这个这个，如果平均这些梯度，你会发现这些纵轴上的摆动，平均值接近于零，所以在纵轴方向你希望放慢一点，平均过程中正负数相互抵消，所以平均值接近于零，但是在横轴方向，所有的微分都指向横轴方向，因此横轴方向的平均值仍然较大，因此用算法几次迭代后，你发现 Momentum 梯度下降法，最终，纵轴方向的摆动变小了，横轴方向运动更快，因此你的算法，走了一条更加直接的路径，在抵达最小值的路上减少了摆动。

One intuition for this Momentum ,which works for some people, but not everyone,is that if you’re trying to minimize your bowl shape function, right?This is really the contours of a bowl.I guess I’m not very good at drawing.They kind of minimize this type of bowl shaped function then these derivative terms you can think of as providing acceleration to a ball that you’re rolling down hill.And these Momentum terms you can think of as representing the velocity.And so imagine that you have a bowl,and you take a ball the derivative imparts acceleration to this little ball so the little ball is rolling down this hill, right?And so it rolls faster and faster, because of acceleration.And beta, because this number a little bit less than one displays a row of friction and it prevents your ball from speeding up without limit.But so rather than gradient descent,just taking every single step independently of all previous steps.Now, your little ball can roll downhill and gain Momentum ,it can accelerate down this bowl and therefore gain Momentum .I find that this ball rolling down a bowl analogy it seems to work for some people who enjoy physics intuitions.But it doesn’t work for everyone.so if this analogy of a ball rolling down the bowl doesn’t work for you,don’t worry about it.

Momentum 的一个本质，这对有些人而不是所有人有效，就是如果你要最小化碗状函数，这是碗的形状，我画画不太好，它们能够最小化碗装函数，这些微分项，想象它们为你从山上往下滚的一个球，提供了加速度， Momentum 项就相当于速度，想象你有一个碗，你拿一个球，微分给了这个球一个加速度，此时球正向山下滚，球因为加速度越滚越快，而因为 β 稍小于 1，表现出一些摩擦力，所以球不会无限加速下去，所以不像梯度下降法，每一步都独立于之前的步骤，你的球可以向下滚获得动量，可以从碗向下加速获得动量，我发现这个球从碗滚下的比喻，物理能力强的人接受得比较好，但不是所有人都能接受，如果球从碗中滚下这个比喻，你理解不了，别担心。

Finally, let’s look at some details on how you implement this.Here’s the algorithm and so you now have two hyperparameters,the learning rate alpha, as well as this parameter Beta,which controls your exponentially weighted average.The most common value for Beta is 0.9.We’re averaging over the last ten days temperature.So it is averaging of the last ten iteration’s gradients.And in practice,Beta equals 0.9 works very well.Feel free to try different values and do some hyperparameter search,but 0.9 appears to be a pretty robust value.Well, and how about bias correction, right?So do you want to take vdW and vdb anddivide it by 1 minus beta to the t.In practice, people don’t usually do this because after just ten iterations,your moving average will have warmed up,and is no longer a bias estimate.

最后我们来看具体如何计算，算法在此，所以你有两个超参数，学习率 α 以及参数 β，β 控制着指数加权平均数，β 最常用的值是 0.9，我们之前平均了过去十天的温度，所以现在平均了前十次迭代的梯度，实际上 β 为 0.9 时效果不错，你可以尝试不同的值，可以做一些超参数的研究，不过 0.9 是很棒的鲁棒数，那么关于偏差修正，所以你要拿 vdW 和 vdb ，除以 (1−βt) 。

So in practice,I don’t really see people bothering with bias correction when implementing gradient descent or Momentum .And of course this process initialize the vdW equals 0.Note that this is a matrix of zeroes with the same dimension as dW,which has the same dimension as W.And vdb is also initialized to a vector of zeroes.So, the same dimension as db,which in turn has same dimension as b.Finally, I just want to mention that if you read the literature ongradient descent with Momentum often you see it with this term omitted,with this 1 minus Beta term omitted.So you end up with vdW equals Beta vdW plus dW.And the net effect of using this version in purple is that vdW ends up being scaled by a factor of 1 minus Beta,or really 1 over 1 minus Beta.

实际上人们不这么做，因为 10 次迭代之后，因为你的移动平均已经过了初始阶段，不再是一个具有偏差的预测，实际中，在使用梯度下降法或 Momentum 时，人们不会受到偏差修正的困扰，当然 vdW 的初始值是0，要注意到这是，和 dW 拥有相同维数的零矩阵，也就是跟 W 拥有相同的维数， vdb 的初始值也是向量零，所以和 db 拥有相同的维数，也就是和 b 是同一个维数，最后要说一点，如果你查阅了， Momentum 梯度下降法相关资料，通常会看到一个被删除了的专业词汇，1-β 被删除了，最后得到的是 vdW=β∗vdW+dW ，用紫色版本的结果就是，所以 vdW 缩小了 (1−β) 倍，相当于乘以 1/(1−β) ，

And so when you’re performing these gradient descent updates,alpha just needs to change by a corresponding value of 1 over 1 minus Beta.In practice, both of these will work just fine,it just affects what’s the best value of the learning rate alpha.But I find that this particular formulation is a little less intuitive.Because one impact of this is thatif you end up tuning the hyperparameter Beta,then this affects the scaling of vdW and vdb as well.And so you end up needing to retune the learning rate, alpha, as well, maybe.So I personally prefer the formulation that I have written here on the left,rather than leaving out the 1 minus Beta term.But, so I tend to use the formula on the left,the printed formula with the 1 minus Beta term.But both versions having Beta equal 0.9 is a common choice of hyperparameter.it’s just at alpha the learning rate would need to be tuned differentlyfor these two different versions.So that’s it for gradient descent with Momentum .This will almost always work better than the straightforward gradient descent algorithm without Momentum .But there’s still other things we could doto speed up your learning algorithm.Let’s continue talking about these in the next couple videos.

所以你要用梯度下降最新值的话， α 要根据 1/(1-β) 相应变化，实际上二者效果都不错，只是会影响到学习率 α 的最佳值，我觉得这个公式用起来没有那么自然，因为有一个影响，如果你最后要调整超参数 β，就会影响到 vdW 和 vdb ，你也许还要修改学习率 α ，所以我更喜欢左边的公式，而不是删去了 1-β 的这个公式，所以我更倾向于使用左边的公式，也就是有1-β的这个公式，但是两个公式都将 β 设置为0.9，是超参数的常见选择，只是在这两个公式中，学习率 α 的调整会有所不同，所以这就是 Momentum 梯度下降法，这个算法肯定要好于，没有 Momentum 的梯度下降算法，我们还可以做别的事情，来加快学习算法，我们将在接下来的视频中，继续探讨这些问题。

重点总结：

动量（ Momentum ）梯度下降法

动量梯度下降的基本思想就是计算梯度的指数加权平均数，并利用该梯度来更新权重。

在我们优化 Cost function 的时候，以下图所示的函数图为例：

在利用梯度下降法来最小化该函数的时候，每一次迭代所更新的代价函数值如图中蓝色线所示在上下波动，而这种幅度比较大波动，减缓了梯度下降的速度，而且我们只能使用一个较小的学习率来进行迭代。

如果用较大的学习率，结果可能会如紫色线一样偏离函数的范围，所以为了避免这种情况，只能用较小的学习率。

但是我们又希望在如图的纵轴方向梯度下降的缓慢一些，不要有如此大的上下波动，在横轴方向梯度下降的快速一些，使得能够更快的到达最小值点，而这里用动量梯度下降法既可以实现，如红色线所示。

算法实现

β 常用的值是 0.9。

在我们进行动量梯度下降算法的时候，由于使用了指数加权平均的方法。原来在纵轴方向上的上下波动，经过平均以后，接近于0，纵轴上的波动变得非常的小；但在横轴方向上，所有的微分都指向横轴方向，因此其平均值仍然很大。最终实现红色线所示的梯度下降曲线。

参考文献：

[1]. 大树先生.吴恩达Coursera深度学习课程 DeepLearning.ai 提炼笔记（2-2）– 优化算法

PS: 欢迎扫码关注公众号：「SelfImprovementLab」！专注「深度学习」，「机器学习」，「人工智能」。以及「早起」，「阅读」，「运动」，「英语」「其他」不定期建群打卡互助活动。

Coursera | Andrew Ng (02-week-2-2.6)—动量（Momentum ）梯度下降法_第11张图片

计算机毕业设计——springboot的准妈妈孕期交流平台
**欢迎来到琛哥的技术世界！**博主小档案：琛哥，一名来自世界500强的资深程序猿，毕业于国内知名985高校。技术专长：琛哥在深度学习任务中展现出卓越的能力，包括但不限于java、python等技术。近年来，琛哥更是将触角延伸至AI领域，对于机器学习、自然语言处理、智能推荐等前沿技术都有独到的见解和实践经验。博客亮点：琛哥坚信“授人以渔胜于授人以鱼”，因此我的博客中，你不仅可以找到关于技术的深入解
苏晟传媒合法吗，讲讲我的体验糖葫芦不甜
在当今快速发展的传媒与直播行业中，苏晟传媒作为一个备受关注的品牌，其合法性及服务质量自然成为许多人关心的焦点。微：RGD179结合我的亲身体验，我将从几个方面来探讨苏晟传媒的合法性和服务体验。苏晟传媒作为一家传媒公司，其合法性是毋庸置疑的。该公司经过国家相关部门的批准设立，具备合法的经营资质和条件。在行业内，苏晟传媒以其专业的媒体代理业务、设计制作、媒体投放以及活动策划等多元化服务赢得了广泛好评。
Ubuntu locale命令介绍(查询和设置当前用户的语言、国家/地区以及字符编码等环境设置) Tipriest_ Ubuntu ubuntu locale
好的，我们来详细介绍一下locale命令。locale命令简介locale是一个在Linux和其他类Unix系统中非常重要的命令。它的核心作用是查询和设置当前用户的语言、国家/地区以及字符编码等环境设置。这些设置统称为“locale”（地域/本土化设置），它们会影响到程序的界面语言、日期的显示格式、数字的表示方式（例如小数点和千位分隔符）、货币符号以及字符的排序规则等。简单来说，locale决定了
dify应用傻瓜教程二：dify升级
最近发现dify变化速度惊人，这对于dify的粉丝来说肯定是个好消息，说明dify正不断改善和优化自己，让自己变得越来越好用，但同时粉丝们也遇到个问题，就是如果确保自己在dify上已做过的产品或知识库不受影响的情况下升级到最新版本呢？下面我就以windows11系统中的dify1.4.0升级到1.6.0为例(前提是以源码部署方式），介绍大家如何升级：第一步：先右键点击桌面左下角类似分屏一样的图标，
量感的培养策略学习江畔桃圓
这两天，在网上查找了很多关于量感的解读，以及培养策略，我发现，资料阅读的越多，对概念的理解越模糊！其根本是越想精细化的整理消化理解，但却越易迷失！好在今天晚上学习的贲友林工作室研究的关于量感培养策略，感觉简洁却有效！具体如下：一探测学生对量感的直觉感知，找准教学的起点。直觉即直观感觉，它是指未经充分逻辑推理的感性认识，是基于人类的职业、阅历、知识和本能而存在的一种思维形式，是一种本能反应。在案例中
浮梦手游怎么当托? 浮梦内部福利号如何才能申请？会飞滴鱼儿
导读：浮梦手游怎么当托?浮梦内部福利号如何才能申请？谈及手游内部号和“托”号，以及返利号，折扣号，很多人都只是听闻它们的存在，并不了解它真正的作用，“托”号以及返利，折扣号其实都是内部号的一种说法，内部号主要好处就是可以得到游戏运营商扶持，上线就有5000充值福利，vip会员的等级和高级道具礼包福利，每天还有500-2000的充值福利，拥有内部福利的加持，你才能在游戏内称王称霸。每个人的钱都不是大
R 和 Hadoop 大数据分析（一）
原文：annas-archive.org/md5/b7f3a14803c1b4d929732471e0b28932译者：飞龙协议：CCBY-NC-SA4.0前言企业每天获取的数据量呈指数增长。现在可以将这些海量信息存储在像Hadoop这样的低成本平台上。这些组织目前面临的难题是如何处理这些数据，以及如何从中提取关键见解。因此，R就成为了关键工具。R是一个非常强大的工具，它使得在数据上运行高级统计模
我们可能不再需要UI工程师了～强化学习曾小健 ui
我们可能不再需要UI工程师了～原创深度抑郁患者GIS小丸子2025年06月30日08:01中国香港我写这篇文章的时间是6月29日23:51分，刚刚和技术团队结束了本周的例会，例会上研发向我们展示了本周他基于原型直接使用Cursor生成的前端大屏页面，这个过程完全没有前端以及UI工程师的参与，只有一个程序员参考产品原型完成。如下是这张大屏页面对应的Axure原型图，当然还有PC版，但是PC管理后台虽
「最适合家长的复习材料」语文二年级上册《雾在哪里》复习方法童心栗子
这是一个系列，重点是适合家长带着孩子一起复习，并帮孩子找寻复习思路、形成复习习惯。栗子还会拓展一些知识，大家结合实际情况操作。重点是阅读能力（包括阅读思路、阅读逻辑、总结能力、复述能力以及写作素养）和基础知识（以拼音、字、词语、标点、修辞格等为主）。《雾在哪里》复习思路一、带着问题去读文章，并绘制思维导图1.说说雾把什么藏起来了？藏起来之后的景色是什么样的？雾把大海藏起来了，藏起来之后无论是海水、
聊聊投资协议的估值条款？-2023-04-07 老案
第一，什么是估值条款？投资人与创始人就目标企业股权进行的估价，这个条款我们称之为估值条款。双方会在法律文本中表明目标公司的估值，以及估值的前提假设。这个条款非常重要，它影响着“谁控制公司”和“当公司出售时每个股东能获得多少现金”，也就是企业的最核心的两个问题，控制权和收益权。第二，投前估值和投后估值的结果完全不一样投前估值+投资=投后估值。例如：投前估值500万，你投资50万就是550万，你的股权
信而泰×DeepSeek：AI推理引擎驱动网络智能诊断迈向 “自愈”时代
DeepSeek-R1：强大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基础技术研究有限公司开发的新一代AI大模型。其核心优势在于强大的推理引擎能力，融合了自然语言处理（NLP）、深度学习、大规模数据分析等前沿技术。DeepSeek-R1具备卓越的逻辑推理、多模态分析（文本/图像/语音）和实时交互能力，能够高效处理代码生成、复杂问题求解、跨模态学习等高阶任务。凭借其开源、高效、多模态
A316-HF-DAC-V1：专业USB HiFi音频解码器评估板技术解析 Phaten XMOS模组评估板音视频嵌入式硬件 XMOS 模组解码器评估板
引言随着高解析度音频的普及，对高品质音频解码设备的需求日益增长。本文将介绍一款专为USBHiFi音频解码器设计的专业评估板——A316-HF-DAC-V1，这是一款基于XMOSXU316技术的高性能音频解码评估平台。产品概述A316-HF-DAC-V1是一款专业的USBHiFi音频解码器评估板，采用A316-1926-V1XU316模组设计。该评估板支持多种音频输入方式，包括USB、光纤、同轴以及
NLP论文速读|chameleon：一个即插即用的组合推理模块Plug-and-Play Compositional Reasoning with Large Language Models Power2024666 NLP论文速读自然语言处理人工智能机器学习深度学习 nlp 语言模型
论文速读|Chameleon:Plug-and-PlayCompositionalReasoningwithLargeLanguageModels论文信息：简介:该论文介绍了一个名为Chameleon的人工智能系统，旨在解决大型语言模型（LLMs）在处理复杂推理任务时存在的固有限制，例如无法访问最新信息、使用外部工具以及执行精确的数学和逻辑推理。Chameleon通过插入即用模块增强LLMs，使其
USB 声卡全解析：提升音频体验的得力助手 Phaten 音视频 USB声卡
在当今数字化的时代，音频领域的追求愈发多元。无论是热衷聆听高品质音乐的爱好者，还是在专业音频工作中精雕细琢的人士，亦或是在游戏世界里渴望极致音效沉浸的玩家，都始终在寻觅能让音频体验更上一层楼的妙法。而USB声卡，这一借助USB接口连接的多功能外置声卡，恰似一把开启卓越音频之门的关键钥匙，致力于优化计算机的音频品质与性能，并且巧妙地拓展了计算机原本匮乏的音频接口。不管是对那差强人意的内置音响系统心怀
AI深度噪音抑制技术
这两年人工智能快速发展，AI已经渗透到了各行各业。在噪音抑制技术领域，AI也同样发挥了巨大的作用。AI深度噪音抑制技术是一种利用人工智能和深度学习算法来动态处理和减少音频信号中的噪声，从而提升音频的清晰度和质量。与传统的噪音抑制技术相比，AI深度噪音抑制能够更智能、更精准地分辨出背景噪音与有用的语音或音乐信号，尤其在复杂、多样的环境下表现尤为出色。1.工作原理AI深度噪音抑制技术基于深度神经网络（
Claude Code 分层多Agent架构篇强化学习曾小健 c#开发语言
ClaudeCode分层多Agent架构篇原创飞鸟白菜shareAI2025年07月01日09:31广东本文档基于ClaudeCode源代码的深度逆向工程分析，详细还原了其分层多Agent架构的完整技术实现。通过分析混淆代码和运行时行为，我们深入揭示了Task工具如何实现SubAgent的创建、生命周期管理、并发执行协调以及安全隔离机制，为理解现代AI编程助手的核心架构提供了详尽的技术洞察。htt
自卑与超越：如何正确认识自卑，如何化自卑为动力，不断超越自己枫桥读书
你好，今天为你推荐的书是《自卑与超越》。相信有很多人和我一样，常年深受到自卑情绪影响，痛苦不堪，而无法自拔。由于自卑的影响，有很多机会，都与自己擦肩而过，没有从事自己真心喜欢并感兴趣的工作，也没有跟最爱的人在一起。但看了这本书之后，我对自卑有了新的认识，自卑既是好的，也是不好的。关键在于我们如何看待自卑，以及如何化自卑为动力、不断超越自己。自卑与超越：如何化自卑为动力、不断超越自己？这本书是现代社
通信方式与交换方式详解两圆相切网络规划设计师网络
通信方式与交换方式是通信网络中的核心概念，分别定义了数据传输的基本模式（通信方向与同步机制）和网络节点间的转发策略（路径选择与资源分配）。理解两者的分类与特性，对网络设计、协议选型及性能优化至关重要。一、通信方式（CommunicationModes）通信方式描述数据在传输过程中方向性和同步性的特征，决定了终端设备间的交互模式。1.1按传输方向分类类型定义核心特性典型场景单工通信数据仅能沿单一固定
DPDK-并行计算庞叶蒙 DPDK学习并行计算多核处理器超线程亲和性并发指令
0x01缘由继续学习DPDK在并行计算上的优化。对于DPDK的主要应用领域--数据包处理。资源局部优化、避免跨核共享、减少临界区碰撞、加快临界区皖苏完成速率，都不同程度地降低了不可并行部分和并发干扰部分的占比。0x02慨念多核处理器：在一个处理器中集成两个或者多个完整的内核（及计算引擎）。超线程（Hyper-Threading）:在一个处理器中提供两个逻辑执行现场，逻辑线程共享流水线、执行单元和缓
面对流量攻击，服务器封海外有效果吗
现在随着网络的发展，网络攻击越来越频繁，我们的业务随时都有遭遇攻击的可能。在遇到攻击的时候，有个问题经常会有人提起，那就是服务器封不封海外流量。今天我们就来说下，当我们面对DDOS流量攻击的时候，流量能不能封了以及封海外对攻击有起到什么作用。有的人被攻击了，流量多数来自海外流量，就认为把海外封了就可以了，这样子海外流量就打不进来，就不用担心流量攻击了。其实这个认识是不正确的，首先流量是无法封掉，一
【深度学习】softmax 回归的从零开始实现与简洁实现 Douglassssssss 深度学习深度学习回归人工智能 softmax回归交叉熵损失函数
前言小时候听过一个小孩练琴的故事，老师让他先弹最简单的第一小节，小孩练了两天后弹不出。接着，老师让他直接去练更难的第二小节，小孩练习了几天后还是弹不出，开始感觉到挫败和烦躁了。小孩以为老师之后会让他从简单的开始练，谁知老师直接让他开始练最难的一小节。小孩不干了，问老师是不是故意刁难他。老师笑笑，让他现在弹弹第一小节试试。神奇的是，小孩竟然发现自己已经能完整弹出来了。这有点像我现在的学习状况，前些天
李开复：AI 2.0 时代的意义 AI大模型应用之禅 java python javascript kotlin golang 架构人工智能
人工智能，深度学习，Transformer，大模型，通用人工智能，AI2.0，伦理问题，未来趋势1.背景介绍人工智能（AI）技术近年来发展迅速，从最初的局限于特定领域的应用，逐渐发展到能够处理更复杂的任务，甚至展现出一些类似人类智能的能力。2010年以来，深度学习技术的兴起，特别是Transformer模型的出现，为AI发展带来了新的突破。这些模型能够处理海量数据，学习复杂的模式，并在自然语言处理
uni-app跨平台开发知识点总结
uni-app简介uni-app概述：uni-app是一个使用Vue.js开发所有前端应用的框架，开发者编写一套代码，可发布到iOS、Android、Web（响应式）、以及各种小程序（微信/支付宝/百度/头条/飞书/QQ/快手/钉钉/淘宝）、快应用等多个平台。uni-app由来：是为了解决跨平台开发的问题。在移动应用开发中，不同平台（如iOS、Android）有不同的开发语言和技术栈，这导致开发者
时序数据库IoTDB好不好？时序数据说时序数据库数据库 iotdb 物联网开源
时序数据库IoTDB（InternetofThingsDatabase）是专为物联网场景设计的一款开源时序数据库系统，由清华大学团队开发并贡献给Apache基金会。经过多年发展，IoTDB已经在工业物联网、车联网、能源电力等多个领域得到广泛应用。那么IoTDB究竟好不好？下面我将从几个核心优势来分析。一、专为物联网优化的存储架构分层存储设计：IoTDB采用"内存缓冲区+磁盘文件+分布式存储"的分层
Django基础(七)———模型常用Field以及Meta配置
前言上篇文章给大家介绍类Django和MySQL数据库的综合使用，以及框架中的ORM模型。这篇文章将继续讲述ORM模型当中常用的Field以及Meta配置一、模型常用Field在Django中，定义了一些Field来与数据库表中的字段类型来进行映射。以下将介绍那些常用的字段类型。1.AutoField映射到数据库中是int类型，可以有自动增长的特性。一般不需要使用这个类型，如果不指定主键，那么模型
数据库重构：提升数据库响应速度的策略 AI天才研究院计算 AI大模型企业级应用开发实战 AI人工智能与大数据数据库重构 ai
数据库重构：从"拥堵路口"到"高速通道"的性能进化指南关键词：数据库重构、性能优化、索引策略、表结构设计、查询优化、数据分区、分库分表摘要：当你的数据库开始出现"响应变慢"“查询超时"的预警信号，单纯的"打补丁"优化已无法解决根本问题。本文将带你系统了解数据库重构的核心策略，通过生活化比喻、实战案例和代码示例，从索引优化到表结构重构，从查询调优到数据分区，一步步将"拥堵的数据库"改造成"流畅的信息
科普关于vs厂和or厂的欧米茄海马300哪个好奢侈品总汇1
大家好，我是广城腕表，一个专注腕表知识的爱好者，不定时更新腕表真假对比，拆解评测以及视频解说，学会用专业知识了解腕表的好与坏，让您在玩表之路不入坑，本期给大家说说现在市面上vs厂or厂的欧米茄海马300哪个好。重要提醒→买大厂手表联系方式看文章底部vs厂和or厂的欧米茄海马300哪个好这个问题小编认为vs厂的欧米茄海马300整体做工细节要比or厂好，首先我们看看手表的正面，正面的表盘细节做工到底如
mysql索引和查询优化 Itzel_yuki mysql mysql索引 mysql查询优化高性能mysql 总结
BTree索引：1、对于组合索引，如果查询中有某个列是范围查询，则其右边所有列都无法使用索引优化查询2、高性能索引，索引的列不能是表达式的一部分，也不能是函数的参数。应该养成简化where查询的习惯，始终将索引列单独放在符号的一侧。3、前缀索引和索引的选择性：在创建前缀索引时，选择选择性更丰富的前缀长度。4、mysql无法使用前缀索引做orderBy和groupby，也无法使用前缀索引做覆盖扫描。
云平台健康检查全攻略：从入门到精通 AI云原生与云计算技术学院 AI云原生与云计算 ai
云平台健康检查全攻略：从入门到精通关键词：云平台、健康检查、监控指标、自动化运维、高可用性、故障诊断、性能优化摘要：本文全面解析云平台健康检查的核心技术与实践方法。从基础概念到高级应用，详细讲解健康检查的原理、实现方式和最佳实践。内容包括监控指标体系设计、自动化检查工具开发、常见故障诊断方法以及性能优化策略。通过实际案例和代码演示，帮助读者掌握构建健壮云平台的关键技术，提升系统可靠性和运维效率。1
《世家弃女，腹黑相公宠不停》《温书妍、傅问舟》完整版免费全文在线赏析_《世家弃女，腹黑相公宠不停》最新章节无广告霸道推书2
书名：《世家弃女，腹黑相公宠不停》主角配角：温书妍、傅问舟小说简介：她是侯府嫡女，出生那日，府上百花一夜凋零，她便被下了刑克双亲的诅咒。整整十六年，无人问津。若不是阿姐定亲的那个少年郎战场上受了伤，她不会被接回来替亲……新婚夜，望着轮椅上俊逸深沉的男人以及面前的和离书，她眼神坚定：我不和离。男人眉眼冷漠：“考虑好，我不给人第二次机会！”考虑好了，她要宠着护着爱着这个男人，还要治好他的腿。从此，高冷
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio

Coursera | Andrew Ng (02-week-2-2.6)—动量 （Momentum ）梯度下降法

重点总结：

你可能感兴趣的:(深度学习,正则化以及优化,深度学习,吴恩达)

Coursera | Andrew Ng (02-week-2-2.6)—动量（Momentum ）梯度下降法