Leon.ENV

深度学习-吴恩达-笔记-5-深度学习的实践层面

训练、验证、测试集

偏差、方差

机器学习基础

正则化

为什么正则化有利于预防过拟合

dropout正则化

理解dropout

其它正则化方法

归一化输入

梯度消失/梯度爆炸

神经网络的权重初始化

梯度的数值逼近

梯度检验

梯度检验应用的注意事项

【此为本人学习吴恩达的深度学习课程的笔记记录，有错误请指出！】

训练、验证、测试集

应用深度学习是一个典型的迭代过程，需要多次循环往复，才能为应用程序找到一个称心的神经网络，因此循环该过程的效率是决定项目进展速度的一个关键因素，而创建高质量的训练集，验证集和测试集也有助于提高循环效率。

在机器学习发展的小数据量时代，常见做法是将所有数据三七分，就是常说的 70% 验证集， 30%测试集，如果没有明确设置验证集，也可以按照 60%训练， 20%验证集和 20%测试集来划分。这是前几年机器学习领域普遍认可的较好的实践方法。如果只有 100 条， 1000 条或者 1 万条数据，那么上述比例划分是非常合理的。

但是在大数据时代，数据量可能是百万级别，那么验证集和测试集占数据总量的比例会变得更小。比如有 100 万条数据，其中 1 万条作为验证集， 1 万条作为测试集。对于数据量过百万的应用，训练集可以占到 99.5%，验证和测试集各占 0.25%（甚至更小）。

现代深度学习的另一个趋势是越来越多的人在训练集与验证集和测试集分布不匹配的情况下进行训练。如图片识别应用，训练集可能是从网上下载的图片，而验证集和测试集是用户自已上传的图片。根据经验，建议要确保验证集和测试集的数据来自同一分布。

最后一点，就算没有测试集也不要紧，测试集的目的是对最终所选定的神经网络系统做出无偏估计，如果不需要无偏估计，也可以不设置测试集。因为验证集中已经涵盖测试集数据，其不再提供无偏性能评估。

在机器学习中，如果只有一个训练集和一个验证集，而没有独立的测试集，遇到这种情况，训练集还称为训练集，而验证集则被称为测试集，不过在实际应用中，人们只是把测试集当成简单交叉验证集使用，并没有完全实现该术语的功能，因为人们把验证集数据过度拟合到了测试集中。

所以，搭建验证集和测试集能够加速神经网络的集成，也可以更有效地衡量算法的偏差和方差，从而帮助我们更高效地选择合适方法来优化算法。

偏差、方差

理解偏差（欠拟合）和方差（过拟合）的两个关键数据是训练集误差（ Train set error）和验证集误差（ Dev set error）。

如图：

训练集误差	1%	15%	15%	0.5%
验证集误差	11%	16%	30%	1%
效果	高方差	高偏差	高偏差、高方差	低偏差、低方差

机器学习基础

解决高偏差问题：选择新网络（更多隐藏层、更多隐藏单元）、选择更先进的优化算法等。

解决高方差问题：增加更多训练数据、正则化等。

偏差和方差的权衡问题：解决高偏差后，可能带来高方差，或解决高方差后，可能带来高偏差。

其实我们不用太过关注如何平衡偏差和方差，对于深度学习，如果出现了高偏差，只要持续训练一个更大的网络，或选择更高级的优化算法，这样模型至少可以很好的拟合训练集。这时，模型虽然处于低偏差，但是可能带来了高方差，我们可以采用更多的数据或通过适当的正则化来解决高方差问题。

正则化

正则化的意思是对模型的参数（如权重）进行惩罚，也就是减小参数值（或权重衰减），这样就减少了模型的高方差，2 正则化是最常见的正则化类型。

还有 1 正则化，但是人们在训练网络时，越来越倾向于使用 2 正则化。

为什么正则化有利于预防过拟合

直观上理解就是如果正则化设置得足够大，权重矩阵就被设置为接近于 0 的值，也就是把多隐藏单元的权重设为 0，于是基本上消除了这些隐藏单元对模型的影响。

另一个直观理解是，当被设置为很小时，的取值范围也会很小，这样() 大致呈线性（微观上呈直线），且每层几乎都是线性的，这就变得和线性回归函数一样：

如果每层都是线性的，那么整个网络就是一个线性网络，因此，它不适用于拟合数据的非线性决策边界。

正则化的取值至关重要，如果设置的太大，会使模型从高方差状态过度到高偏差状态，因此需要不断地测试以找到合适的值。

dropout正则化

除了2正则化，还有一个非常实用的正则化方法——“Dropout（随机失活） ”。

dropout的工作原理：

假设上图的神经网络存在过拟合问题， dropout 会遍历网络的每一层，设置每个节点要保留的概率（保留和消除的概率都是0.5），然后删除掉要消除的节点，对剩下的节点重新连线，最后得到规模较小的网络。如图：

对于每个训练样本，我们都将采用一个精简后神经网络来训练它。

如何实施 dropout 呢？最常用的方法是 inverted dropout（反向随机失活）。

用一个三层（ = 3）网络来举例说明：

首先要定义向量，

表示一个三层的 dropout 向量：

d3 = np.random.rand(a3.shape[0], a3.shape[1])

判断 d3 是否小于某个数（该数称为：keep-prob）：

d3 = np.random.rand(a3.shape[0], a3.shape[1]) < keep-prob

keep-prob可以是0.5或0.8等，这里取 0.8，表示要保留的概率值。此时 d3 是布尔数组，运算时 python 会把 true 和 false 翻译为 1 和 0。

然后把

乘以

：

a3 =np.multiply(a3, d3)

该公式的作用是让

中 0 元素与

中相应元素归零。

最后用

除以 keep-prob 参数：

3 /= keep-prob

为什么还要除以 keep-prob ？该例子中第 3 层隐藏层被删除的单元有20%，也就是

中有20%的元素被归零，为了不影响下一层隐藏层（第 4 层）中

的期望值，需要计算

，它会修正或弥补被 dropout 掉的那 20% 的影响（或理解为需要加上被删除掉的部分数值），以确保

的期望值不变。

不论 keep-prop 的值是多少，如 0.8、 0.9 甚至是 1，如果 keep-prop 设置为 1，那么就不存在 dropout，因为它会保留所有节点。

注意：dropout是在训练阶段使用，在测试阶段不使用dropout。在训练阶段执行dropout，只是调整了输出数值范围，并不影响输出结果的期望值。在测试阶段进行预测时，并不期望输出结果是随机的。

Inverted dropout 函数在除以 keep-prob 时可以记住上一步的状态，目的是确保在测试阶段不执行 dropout时，激活函数的预期结果也不会发生变化。

理解dropout

直观上理解：dropout不依赖于任何特征，因为该单元的输入特征可能随时被清除，为了不影响输出特征的整体期望值，对于剩下的输入特征增加权重（也就是加上被dropout掉的特征的期望值），这样将产生收缩参数的平方范数的效果，也就和 2 正则化类似了。

实施 dropout 的一个细节是，要为不同的隐藏层选择不同的超参数 keep-prob：

如果某一层的权重矩阵较大（参数较多，容易过拟合），keep-prob值可以设置低一些，如：0.5。

如果某一层的权重矩阵较小（参数较少，不易过拟合），keep-prob值可以设置高一些，如：0.7。

如果在某一层，不必担心其过拟合的问题，那么 keep-prob 可以为 1，也就是不应用dropout。

通常情况下，不对输入层应用dropout。

如果每一层隐藏层都应用dropout，缺点就是要不断使用交叉验证来寻找较多的超参数 keep-prob，所以常用的做法是，在一些层上应用dropout，而有些层不用dropout，以便减少超参数数量。

dropout正则化主要应用于计算机视觉领域，因为该领域通常没有足够的数据，容易产生过拟合。

dropout的一大缺点就是代价函数不再被明确定义，每次迭代，都会随机移除一些节点，在检查梯度下降的性能时，实际上是很难进行复查的，也就很难检查梯度变化。通常做法是先关闭 dropout 函数，将 keepprob 的值设为 1，以确保函数单调递减。然后再打开 dropout 函数，希望在dropout 过程中，代码并未引入bug。

其它正则化方法

（1）数据扩增：通过增加数据来解决过拟合，该方法和正则化相似。

一般扩增数据的代价较高，可以通过人工合成数据方式来增加数据，如：图片翻转和裁剪等。

（2） early stopping：提早停止训练神经网络

如图：

在训练过程中，代价函数都在下降，而验证集的误差通常会先呈下降趋势，然后在某个节点处开始上升。early stopping的作用就是，在验证集的误差处于较低点的位置时，就停止训练过程。

在机器学习中，由于超参数激增，选出可行的算法也变得越来越复杂。在优化代价函数时，主要关注两个问题，第一个是误差 (, ) 的值越小越好，第二个是防止过拟合。early stopping的主要缺点是不能独立地处理这两个问题，而是同时解决了这两个问题，这样可能因为提早停止训练，此时误差 (, ) 还不够小，虽然解决了过拟合问题，但可能又引起了欠拟合问题。

early stopping 的优点是，只运行一次梯度下降，就可以找出的较小值，中间值和较大值，而无需尝试 2 正则化超参数的很多值。

建议还是使用 2 正则化，尝试许多不同的值，虽然计算量较大，但通常效果会更好，除非 early stopping 也能得到相似效果，否则建议使用 2 正则化。

归一化输入

归一化需要两个步骤：

1、零均值

2、归一化方差

训练集和测试集都是通过相同的和

定义的数据转换，这两个是由训练集得出来的。

如图：

第一步是零均值化： = - ，意思是移动训练集，直到它完成零均值化。

第二步是归一化方差：

是一个向量，它的每个特征都是方差，注意此时已经完成了零均值化，最后把所有数据除以向量

。

归一化输入特征的作用：提高训练算法的速度，使梯度下降收敛更快，也就是代价函数优化起来更简单快速：

所以如果输入特征处于不同的范围内，也就是不同特征的取值范围差距较大，此时的归一化特征就变得非常重要了。

梯度消失/梯度爆炸

深度神经网络训练时经常面临的一个问题就是梯度消失或梯度爆炸。

梯度消失：导数或坡度会变得非常小，甚至于以指数方式变小。

梯度爆炸：导数或坡度会变得非常大，甚至于以指数方式变大。

导致梯度消失或梯度爆炸的原因？

为了简化，假设使用激活函数 () = ，也就是线性激活函数，并且忽略，得到的输出：

如图：

假设每个权重矩阵（1.5倍的单位矩阵）：

最后的计算结果是（为了简化计算，这里忽略掉输出单元

）：

可以看出，如果值较大，值将会爆炸式增长，实际上是呈指数增长，增长的比例是

。

相反的，如果权重是 0.5：

这样每个矩阵都小于 1，如果值较大，值将会变得非常小（或消失），实际上是呈指数递减。

从以上看出激活函数出现指数增长或递减与相关，所以在求导时，同样影响梯度的指数增长或递减，也就是梯爆炸或消失。这会导致训练难度上升，尤其是梯度指数递减时，梯度下降算法的步长会非常非常小，这将会花费很长的时间来学习。

要解决梯度消失或爆炸问题，在于如何选择初始化权重。

神经网络的权重初始化

为了解决梯度消失或爆炸问题，如何选择初始化权重尤为重要。

我们先举一个神经单元初始化地例子，然后再演变到整个深度网络。如图：

其中：

我们并不希望值过大或过小。输入特征是不变的，如果（表示神经元的输入特征数量）越大，那么希望越小，这样加权和值才不会过大。

实际上就是设置某层的权重矩阵（高斯随机变量 * 方差1/n）：

有一点需要注意，这种方法并没有彻底解决梯度消失和爆炸问题，而是通过设置合理的权重值，来降低了产生梯度消失和爆炸的问题。权重值不能比 1 大很多，也不能比 1 小很多，所以梯度没有爆炸或消失的过快。

对于 relu 激活函数，方差可以设置为：

对于 tanh 激活函数，方差可以设置为：

至于方差的选择是 1/n，还是 2/n，这里可以添加一个超参数，然后不断调优该超参数，与其它超参数相比，它的优先级比较低，一般是放到最后来调优。

梯度的数值逼近

在实现 backprop （反向传播）时，为了检验 backprop 过程中的梯度是否正确，需要计算梯度的数值逼近。

利用微积分求导公式（双向微分）：

在检验反向传播是否正确时，使用该求导公式的结果更准确。

梯度检验

为了执行梯度检验，需要把所有

矩阵转换成向量，然后把所有的

向量和

向量首尾相接拼在一起，得到一个巨型向量，代价函数 () 也就是所有和的函数。同样，把反向传播的得到的所有

和

转成一个新的和维度相同的向量。如图：

将函数展开为 (1, 2, 3, … … )，不论参数向量的维度是多少，为了实施梯度检验，要做的就是循环执行，从而对每个计算近似微分 approx[] 的值，也就是对的偏微分或偏导数，这里使用双向微分：

只对增加，其它项保持不变，因为使用的是双向微分，对另一边做同样的操作，只不过是减去，其它项保持不变。计算出所有的偏导数数后，得到一个向量 approx，它与具有相同维度。

最后，需要验证 approx 和是否大致相等。

如以下公式：

||approx - || / ( ||approx|| + |||| )

||approx - ||： approx[] - [] 的欧几里得距离（两个向量的差的平方和再开方）。

||approx|| + ||||：approx 和的欧几里得距离之和。公式中，除以这个分母，就是对 ||approx - || 长度进行标准化，防止计算结果太大或太小，这样结果的值在 0~1 之间。

如图：

一般情况下，的取值为

，如果该公式的计算结果小于

，那就认为微分近似是正确的。

如果该公式的计算结果在

量级，那就要小心了，也许该结果没有问题，但是要检查 approx 的所有分量，要确保没有一项过大，如果某一项过大，有可能计算有错误了。

如果该公式的计算结果在

量级，那计算很有可能是错误的，它的结果应该远远小于

。这时应该检查所有项，看看是否存在哪一项，使得 approx[] 与 [] 很不一样，并追踪检查求导计算是否正确，经过调试，最终的结果应该是非常小的值（

）。

在进行梯度检验时，结果可能有一个相对较大的值，这时就要不断的进行调试，直至算法通过了梯度检查。

梯度检验应用的注意事项

1、不要在训练过程中使用梯度检验，因为计算 approx[] 是一个非常漫长的过程，只在调试中使用，使用完成后就关闭梯度检验，在训练过程中避免执行它。

2、如果梯度检验失败，找出 approx[] 与 [] 的值相差很大的项，然后检查和在计算求导时是否存在错误。

3、在执行梯度检验时，如果使用了正则化，要注意在求导时也要包括正则项。

4、梯度检验不能与 dropout 同时使用。因为每次迭代过程中， dropout 会随机消除隐藏层单元的不同子集，难以计算 dropout 在梯度下降上的代价函数。

5、最后一点几乎很少会出现，也就是当和接近 0 时，梯度下降的实施是正确的，随着梯度下降的进行，和变大，算法的精确度就有所下降。通常做法是，在随机初始化过程中，运行梯度检验，然后再训练网络，和会有一段时间接近 0 附近（即很小的随机初始值），在进行几次训练的迭代后，再运行梯度检验，以便检查和是否变大。

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
神经网络-损失函数红米煮粥神经网络人工智能深度学习
文章目录一、回归问题的损失函数1.均方误差（MeanSquaredError,MSE）2.平均绝对误差（MeanAbsoluteError,MAE）二、分类问题的损失函数1.0-1损失函数（Zero-OneLossFunction）2.交叉熵损失（Cross-EntropyLoss）3.合页损失（HingeLoss）三、总结在神经网络中，损失函数（LossFunction）扮演着至关重要的角色，它
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
BP神经网络的传递函数大胜归来19 MATLAB
BP网络一般都是用三层的，四层及以上的都比较少用；传输函数的选择，这个怎么说，假设你想预测的结果是几个固定值，如1,0等，满足某个条件输出1，不满足则0的话，首先想到的是hardlim函数，阈值型的，当然也可以考虑其他的；然后，假如网络是用来表达某种线性关系时，用purelin---线性传输函数；若是非线性关系的话，用别的非线性传递函数，多层网络时，每层不一定要用相同的传递函数，可以是三种配合，可
神经网络传递函数sigmoid,神经网络传递函数作用快乐的小荣荣神经网络机器学习深度学习人工智能
神经网络传递函数选取不同会有特别大差别嘛？只是最后一层，但前面层是非线性，那么可能存在区别不大的情况。线性函数f(a*input)=af(input),一般来说，input为向量，最简化情况下，可以假设input的各个维度，a1=a2=a3。。。意味着你线性层只是简单的对输入做了scale~而神经网络能起作用的原因，在于通过足够复杂的非线性函数，来模拟任何的分布。所以，神经网络必须要用非线性函数。
Python和R均方根误差平均绝对误差算法模型亚图跨际 Python 交叉知识 R 回归模型误差指标归一化均方根误差生态状态指标神经网络成本误差气体排放气候模型多项式拟合
要点回归模型误差评估指标归一化均方根误差生态状态指标神经网络成本误差计算气体排放气候算法模型Python误差指标均方根误差和平均绝对误差均方根偏差或均方根误差是两个密切相关且经常使用的度量值之一，用于衡量真实值或预测值与观测值或估计值之间的差异。估计器θ^\hat{\theta}θ^相对于估计参数θ\thetaθ的RMSD定义为均方误差的平方根：RMSD⁡(θ^)=MSE⁡(θ^)=E((θ^−θ
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
深度学习-13-小语言模型之SmolLM的使用皮皮冰燃深度学习深度学习
文章附录1SmolLM概述1.1SmolLM简介1.2下载模型2运行2.1在CPU/GPU/多GPU上运行模型2.2使用torch.bfloat162.3通过位和字节的量化版本3应用示例4问题及解决4.1attention_mask和pad_token_id报错4.2max_new_tokens=205参考附录1SmolLM概述1.1SmolLM简介SmolLM是一系列尖端小型语言模型，提供三种规
【NLP5-RNN模型、LSTM模型和GRU模型】一蓑烟雨紫洛 nlp rnn lstm gru nlp
RNN模型、LSTM模型和GRU模型1、什么是RNN模型RNN（RecurrentNeuralNetwork)中文称为循环神经网络，它一般以序列数据为输入，通过网络内部的结构设计有效捕捉序列之间的关系特征，一般也是以序列形式进行输出RNN的循环机制使模型隐层上一时间步产生的结果，能够作为当下时间步输入的一部分（当下时间步的输入除了正常的输入外还包括上一步的隐层输出）对当下时间步的输出产生影响2、R
基于深度学习的农作物病害检测 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的农作物病害检测利用卷积神经网络（CNN）、生成对抗网络（GAN）、Transformer等深度学习技术，自动识别和分类农作物的病害，帮助农业工作者提高作物管理效率、减少损失。1.农作物病害检测的挑战病害种类繁多：农作物病害的类型多样，不同病害在同一作物上的表现差异很大，同时同一种病害在不同生长阶段的症状也可能不同。环境影响：天气、光照、湿度等外部环境因素会影响农作物的表现，使得病害检
基于深度学习的文本引导的图像编辑 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的文本引导的图像编辑（Text-GuidedImageEditing）是一种通过自然语言文本指令对图像进行编辑或修改的技术。它结合了图像生成和自然语言处理（NLP）的最新进展，使用户能够通过描述性文本对图像内容进行精确的调整和操控。1.文本引导的图像编辑的挑战文本和图像之间的对齐：如何将文本中的语义信息准确地映射到图像中的特定区域或元素是一个关键挑战。这涉及到多模态数据的对齐和理解。编
深度学习--对抗生成网络（GAN, Generative Adversarial Network） Ambition_LAO 深度学习生成对抗网络
对抗生成网络（GAN,GenerativeAdversarialNetwork）是一种深度学习模型，由IanGoodfellow等人在2014年提出。GAN主要用于生成数据，通过两个神经网络相互对抗，来生成以假乱真的新数据。以下是对GAN的详细阐述，包括其概念、作用、核心要点、实现过程、代码实现和适用场景。1.概念GAN由两个神经网络组成：生成器（Generator）和判别器（Discrimina
深度学习：怎么看pth文件的参数奥利给少年深度学习人工智能
.pth文件是PyTorch模型的权重文件，它通常包含了训练好的模型的参数。要查看或使用这个文件，你可以按照以下步骤操作：1.确保你有模型的定义你需要有创建这个.pth文件时所用的模型的代码。这意味着你需要有模型的类定义和架构。2.加载模型权重使用PyTorch的load_state_dict方法来加载权重。这里是如何操作的：importtorchimporttorch.nnasnn#定义模型结构
chatgpt赋能python：如何在Python中安装Keras库？ turensu ChatGpt python chatgpt keras 计算机
如何在Python中安装Keras库？Keras是一个简单易用的神经网络库，由FrançoisChollet编写。它在Python编程语言中实现了深度学习的功能，可以使您更轻松地构建和试验不同类型的神经网络。如果您是一名Python开发人员，肯定会想知道如何在您的Python项目中安装Keras库。在本文中，我们将向您展示如何安装和配置Keras库。步骤1：安装Python要使用Keras库，您需
如何理解深度学习的训练过程奋斗的草莓熊深度学习人工智能 python scikit-learn virtualenv numpy pandas
文章目录1.训练是干什么？2.预训练模型进行训练，主要更改的是预训练模型的什么东西？1.训练是干什么？以yolov5为例子，训练的目的是把一组输入猫狗图像放到神经网络中，得到一个输出模型，这个模型下次可以直接用来识别哪个是猫，哪个是狗2.预训练模型进行训练，主要更改的是预训练模型的什么东西？超参数（Hyperparameters）：这是模型结构中定义的参数，比如：卷积核大小（kernel_size
Keras深度学习框架入门及实战指南司莹嫣Maude
Keras深度学习框架入门及实战指南keraskeras-team/keras:是一个基于Python的深度学习库，它没有使用数据库。适合用于深度学习任务的开发和实现，特别是对于需要使用Python深度学习库的场景。特点是深度学习库、Python、无数据库。项目地址:https://gitcode.com/gh_mirrors/ke/keras一、项目介绍Keras简介Keras是一款高级神经网络
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR

深度学习-吴恩达-笔记-5-深度学习的实践层面

训练、验证、测试集

偏差、方差

机器学习基础

正则化

为什么正则化有利于预防过拟合

dropout正则化

理解dropout

其它正则化方法

归一化输入

梯度消失/梯度爆炸

神经网络的权重初始化

梯度的数值逼近

梯度检验

梯度检验应用的注意事项

你可能感兴趣的:(深度学习,深度学习,神经网络)