有情怀的机械男

【深度学习】——过拟合的处理方法

一、什么是过拟合？（overfitting）

二、过拟合的表现（判定方法）

训练集、测试集、验证集区别

测试集与验证集的区别

三、产生过拟合的原因

1、样本方面

2、模型方面

四、避免过拟合的方法

1、样本方面

1）增加样本量

2）样本筛选（特征降维、特征选择）

3）归一化数据样本

2、模型方法

1）正则化——使模型简单化、参数稀疏化

①概念——核心思想

问题1：什么是稀疏参数？什么是数据的稀疏性？

问题2：什么是范数？常用的范数函数是什么？

问题3：实现参数的稀疏有什么好处吗？

问题4：参数值越小代表模型越简单吗？

②L0正则化——正则项为非零分量的个数

③L1正则化（LASSO）——效果使w分量往0靠拢

④L2正则化（岭回归）——效果使参数减小

⑤为什么可以避免过拟合？

⑥比较L1与L2

2）归一化（Normalization）

①最小最大值归一化（min-max normalization）

②0均值标准化（Z-score standardization）

③batch normalization(BN层)

④什么情况下使用归一化方法？

⑤为什么归一化能够实现避免过拟合？

⑥BN的优点

3）dropout（随机丢弃）——随机删除一些神经元，以在不同批量上训练不同的神经网络架构。

①过程

②为什么能够避免过拟合?

4）early stopping（早停法）

①第一类停止标准

②第二类停止标准

③第三类停止标准

④选择停止标准的规则

⑤ 优缺点

一、什么是过拟合？（overfitting）

过拟合其实就是为了得到一致假设而使得假设过于地严格。使得其在训练集上的表现非常地完美，但是在训练集以外的数据集却表现不好。

如上图所示，红线就是过拟合了，虽然它在训练集上将所有的点都放在了线上，但是如果再来一个点就会不起作用，这就是过拟合，而绿线的话也比较好地拟合了点集，但是它的泛化能力相较于红线来说是更好的

二、过拟合的表现（判定方法）

1、训练集的正确率不增反减

2、验证集的正确率不再发生变化

3、训练集的error一直下降，但是验证集的error不减反增

上图所示，训练集随着训练的过程中，error一直减小，但是训练次数到了一定程度的时候，验证集的error却开始上升，这时候说明当前代数训练得到的模型对于训练集的样本表现良好，但是对于训练集以外的样本表现不太好。

训练集、测试集、验证集区别

参考：https://blog.csdn.net/kieven2008/article/details/81582591

训练集：计算梯度更新权重，用于训练得到模型

验证集：用于每次训练完一代后判断模型的训练情况，根据在验证集上的正确率来进行产参数的调整，一定程度上可以避免过拟合

测试集：用于判断最终训练出来的模型表现情况，比如给出一个accuracy以推断网络的好坏等

测试集与验证集的区别

三、产生过拟合的原因

参考：什么是「过拟合」，如何判断，常见的原因是什么？

1、样本方面

1）用于训练的样本量过于少，使得训练出来的模型不够全面以致于使用模型时错误率高

比如对于猫这类动物，如果训练数据集中只有一个正拍且坐立的猫，那么当过拟合时，模型往往有可能只能识别出这类姿态的猫，像跳跃的猫、局部捕捉的猫、反转的猫等等可能都识别不出来了

2）训练的样本量噪声大（质量不好），导致一些错误的特征错认为是学习的对象，使得训练模型不够健壮

2、模型方面

1）参数过多，模型过于复杂

2）选择的模型本身就不适用于当前的学习任务

3）网络层数过多，导致后面学习得到的特征不够具有代表性

四、避免过拟合的方法

参考：

https://blog.csdn.net/baidu_31657889/article/details/88941671

https://www.cnblogs.com/ying-chease/p/9489596.html

https://zhuanlan.zhihu.com/p/97326991

解决问题往往是从出现问题的原因入手，所以根据上面的过拟合原因来来避免过拟合

1、样本方面

1）增加样本量

深度学习中样本量一般需要在万级别才能训练出较好的模型，且样本尽可能地多样化，使得样本更加地全面。一般通过图像变换可以进行数据增强，见文章《【tensorFlow】——图像数据增强、读取图像、保存图像》

2）样本筛选（特征降维、特征选择）

参考：机器学习-->特征降维方法总结

特征降维：PCA等，根据现有的特征创造出新的特征

特征选择：选择具有代表性的特征参与训练

3）归一化数据样本

改变数据的分布，使得更集中在激活函数的敏感区，具体见下面2（2）知识点

2、模型方法

1）正则化——使模型简单化、参数稀疏化

参考：

https://blog.csdn.net/qq_20412595/article/details/81636105

①概念——核心思想

正则化其实就是在原来的损失函数后面增加了一项加数，这项加数称之为正则项，这个正则项通常由一个系数和范数的乘积的累加和构成。其主要是通过正则项来限制权重w参数的值的变化，使其尽可能的小或者尽可能地趋于0，以达到稀疏参数的效果，进而使得模型复杂度下降，避免过拟合。

问题有以下几个？

问题1：什么是稀疏参数？什么是数据的稀疏性？

稀疏参数：使得模型中参数的零分量尽可能地多；

数据的稀疏性：在特征选择中的概念，指的是在众多的特征中，有的特征对于模型的优化是无关的，这就是数据存在稀疏性，可以通过特征选择来选择有价值的特征。

但是在机器学习的参数中，由于参数众多，模型复杂度过于高的话，易出现过拟合现象，因此我们需要通过增加参数的稀疏性来降低复杂度，进而避免过拟合。

问题2：什么是范数？常用的范数函数是什么？

范数：在泛函分析中，它定义在赋范线性空间中，并满足一定的条件，即①非负性；②齐次性；③三角不等式。它常常被用来度量某个向量空间（或矩阵）中的每个向量的长度或大小

问题3：实现参数的稀疏有什么好处吗？

一个好处是可以简化模型，避免过拟合。因为一个模型中真正重要的参数可能并不多，如果考虑所有的参数起作用，那么可以对训练数据可以预测的很好，但是对测试数据表现性能极差。另一个好处是参数变少可以使整个模型获得更好的可解释性。

问题4：参数值越小代表模型越简单吗？

是的。为什么参数越小，说明模型越简单呢，这是因为越复杂的模型，越是会尝试对所有的样本进行拟合，甚至包括一些异常样本点，这就容易造成在较小的区间里预测值产生较大的波动，这种较大的波动也反映了在这个区间里的导数很大，而只有较大的参数值才能产生较大的导数。因此复杂的模型，其参数值会比较大。反过来就是如果参数值小的话，那么异常点在这个区间里的导数就会比较小，造成预测值的波动也就小，这样就会利于模型，避免过拟合，更具有泛化能力去预测新样本。

②L0正则化——正则项为非零分量的个数

利用非零参数的个数，可以很好的来选择特征，实现特征稀疏的效果，具体操作时选择参数非零的特征即可。但因为 $L_{0}$ 正则化很难求解，是个NP难问题，因此一般采用 $L_{1}$ 正则化。 $L_{1}$ 正则化是 $L_{0}$ 正则化的最优凸近似，比 $L_{0}$ 容易求解，并且也可以实现稀疏的效果

③L1正则化（LASSO）——效果使w分量往0靠拢

在原始的代价函数后面加上一个L1正则化项，即所有权重w的绝对值的和，乘以λ/n（这里不像L2正则化项那样，需要再乘以1/2）

加上L1正则项后的损失函数：

对权重参数求导：

更新权重参数：

sgn(w)函数是w小于0时函数值为-1，等于0时为0，大于0时函数值为1

其中λ和n参数大于0，由权重参数的更新可以看出，当w为正时，更新后的w变小。当w为负时，更新后的w变大——因此它的效果就是让w往0靠，使网络中的权重尽可能为0，也就相当于减小了网络复杂度，防止过拟合。

④L2正则化（岭回归）——效果使参数减小

L2正则化就是在代价函数后面再加上一个正则化项，即所有权重w的平方和，乘以λ/n需要再乘以1/2，方便后续的求导。

加上L2正则项后的损失函数：

对权重参数求导：

更新权重参数：

在不使用 $L_{2}$ 正则化时，求导结果中w前系数为1，现在w前面系数为 $(1-\frac{\eta \lambda }{n})$ ，因为η、λ、n都是正的，所以 1-η*λ/n小于1，它的效果是减小w，这也就是权重衰减（weight decay）的由来。当然考虑到后面的导数项，w最终的值可能增大也可能减小。根据奥卡姆剃刀法则可知，更小的权值w，从某种意义上说，表示网络的复杂度更低，对数据的拟合刚刚好。

⑤为什么可以避免过拟合？

其实就是增加正则项后，使得参数变小了，模型简化，使得损失在避免过拟合和最小化损失之间进行了折中，以此来避免了过拟合。

⑥比较L1与L2

假设正则项为（p-范数）：

假设w向量分量由两个分量组成的，即w = w1 + w2，其中w,w1,w2均为向量，则当p取不同的值的时候就可以得到他们的曲线图，假设Lp=C，其中C为常数值，则当p取0.5,1,2,4的图如下

这时候我们假设原先的损失函数为：

则令其等于C，则可以绘制出曲线（平方误差项等值线）：

上图是L1，L2，平方误差项取一系列的常数值C得到的（C1,C2,C3等）

当1-范数（L1）、2-范数（L2）、平方误差项都取相等的值时，我们损失函数为了取得最小的损失，因为正则化后的损失不再单单为了损失最小，而是还得考虑避免过拟合，因此需要在二者之间平衡，对应于图像中就是Lp与平方误差项曲线相交点。

蓝色的圆圈表示没有经过限制的损失函数在寻找最小值过程中，w的不断迭代（随最小二乘法，最终目的还是使损失函数最小）变化情况，表示的方法是等高线，z轴的值就是 E(w)
w∗ 最小值取到的点

可以直观的理解为（帮助理解正则化），我们的目标函数（误差函数）就是求蓝圈+红圈的和的最小值（回想等高线的概念并参照式），而这个值通在很多情况下是两个曲面相交的地方

L1和平方误差项曲线相交于坐标点，即w1或w2等于0，但是L2和平方误差项曲线相较于非零点，这就说明了L1会比L2更易于得到稀疏解。但是L1曲线具有拐点，即并不是处处可导，给计算带来了很大的不便（这也是改进的方向所在）。而L2处处平滑，便于求导。

2）归一化（Normalization）

归一化就是改变数据分布，将大范围的数据限定在一个小范围，或者使其呈一定规律的分布

常用的归一化方法有：min-max normalization、Z-score standardization

①最小最大值归一化（min-max normalization）

将样本的范围限制在一定确定的小范围中，一般取【0,1】或者【-1,1】

归一化到【0,1】之间：

归一化到【-1,1】之间：

其中：max表示数据集中的最大值，min表示数据集中的最小值，mean表示数据集的均值

②0均值标准化（Z-score standardization）

参考：https://www.jianshu.com/p/26d198115908

规范了数据的分布，将数据分布改变成了标准的正态分布，即均值为0，标准差为1的分布

均值

标准差

归一化后的数值

③batch normalization(BN层)

参考：

https://www.cnblogs.com/guoyaohua/p/8724433.html

https://zhuanlan.zhihu.com/p/93643523

BN层常用于深度学习中，因为深度学习中的样本量大，一般都是分批进行训练的，即batch，因此进行归一化时是对一个batch进行归一化，而不是对整个训练集进行归一化

这里的BN其实本质就是zero-score standardization，只是这里添加了两个可以训练的参数r和β。在深度学习中，往往输入的是图像，每个batch是一部分图像，通过对这部分输入进行归一化后输入到下一层网络中，例子如下：

其中两个参数的意义？

稍微了解神经网络的读者一般会提出一个疑问：如果都通过BN，那么不就跟把非线性函数替换成线性函数效果相同了？这意味着什么？我们知道，如果是多层的线性函数变换其实这个深层是没有意义的，因为多层线性网络跟一层线性网络是等价的。这意味着网络的表达能力下降了，这也意味着深度的意义就没有了。所以BN为了保证非线性的获得，对变换后的满足均值为0方差为1的x又进行了scale加上shift操作(y=scale*x+shift)，每个神经元增加了两个参数scale和shift参数，这两个参数是通过训练学习到的，意思是通过scale和shift把这个值从标准正态分布左移或者右移一点并长胖一点或者变瘦一点，每个实例挪动的程度不一样，这样等价于非线性函数的值从正中心周围的线性区往非线性区动了动。核心思想应该是想找到一个线性和非线性的较好平衡点，既能享受非线性的较强表达能力的好处，又避免太靠非线性区两头使得网络收敛速度太慢。

④什么情况下使用归一化方法？

这里主要讲BN层。在深度学习当中，每一层网络的输入都可以作为下一层网络的输入，开始的时候我们会将样本进行归一化后传输给网络，但是到了隐层，由于中间激活函数等非线性函数的映射，使得原本的归一化输入的数据分布发生了改变，这样使得下一层的输入的数据分布和上一层的数据分布是不一样的，即每一层输入的数据的分布都是变化的，这个问题称之为Internal Covariate Shift，这样就导致了训练的收敛速度变慢了。因此我们一般会在激活层之前，卷积层之后使用BN层，这样就能够保证每次输入到网络中的数据分布都是标准的正态分布，这也加快了训练的收敛速度。

⑤为什么归一化能够实现避免过拟合？

参考：https://www.cnblogs.com/guoyaohua/p/8724433.html

BN的基本思想其实相当直观：因为深层神经网络在做非线性变换前的激活输入值（就是那个x=WU+B，U是输入）随着网络深度加深或者在训练过程中，其分布逐渐发生偏移或者变动，之所t以训练收敛慢，一般是整体分布逐渐往非线性函数（激活函数）的取值区间的上下限两端靠近（即梯度会逐渐趋于0，导致梯度消失，参数更新慢）（对于Sigmoid函数来说，意味着激活输入值WU+B是大的负值或正值），所以这导致反向传播时低层神经网络的梯度消失，这是训练深层神经网络收敛越来越慢的本质原因，而BN就是通过一定的规范化手段，把每层神经网络任意神经元这个输入值的分布强行拉回到均值为0方差为1的标准正态分布，其实就是把越来越偏的分布强制拉回比较标准的分布，这样使得激活输入值落在非线性函数对输入比较敏感的区域（也就是将最大的值），这样输入的小变化就会导致损失函数较大的变化，意思是这样让梯度变大，避免梯度消失问题产生，而且梯度变大意味着学习收敛速度快，能大大加快训练速度。

　　THAT’S IT。其实一句话就是：对于每个隐层神经元，把逐渐向非线性函数映射后向取值区间极限饱和区靠拢的输入分布强制拉回到均值为0方差为1的比较标准的正态分布，使得非线性变换函数的输入值落入对输入比较敏感的区域，以此避免梯度消失问题。因为梯度一直都能保持比较大的状态，所以很明显对神经网络的参数调整效率比较高，就是变动大，就是说向损失函数最优值迈动的步子大，也就是说收敛地快。BN说到底就是这么个机制，方法很简单，道理很深刻。

可以看以下两个图：

没有归一化前

一开始没有归一化的时候数据分布是上左图蓝色曲线（第二高），这时候假设后面的激活函数是sigmoid函数（上右图第三高），可以发现大部分的数据都是分布在了sigmoid的左边部分，sigmoid的左边可以看到值逐渐趋于饱和区（即梯度趋于0），对应到下图的梯度来看，可以看到梯度值接近于0了，这时候就会使得参数的更新速度非常慢，使得模型训练的收敛速度很慢。

归一化后

        而我们使用BN层后，数据分布呈均值为0方差为1的标准正态分布，这时候的数据分布如上左图的紫色所示。可见大部分数据都是集中在了sigmoid的梯度较大的部分，且关于0对称，这样一来，保证了梯度处于较大区域，梯度也就更新的快了。

怎么保证非线性（两个参数的作用）

        我们不妨会有个疑问，既然每次输入到非线性层的时候要使得数据分布一致，那直接使用线性函数不就好了，但是我们需要知道的是，多层线性和一层线性的效果是一样的，这样会导致模型的表达能力不强，因此BN层为了能够得到非线性能够，又在原有的z-score归一化方法上加了两个参数r和β，就是为了能够找到一个线性和非线性的1平衡点，对应到上左图的曲线表征是，曲线变窄或变宽对应最高和最矮的曲线，这使得数据分布稍微地发生了移动，使得数据保留了一定的非线性。

⑥BN的优点

       不仅仅极大提升了训练速度，收敛过程大大加快；

        增加分类效果，一种解释是这是类似于Dropout的一种防止过拟合的正则化表达方式，所以不用Dropout也能达到相当的效果；

        另外调参过程也简单多了，对于初始化要求没那么高，而且可以使用大的学习率等。

笔记

3）dropout（随机丢弃）——随机删除一些神经元，以在不同批量上训练不同的神经网络架构。

参考：

https://zhuanlan.zhihu.com/p/266658445

概念：我们在前向传播的时候，让某个神经元的激活值以一定的概率p停止工作，这样可以使模型泛化性更强，因为它不会太依赖某些局部的特征。每次迭代丢失的神经元都不一样，使得其训练得到了不一样的模型。

①过程

输入是x输出是y，正常的流程是：我们首先把x通过网络前向传播，然后把误差反向传播以决定如何更新参数让网络进行学习。使用Dropout之后，过程变成如下：

（1）首先随机（临时）删掉网络中一半的隐藏神经元，输入输出神经元保持不变（图中虚线为部分临时被删除的神经元）

（2）然后把输入x通过修改后的网络前向传播，然后把得到的损失结果通过修改的网络反向传播。一小批训练样本执行完这个过程后，在没有被删除的神经元上按照随机梯度下降法更新对应的参数（w，b）。

（3）然后继续重复这一过程：

a. 恢复被删掉的神经元（此时被删除的神经元保持原样，而没有被删除的神经元已经有所更新）

b. 从隐藏层神经元中随机选择一个一半大小的子集临时删除掉（备份被删除神经元的参数）。

c. 对一小批训练样本，先前向传播然后反向传播损失并根据随机梯度下降法更新参数（w，b）（没有被删除的那一部分参数得到更新，删除的神经元参数保持被删除前的结果）。

不断重复这一过程。

②为什么能够避免过拟合?

1、多平均模型：不同的固定神经网络会有不同的过拟合，随机丢弃训练得到不同的神经网络，多个神经网络取平均可能会抵消掉过拟合，多模型类似于多数投票取胜的策略；

2、减少神经元之间的依赖：由于两个神经元不一定同时有效，因此减少了两个神经元之间的依赖性，使得神经元更加地独立，迫使神经网络更加地鲁棒性；因为神经网络不应该对特点的特征敏感，而是对众多特征中学习规律；

3、生物进化：这个其实优点像遗传算法中采用的生物进化，为了适应新环境而会在雌雄间各取一半基因

4）early stopping（早停法）

概念：其实就是在发现验证集的正确率在下降的时候就停止训练，将最后的一组权重作为最终的参数。但是一般不会像下图这么的光滑，会出现震荡状，这时候我们可以依据相关的停止准则来进行早停

参考：https://blog.csdn.net/zwqjoy/article/details/86677030

https://blog.csdn.net/weixin_41449637/article/details/90201206

①第一类停止标准

当当前的验证集的误差比目前最低的验证集误差超过一定值时停止，这就需要记录每次迭代后的验证集误差，或者记录最小验证集误差即可

②第二类停止标准

记录当前迭代周期训练集上平均错误率相对于最低错误率的差值PK，计算第一类停止标准的值和PK的商，当商大于一定值时，停止

③第三类停止标准

连续s个周期错误率在增长时停止

④选择停止标准的规则

⑤ 优缺点

你可能感兴趣的:(深度学习,深度学习,过拟合解决方法,归一化,正则化,dropout,early,stop)

基于YOLOv5、YOLOv8和YOLOv10的机场安检行李检测：深度学习应用与实现 2025年数学建模美赛 YOLO 深度学习人工智能目标跟踪目标检测
引言随着全球航空运输业的持续增长，机场的安全性变得越来越重要。机场安检作为航空安全的重要组成部分，主要负责对乘客和行李进行检查，防止危险物品进入机场或飞行器。传统的安检方式多依赖人工检查，效率低下且容易出错。因此，基于深度学习的自动化行李检测系统应运而生，通过计算机视觉技术，自动识别和分类行李中的物品，大大提高了安检的效率与准确性。YOLO（YouOnlyLookOnce）系列算法，由于其高效的目
WPS不登录无法使用基本功能的解决方案愚公移山填海经验分享
前言WPS不登录无法使用基本功能的原因通常是为了同步数据、提供更多高级功能或满足软件授权要求。‌然而，一些用户可能出于隐私或便捷性的考虑，不愿意登录账号。在这种情况下，WPS可能会限制未登录用户的使用权限，导致工具栏变灰，无法使用基本功能。‌解决方法1.使用配置工具进行重置修复‌打开WPS配置工具，进入高级设置界面。选择“重置修复”选项，然后点击“重置工具栏”。完成修复后，重启WPS软件以确保设置
word中目录右边页码对不齐解决方法 Bruce-Lan office 其他
这个目录对不齐原因未知；解决方法：1，在视图中打开标尺；2，选择对不齐的目录项；如果整个目录都有出现不对齐，选择整个目录。3，拖动标尺，进行对齐；4，被治愈了。
深入理解GPT底层原理--从n-gram到RNN到LSTM/GRU到Transformer/GPT的进化网络安全研发随想 rnn gpt lstm
从简单的RNN到复杂的LSTM/GRU,再到引入注意力机制,研究者们一直在努力解决序列建模的核心问题。每一步的进展都为下一步的突破奠定了基础,最终孕育出了革命性的Transformer架构和GPT大模型。1.从n-gram到循环神经网络(RNN)的诞生1.1N-gram模型在深度学习兴起之前,处理序列数据主要依靠统计方法,如n-gram模型。N-gram是一种基于统计的语言模型,它的核心思想是:一
成功解决error while loading shared libraries: libpython2.7.so.1.0: cannot open shared object file: No su 哎呦，帅小伙哦安装
安装了python2.7，第一次执行时报错：errorwhileloadingsharedlibraries:libpython2.7.so.1.0:cannotopensharedobjectfile:Nosuchfileordirectory解决方法如下：1.编辑vi/etc/ld.so.conf如果是非root权限帐号登录，使用sudovi/etc/ld.so.conf添加上python2.
深度学习理论基础（七）Transformer编码器和解码器小仇学长深度学习深度学习 transformer 人工智能编码器解码器
学习目录：深度学习理论基础（一）Python及Torch基础篇深度学习理论基础（二）深度神经网络DNN深度学习理论基础（三）封装数据集及手写数字识别深度学习理论基础（四）Parser命令行参数模块深度学习理论基础（五）卷积神经网络CNN深度学习理论基础（六）Transformer多头自注意力机制深度学习理论基础（七）Transformer编码器和解码器本文目录学习目录：前述：Transformer
第八篇：监视`ref`定义的【基本类型】数据和对象类型小画家~ 前端 vue.js
一：【watch】监视`ref`定义的【基本类型】数据作用：监视数据的变化（和Vue2中的watch作用一致）特点：Vue3中的watch只能监视以下四种数据：ref定义的数据。reactive定义的数据。函数返回一个值（getter函数）。一个包含上述内容的数组。我们在Vue3中使用watch的时候，通常会遇到以下几种情况，在一定情况下，停止监控：stopWatchwatch(第一个参数，第二个
VIM的 YCM插件所有的坑和解决方法，都是自己总结的！不完美的程序员教程 VIM
相信大家都听说过大名鼎鼎的自动补全插件-YCM今天就让我们来装完这个插件。——————————————————————————建议大家用bundle，在你的VIMRC中添加Bundle'Valloric/YouCompleteMe'这里必须要注意，这是一个大坑，就是必须要耐心等它装完！！！否则报错！！！——————————————————————————现在，配置他：letg:ycm_seed_i
细嗦Transformer（三）：准备训练，讲解及代码实现优化器、学习率调整策略、正则化和KL散度损失 Ace_bb 算法 LLM transformer
文章目录关注我：细嗦大模型批处理对象/BatchesandMasking训练循环主函数/TrainingLoop优化器/Optimizer学习率调整策略/Learningrateadjustmentstrategy样例测试正则化/RegularizationLabelsmoothing标签平滑KL散度损失样例测试Github完整代码----求求了给个star和关注吧参考资料求求了，给个star和关
Transformer架构原理详解：编码器（Encoder）和解码器（Decoder） AI大模型应用之禅 AI大模型与大数据 java python javascript kotlin golang 架构人工智能
Transformer,编码器,解码器,自注意力机制,多头注意力,位置编码,序列到序列,自然语言处理1.背景介绍近年来，深度学习在自然语言处理（NLP）领域取得了显著进展，其中Transformer架构扮演着至关重要的角色。自2017年谷歌发布了基于Transformer的机器翻译模型BERT以来，Transformer及其变体在各种NLP任务上取得了突破性的成果，例如文本分类、问答系统、文本摘要
Maxwell软件使用问题——旧版本打开新版本（The partner project name of the link cannot be empty）加点油。。。。 Maxwell建模 maxwell 电机建模仿真 ansys
问题：使用AnsysElectronics2019R1打开2022R1运行maxwell模型是出现了下面问题解决方法：参考链接：(https://bbs.simol.cn/thread-200781-1-1.html)将setup中Advanced的对勾去掉。
【人工智能 | 大数据】基于人工智能的大数据分析方法用心去追梦人工智能大数据数据分析
基于人工智能（AI）的大数据分析方法是指利用机器学习、深度学习和其他AI技术来分析和处理大规模数据集。这些方法能够自动识别模式、提取有用信息，并做出预测或决策，从而帮助企业和组织更好地理解市场趋势、客户行为以及其他关键因素。以下是几种主要的基于AI的大数据分析方法：机器学习模型：通过训练算法让计算机从历史数据中学习并做出预测或分类。常见的机器学习技术包括监督学习（如回归分析、支持向量机）、非监督学
当父级元素设置了flex 布局，两个子元素都设置了flex :1, 但是当子元素放不下的时候会溢出父元素怎么解决（css 样式问题） IT 牛马 css 前端
一、问题遇到个样式问题，当父级元素设置了flex布局，两个子元素都设置了flex:1,但是当子元素放不下的时候会溢出父元素怎么解决（拖拽浏览器使页面变小）二、解决方法.father{min-height:600px;width:100%;display:flex;gap:12px;&-left{flex:1;min-width:0;//关键代码设置最小宽度和最大宽度可以防止子元素溢出max-wid
深度学习中超参数 fengbingchun Deep Learning hyperparameter
深度学习中的超参数(hyperparameters)是决定网络结构的变量(例如隐藏层数量)和决定网络训练方式的变量(例如学习率)。超参数的选择会显著影响训练模型所需的时间，也会影响模型的性能。超参数是在训练开始之前设置的，而不是从数据中学习的参数。超参数是模型训练期间无法学习的参数，需要事先设置。在深度学习中，模型由模型参数(如神经网络的权重和偏置)定义或表示。然而，训练模型的过程涉及选择最佳超参
基于MATLAB机器学习、深度学习实践技术应用梦想的初衷~ 机器学习人工智能 matlab 机器学习深度学习
近年来，MATLAB在机器学习和深度学习领域的发展取得了显著成就。其强大的计算能力和灵活的编程环境使其成为科研人员和工程师的首选工具。在无人驾驶汽车、医学影像智能诊疗、ImageNet竞赛等热门领域，MATLAB提供了丰富的算法库和工具箱，极大地推动了人工智能技术的应用和创新。原文链接https://mp.weixin.qq.com/s?__biz=Mzg2NDYxNjMyNA==&mid=224
深度求索DeepSeek V2.5-1210发布：AI代码生成器迎来全新升级前端
深度学习技术日新月异，而强大的AI代码生成器也随之不断进化。今天，我们将聚焦于深度求索团队发布的DeepSeekV2.5-1210版本，这款标志着DeepSeekV2系列收官之作，为我们带来了令人惊喜的Post-Training能力提升和备受期待的联网搜索功能。这篇文章将深入探讨DeepSeekV2.5-1210的各项改进，以及其开源带来的深远影响。DeepSeekV2系列的研发历程与V2.5-1
深度学习学习笔记（第30周） qq_51339898 深度学习人工智能
一、摘要本周报的目的在于汇报第30周的学习成果，本周主要聚焦于基于深度学习的图像分割领域的常用模型U-net。 U-net是最常用、最简单的一种分割模型，在2015年被提出。UNet网络是一种用于图像分割的卷积神经网络，其特点是采用了U型网络结构，因此称为UNet。UNet算法的关键创新是在解码器中引入了跳跃连接（SkipConnections），即将编码器中的特征图与解码器中对应的特征图进行连接
【CSS】渐变光晕 Y_coder CSS css javascript 前端
dom元素css样式#box{height:300px;width:300px;background-image:-webkit-gradient(radial,50%50%,0,50%50%,127,color-stop(0%,#CE1A1A),color-stop(100%,#ffffff));background-image:-webkit-radial-gradient(centercen
深入解析如何进行TensorFlow框架下的算子开发与适配插件开发：基于昇腾AI的完整流程快撑死的鱼华为昇腾 Ascend C的算子开发系统学习人工智能 tensorflow python
深入解析如何进行TensorFlow框架下的算子开发与适配插件开发：基于昇腾AI的完整流程在人工智能领域中，算子（Operator）作为深度学习模型的基础执行单元，决定了整个模型的计算性能和结果准确性。随着硬件平台的多样化，如何将第三方深度学习框架中的算子适配到特定的硬件平台变得至关重要。本文将深入探讨如何在TensorFlow框架下开发适配昇腾AI处理器的算子插件，通过解析算子属性映射、数据排布
深入解析框架适配开发：基于CANN平台的自定义算子开发与第三方框架适配全流程详解快撑死的鱼华为昇腾 Ascend C的算子开发系统学习人工智能
深入解析框架适配开发：基于CANN平台的自定义算子开发与第三方框架适配全流程详解随着深度学习的发展，不同的深度学习框架如TensorFlow、PyTorch、ONNX等在AI开发者社区中占据了重要地位。然而，针对某些硬件平台（如华为昇腾AI处理器），算子库中的算子并非都已经适配了所有主流框架。为了解决这一问题，框架适配开发应运而生，它允许开发者将已存在于算子库中的算子适配到其他未支持的第三方框架上
深入解析CANN算子开发：TBE与AI CPU算子类型及其开发方法全指南快撑死的鱼华为昇腾 Ascend C的算子开发系统学习人工智能
深入解析CANN算子开发：TBE与AICPU算子类型及其开发方法全指南在现代AI计算领域中，高效的算子开发对于优化深度学习模型的推理与训练至关重要。CANN（ComputeArchitectureforNeuralNetworks）作为华为AscendAI处理器的开发平台，提供了两种类型的算子开发支持：TBE算子和AICPU算子。每种算子类型针对不同的计算任务和硬件架构，开发者需要根据具体场景选择
深度学习-90-大型语言模型LLM之基于LM Studio本地化部署运行自己的大模型皮皮冰燃深度学习深度学习语言模型人工智能
文章目录1LMStudio1.1LMStudio的优点1.2LMStudio的安装1.3配置国内下载模型2LMStudio的应用2.1查找/下载模型2.2模型名称的含义2.3查看已经下载的模型2.4使用聊天3配置服务端3.1启动服务3.2支持的接口3.2.1列出当前加载的模型/v1/models3.2.2聊天补全/v1/chat/completions3.2.3文本补全/v1/completion
为什么Google ads不显示？如何解决？菠萝派爱跨境网络大数据物联网服务器 ip
“Youradisnotshowing”是所有Googleads广告主和营销人员都不想看到的提示，毕竟广告无法展示会带来的负面影响不止一星半点。为什么会出现Googleads不显示的问题？本文集合了一些常见原因和解决方法。一、Googleads不显示的常见原因1.Googleads账号被审核官方之前表示过平台会定期审核账户和账单信息，而在审核流程中的广告账户是无法正常投放广告的。2.地理位置不准或
上位机知识篇---ROS命令行命令 Ronin-Lotus 上位机知识篇上位机操作篇机器人人工智能学习信息可视化笔记科技程序人生
文章目录前言ROS命令行命令1.roscore（1）ROSMaster（2）ROSParameterServer2.rosnode（1）列出当前运行的节点（2）显示节点的详细信息（3）杀死一个节点3.rostopic（1）列出当前活跃的话题（2）显示话题的详细信息（3）发布消息到话题（4）订阅话题并打印消息（5）查看话题的消息类型（6）以Hz为单位查看话题的发布频率（7）记录话题数据到文件4.ro
Xcode16 编译运行YYCache iOS18 sqlite3_finalize 闪退问题解决方案假装自己很用心 sqlite 蓝桥杯数据库
问题原因升级Xcode16之后，真机运行APP，发现会有Crash，崩溃堆栈线上Crash在YYCache之中。如下图所示崩溃堆栈如下：*thread#1,queue='com.apple.main-thread',stopreason=signalSIGABRTframe#0:0x00000001d93911d4libsystem_kernel.dylib`__pthread_kill+8fra
中科曙光C/C++研发工程师二面 TrustZone_ ARM/Linux嵌入式面试 c语言 c++开发语言
自我介绍；针对项目：CNN模型、损失函数、评价指标、改进方向、计算加速；CNN模型CNN，即卷积神经网络，是一种专门用于处理具有类似网格结构数据的深度学习模型。它通过卷积层和池化层提取图像特征，并通过全连接层进行分类或回归预测。CNN在图像识别、目标检测和图像生成等领域取得了巨大成功。具体来说，CNN的模型结构包括输入层、卷积层、激活函数、池化层、全连接层和输出层。输入层接收图像数据，并将其转换为
Docker网段和服务器ip冲突导致无法访问网络的解决方法 docker
若宿主机所在网络的网段为172.[17-31].xx.xx，则会与Docker本身内部网络间出现冲突，此时需要重新配置Docker默认地址池一：查看docker的默认网段route二：修改docker的默认网段etc/docker/daemon.json文件增加修改网段信息{"default-address-pools":[{"base":"180.0.0.0/16","size":24}],"b
‘urllib‘ has no attribute ‘urlencode‘ 计算机辅助工程 linux 运维服务器
报错解释：在Python3.x中，urllib库已经被分解为几个子模块，urllib.parse中包含了urlencode函数，用于将字典或者字节序列转换为URL编码的查询字符串。但是在Python3.x中直接使用urllib.urlencode()会导致这个错误，因为urllib模块中不存在urlencode这个属性。解决方法：你需要从urllib.parse模块中导入urlencode函数，并
改进yolov8工业缺陷检测+swin+transformer qq1309399183 计算机视觉实战项目集合 YOLO transformer 深度学习人工智能计算机视觉机器学习神经网络
使用NEU-DET数据集进行缺陷检测的YOLOv8改进模型应用详解在现代工业生产过程中，质量控制是至关重要的一个环节。随着机器视觉技术和人工智能算法的发展，基于深度学习的方法已经成为自动化缺陷检测的重要工具。本篇将介绍一种基于NEU-DET数据集，利用YOLOv8及其改进版本（包含坐标注意力机制和SwinTransformer）进行缺陷检测的应用开发过程。我们将详细探讨从数据准备到模型训练，再到最
plus is not defined eslint报错于慨 uniapp相关前端
plusisnotdefinedeslint报错解决方法：将eslint配置文件的globals里面添加plus:true
github中多个平台共存 jackyrong github
在个人电脑上，如何分别链接比如oschina,github等库呢，一般教程之列的，默认 ssh链接一个托管的而已，下面讲解如何放两个文件 1）设置用户名和邮件地址 $ git config --global user.name "xx" $ git config --global user.email "[email protected]"
ip地址与整数的相互转换(javascript) alxw4616 JavaScript
//IP转成整型 function ip2int(ip){ var num = 0; ip = ip.split("."); num = Number(ip[0]) * 256 * 256 * 256 + Number(ip[1]) * 256 * 256 + Number(ip[2]) * 256 + Number(ip[3]); n
读书笔记-jquey+数据库+css chengxuyuancsdn html jquery oracle
1、grouping ,group by rollup, GROUP BY GROUPING SETS区别 2、$("#totalTable tbody>tr td:nth-child(" + i + ")").css({"width":tdWidth, "margin":"0px", &q
javaSE javaEE javaME == API下载 Array_06 java
oracle下载各种API文档： http://www.oracle.com/technetwork/java/embedded/javame/embed-me/documentation/javame-embedded-apis-2181154.html JavaSE文档： http://docs.oracle.com/javase/8/docs/api/ JavaEE文档： ht
shiro入门学习 cugfy java Web 框架
声明本文只适合初学者，本人也是刚接触而已，经过一段时间的研究小有收获，特来分享下希望和大家互相交流学习。首先配置我们的web.xml代码如下，固定格式，记死就成 <filter> <filter-name>shiroFilter</filter-name> &nbs
Array添加删除方法 357029540 js
刚才做项目前台删除数组的固定下标值时，删除得不是很完整，所以在网上查了下，发现一个不错的方法，也提供给需要的同学。 //给数组添加删除 Array.prototype.del = function(n){
navigation bar 更改颜色张亚雄 IO
今天郁闷了一下午，就因为objective-c默认语言是英文，我写的中文全是一些乱七八糟的样子，到不是乱码，但是，前两个自字是粗体，后两个字正常体，这可郁闷死我了，问了问大牛，人家告诉我说更改一下字体就好啦，比如改成黑体，哇塞，茅塞顿开。翻书看，发现，书上有介绍怎么更改表格中文字字体的，代码如下
unicode转换成中文 adminjun unicode 编码转换
在Java程序中总会出现\u6b22\u8fce\u63d0\u4ea4\u5fae\u535a\u641c\u7d22\u4f7f\u7528\u53cd\u9988\uff0c\u8bf7\u76f4\u63a5这个的字符，这是unicode编码，使用时有时候不会自动转换成中文就需要自己转换了使用下面的方法转换一下即可。 /** * unicode 转换成中文
一站式 Java Web 框架 firefly aijuans Java Web
Firefly是一个高性能一站式Web框架。涵盖了web开发的主要技术栈。包含Template engine、IOC、MVC framework、HTTP Server、Common tools、Log、Json parser等模块。 firefly-2.0_07修复了模版压缩对javascript单行注释的影响，并新增了自定义错误页面功能。更新日志：增加自定义系统错误页面功能
设计模式——单例模式 ayaoxinchao 设计模式
定义 Java中单例模式定义：“一个类有且仅有一个实例，并且自行实例化向整个系统提供。” 分析从定义中可以看出单例的要点有三个：一是某个类只能有一个实例；二是必须自行创建这个实例；三是必须自行向系统提供这个实例。 &nb
Javascript 多浏览器兼容性问题及解决方案 BigBird2012 JavaScript
不论是网站应用还是学习js,大家很注重ie与firefox等浏览器的兼容性问题，毕竟这两中浏览器是占了绝大多数。一、document.formName.item(”itemName”) 问题问题说明：IE下，可以使用 document.formName.item(”itemName”) 或 document.formName.elements ["elementName&quo
JUnit-4.11使用报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing错误 bijian1013 junit4.11 单元测试
下载了最新的JUnit版本，是4.11，结果尝试使用发现总是报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing这样的错误，上网查了一下，一般的解决方案是，换一个低一点的版本就好了。还有人说，是缺少hamcrest的包。去官网看了一下，如下发现：
[Zookeeper学习笔记之二]Zookeeper部署脚本 bit1129 zookeeper
Zookeeper伪分布式安装脚本(此脚本在一台机器上创建Zookeeper三个进程，即创建具有三个节点的Zookeeper集群。这个脚本和zookeeper的tar包放在同一个目录下，脚本中指定的名字是zookeeper的3.4.6版本，需要根据实际情况修改)： #!/bin/bash #!!!Change the name!!! #The zookeepe
【Spark八十】Spark RDD API二 bit1129 spark
coGroup package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.SparkContext._ object CoGroupTest_05 { def main(args: Array[String]) { v
Linux中编译apache服务器modules文件夹缺少模块(.so)的问题 ronin47 modules
在modules目录中只有httpd.exp，那些so文件呢？我尝试在fedora core 3中安装apache 2. 当我解压了apache 2.0.54后使用configure工具并且加入了 --enable-so 或者 --enable-modules=so (两个我都试过了) 去make并且make install了。我希望在/apache2/modules/目录里有各种模块，
Java基础-克隆 BrokenDreams java基础
Java中怎么拷贝一个对象呢？可以通过调用这个对象类型的构造器构造一个新对象，然后将要拷贝对象的属性设置到新对象里面。Java中也有另一种不通过构造器来拷贝对象的方式，这种方式称为克隆。 Java提供了java.lang.
读《研磨设计模式》-代码笔记-适配器模式-Adapter bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 适配器模式解决的主要问题是，现有的方法接口与客户要求的方法接口不一致 * 可以这样想，我们要写这样一个类（Adapter）: * 1.这个类要符合客户的要求 ---> 那显然要
HDR图像PS教程集锦&心得 cherishLC PS
HDR是指高动态范围的图像，主要原理为提高图像的局部对比度。软件有photomatix和nik hdr efex。一、教程叶明在知乎上的回答： http://www.zhihu.com/question/27418267/answer/37317792 大意是修完后直方图最好是等值直方图，方法是HDR软件调一遍，再结合不透明度和蒙版细调。二、心得 1、去除阴影部分的
maven-3.3.3 mvn archetype 列表 crabdave ArcheType
maven-3.3.3 mvn archetype 列表可以参考最新的：http://repo1.maven.org/maven2/archetype-catalog.xml [INFO] Scanning for projects... [INFO]
linux shell 中文件编码查看及转换方法 daizj shell 中文乱码 vim 文件编码
一、查看文件编码。在打开文件的时候输入:set fileencoding 即可显示文件编码格式。二、文件编码转换 1、在Vim中直接进行转换文件编码,比如将一个文件转换成utf-8格式 &
MySQL--binlog日志恢复数据 dcj3sjt126com binlog
恢复数据的重要命令如下 mysql> flush logs; 默认的日志是mysql-bin.000001，现在刷新了重新开启一个就多了一个mysql-bin.000002
数据库中数据表数据迁移方法 dcj3sjt126com sql
刚开始想想好像挺麻烦的，后来找到一种方法了，就SQL中的 INSERT 语句，不过内容是现从另外的表中查出来的，其实就是 MySQL中INSERT INTO SELECT的使用下面看看如何使用语法：MySQL中INSERT INTO SELECT的使用 1. 语法介绍有三张表a、b、c，现在需要从表b
Java反转字符串 dyy_gusi java 反转字符串
前几天看见一篇文章，说使用Java能用几种方式反转一个字符串。首先要明白什么叫反转字符串，就是将一个字符串到过来啦，比如"倒过来念的是小狗"反转过来就是”狗小是的念来过倒“。接下来就把自己能想到的所有方式记录下来了。 1、第一个念头就是直接使用String类的反转方法，对不起，这样是不行的，因为Stri
UI设计中我们为什么需要设计动效 gcq511120594 UI linux
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用
JBOSS服务部署端口冲突问题 HogwartsRow java 应用服务器 jboss server EJB3
服务端口冲突问题的解决方法，一般修改如下三个文件中的部分端口就可以了。 1、jboss5/server/default/conf/bindingservice.beans/META-INF/bindings-jboss-beans.xml 2、./server/default/deploy/jbossweb.sar/server.xml 3、.
第三章 Redis/SSDB+Twemproxy安装与使用 jinnianshilongnian ssdb reids twemproxy
目前对于互联网公司不使用Redis的很少，Redis不仅仅可以作为key-value缓存，而且提供了丰富的数据结果如set、list、map等，可以实现很多复杂的功能；但是Redis本身主要用作内存缓存，不适合做持久化存储，因此目前有如SSDB、ARDB等，还有如京东的JIMDB，它们都支持Redis协议，可以支持Redis客户端直接访问；而这些持久化存储大多数使用了如LevelDB、RocksD
ZooKeeper原理及使用 liyonghui160com
ZooKeeper是Hadoop Ecosystem中非常重要的组件，它的主要功能是为分布式系统提供一致性协调(Coordination)服务，与之对应的Google的类似服务叫Chubby。今天这篇文章分为三个部分来介绍ZooKeeper，第一部分介绍ZooKeeper的基本原理，第二部分介绍ZooKeeper
程序员解决问题的60个策略 pda158 框架工作单元测试
根本的指导方针 1. 首先写代码的时候最好不要有缺陷。最好的修复方法就是让 bug 胎死腹中。良好的单元测试强制数据库约束使用输入验证框架避免未实现的“else”条件在应用到主程序之前知道如何在孤立的情况下使用日志 2. print 语句。往往额外输出个一两行将有助于隔离问题。 3. 切换至详细的日志记录。详细的日
Create the Google Play Account sillycat Google
Create the Google Play Account Having a Google account, pay 25$, then you get your google developer account. References: http://developer.android.com/distribute/googleplay/start.html https://p
JSP三大指令 vikingwei jsp
JSP三大指令一个jsp页面中，可以有0~N个指令的定义！ 1. page --> 最复杂：<%@page language="java" info="xxx"...%> * pageEncoding和contentType： > pageEncoding：它