ytusdc

深度学习模型训练的tricks总结

1、数据与标签角度

1.1 数据归一化

https://blog.csdn.net/ytusdc/article/details/128504272

1.2 数据增强

Random image cropping and patching(RICAP)：随机裁剪四个图片的中部分，然后把它们拼接为一个图片，同时混合这四个图片的标签。这也是一种比较特殊的数据增强方法，一般的数据增强都是对一个样本进行操作，而该方法将样本和标签同时进行融合，在大量的数据中也会取得不错的效果。

Cutout：是一种新的正则化方法。原理是在训练时随机把图片的一部分减掉，这样能提高模型的鲁棒性。它的来源是计算机视觉任务中经常遇到的物体遮挡问题。通过cutout生成一些类似被遮挡的物体，不仅可以让模型在遇到遮挡问题时表现更好，还能让模型在做决定时更多地考虑环境(context)。我的理解这也是一种数据增广方法，通过让图像一定程度残缺来提高泛化能力，降低过拟合风险。

Random erasing：其实和cutout非常类似，也是一种模拟物体遮挡情况的数据增强方法。区别在于，cutout是把图片中随机抽中的矩形区域的像素值置为0，相当于裁剪掉，random erasing是用随机数或者数据集中像素的平均值替换原来的像素值。而且，cutout每次裁剪掉的区域大小是固定的，Random erasing替换掉的区域大小是随机的。

Mixup training: 这个思想与上面Random image cropping and patching有相似之处。Mixup training，就是每次取出2张图片，然后将它们线性组合，得到新的图片，以此来作为新的训练样本，进行网络的训练，如下公式，其中x代表图像数据，y代表标签，则得到的新的xhat, yhat。

看起来就是对数据进行线性组合从而增广，主要增强了训练样本之间的线性表达，增强网络的泛化能力，不过mixup方法需要较长的时间才能收敛得比较好。

1.3、标签平滑（Label Smoothing）

参考：

标签平滑（Label Smoothing）详解_ytusdc的博客-CSDN博客

2、权重初始化（Weight Initialization）

权重初始化相比于其他的trick来说在平常使用并不是很频繁。因为大部分人使用的模型都是预训练模型，使用的权重都是在大型数据集上训练好的模型，当然不需要自己去初始化权重了。只有没有预训练模型的领域会自己初始化权重，或者在模型中去初始化神经网络最后那几个全连接层的权重。常用的权重初始化算法是「kaiming_normal」或者「xavier_normal」。

初始化参数尽量小一些，这样 softmax 的回归输出更加接近均匀分布，使得刚开始网络并不确信数据属于哪一类；另一方面从数值优化上看我们希望我们的参数具有一致的方差（一致的数量级），这样我们的梯度下降法下降也会更快。同时为了使每一层的激励值保持一定的方差，我们在初始化参数（不包括偏置项）的方差可以与输入神经元的平方根成反比

uniform均匀分布初始化：
Xavier初始法，适用于普通激活函数(tanh, sigmoid)：
He初始化，适用于ReLU：
normal高斯分布初始化，其中stdev为高斯分布的标准差，均值设为0：

3、学习率角度

学习率是一个非常非常重要的超参数，这个参数呢，面对不同规模、不同batch-size、不同优化方式、不同数据集，其最合适的值都是不确定的，我们无法光凭经验来准确地确定lr的值，我们唯一可以做的，就是在训练中不断寻找最合适当前状态的学习率。

学习率设置太大会导致训练十分不稳定，设置太小会导致损失下降太慢。学习率一般要随着训练进行衰减。衰减系数设0.1,0.3,0.5均可，衰减时机，可以是验证集准确率不再上升时，或固定训练多少个周期以后自动衰减。

比如下图利用fastai中的lr_find()函数寻找合适的学习率，根据下方的学习率-损失曲线得到此时合适的学习率为1e-2。

推荐一篇fastai首席设计师「Sylvain Gugger」的一篇博客：How Do You Find A Good Learning Rate[1]，以及相关的论文Cyclical Learning Rates for Training Neural Networks[2]。

3.1、Warm up

深度学习训练策略--学习率预热Warmup_ytusdc的博客-CSDN博客_warmup_steps

训练初始阶段：由于刚开始训练时模型的权重(weights)是随机初始化的，此时选择一个较大的学习率，可能会带来模型的不稳定。学习率预热就是在刚开始训练的时候先使用一个较小的学习率，训练一些epoches或iterations，等模型稳定时再修改为预先设置的学习率进行训练。
上述的方法是constant warmup，18年Facebook又针对上面的warmup进行了改进，因为从一个很小的学习率一下变为比较大的学习率可能会导致训练误差突然增大。提出了gradual warmup来解决这个问题，即从最开始的小学习率开始，每个iteration增大一点，直到最初设置的比较大的学习率。

3.2、Linear scaling learning rate —— learning-rate与batch-size的关系

实验证明，大的batch size在相同的epoch下准确率会更小，使用warm up可以在一定程度上解决这个问题，而Linear scaling learning rate也是一种有效的方法。

        一般来说，越大的batch-size使用越大的学习率。
        在mini-batch SGD训练时，梯度下降的值是随机的，因为每一个batch的数据是随机选择的。增大batch size不会改变梯度的期望，但是会降低它的方差。也就是说，大batch size会降低梯度中的噪声，所以我们可以增大学习率来加快收敛。
        具体做法很简单，比如ResNet原论文中，batch size为256时选择的学习率是0.1，当我们把batch size变为一个较大的数b时，学习率应该变为 0.1 × b/256。即线性的根据batch大小设置学习率，从而达到更好的学习效果。
        简单的说，大的batch size计算得到的梯度噪声更小，所以可以使用更大的学习率来加大收敛。那么这里就有一个问题了，为什么小的batch size一般收敛的更快呢？这是因为小的batch size尽管方向不一定准确，但是更新次数多，最终收敛速度会更快。而大的batch size虽然噪声小，方向也更准确，但是由于学习率效果不会很好，这样线性的增加学习率其实也是相当于用单次更新量变大弥补更新次数小的事实。

总结，越大的batch-size意味着我们学习的时候，收敛方向的confidence越大，我们前进的方向更加坚定，而小的batch-size则显得比较杂乱，毫无规律性，因为相比批次大的时候，批次小的情况下无法照顾到更多的情况，所以需要小的学习率来保证不至于出错。

可以看下图损失Loss与学习率Lr的关系：

在显存足够的条件下，最好采用较大的batch-size进行训练，找到合适的学习率后，可以加快收敛速度。另外，较大的batch-size可以避免batch normalization出现的一些小问题，

3.3、学习率衰减策略

在warmup之后的训练过程中，学习率不断衰减是一个提高精度的好方法。因此可以选择合适的学习率衰减策略：

学习率衰减策略 - 知乎

余弦退火(cosine annealing)和热重启的随机梯度下降

「余弦」就是类似于余弦函数的曲线，「退火」就是下降，「余弦退火」就是学习率类似余弦函数慢慢下降。

「热重启」就是在学习的过程中，「学习率」慢慢下降然后突然再「回弹」(重启)然后继续慢慢下降。

还要注意一点有些参数有更快、或更慢的学习速率，因此我们可以针对模型中的不同参数组，设定不同的学习率。在上述链接中也有介绍

4、难例挖掘 hard-negative-mining

1、分析模型难以预测正确的样本，给出针对性方法。

2、badcase 分析

5、模型的角度

5.1 多模型融合（Ensemble）

Ensemble是论文刷结果的终极核武器,深度学习中一般有以下几种方式

同样的参数,不同的初始化方式
不同的参数,通过cross-validation,选取最好的几组
同样的参数,模型训练的不同阶段，即不同迭代次数的模型。
不同的模型,进行线性融合. 例如RNN和传统模型.
提高模型性能和鲁棒性大法：probs融合和投票法。

假设这里有model 1, model 2, model 3，可以这样融合：

model1 probs + model2 probs + model3 probs ==> final label
model1 label , model2 label , model3 label ==> voting ==> final label
model1_1 probs + ... + model1_n probs ==> mode1 label, model2 label与model3获取的label方式与1相同 ==> voting ==> final label

第三个方式的启发来源于，如果一个model的随机种子没有固定，多次预测得到的结果可能不同。以上方式的效果要根据label个数，数据集规模等特征具体问题具体分析，表现可能不同，方式无非是probs融合和投票法的单独使用or结合。

5.2、知识蒸馏（Knowledge Distillation）

这个其实是从代价函数的角度来分析的。用一个教师模型来帮助当前的模型（学生模型）训练，学生模型会使用新的代价函数，具体请参考知识蒸馏

使用所有的模型集成进行预测是比较麻烦的，并且可能计算量太大而无法部署到大量用户。Knowledge Distillation(知识蒸馏)方法就是应对这种问题的有效方法之一。

在知识蒸馏方法中，我们使用一个教师模型来帮助当前的模型（学生模型）训练。教师模型是一个较高准确率的预训练模型，因此学生模型可以在保持模型复杂度不变的情况下提升准确率。比如，可以使用ResNet-152作为教师模型来帮助学生模型ResNet-50训练。在训练过程中，我们会加一个蒸馏损失来惩罚学生模型和教师模型的输出之间的差异。
这个技术出自Hinton之手，通过效果更好的网络来指导轻量级网络训练，最终取得更好的训练效果。

5.3、指数移动平均（Exponential Moving Average）EMA

滑动平均模型，在训练的过程中不断的对参数求滑动平均这样能够更有效的保持稳定性，使其对当前参数更新不敏感。例如加动量项的随机梯度下降法就是在学习率上应用滑动平均模型。

参考文章：

指数移动平均（EMA）【在一定程度上提高最终模型在测试数据上的表现（例如accuracy、FID、泛化能力...）】

5.4、TTA(Test Time Augmentation)

最初这个概念是在fastai课程中看到的，这个过程在训练阶段不会参与，是通过在验证和测试阶段进行的。具体过程是，对所要处理的图像进行几种随机的图像增强变化，然后对每种图像增强后的图像进行预测，对预测结果取平均值。

原理类似于模型平均，牺牲推断速度来实现推断精度的提升。当然，这个技术也有好有坏，在我自己跑的卫星图数据集中采用TTA的精确度比不采用低了0.03个百分点

6、差分学习率与迁移学习

首先说下迁移学习，迁移学习是一种很常见的深度学习技巧，我们利用很多预训练的经典模型直接去训练我们自己的任务。虽然说领域不同，但是在学习权重的广度方面，两个任务之间还是有联系的。

由上图，我们拿来「model A」训练好的模型权重去训练我们自己的模型权重(「Model B」)，其中，modelA可能是ImageNet的预训练权重，而ModelB则是我们自己想要用来识别猫和狗的预训练权重。

那么差分学习率和迁移学习有什么关系呢？我们直接拿来其他任务的训练权重，在进行optimize的时候，如何选择适当的学习率是一个很重要的问题。

一般地，我们设计的神经网络(如下图)一般分为三个部分，输入层，隐含层和输出层，随着层数的增加，神经网络学习到的特征越抽象。因此，下图中的卷积层和全连接层的学习率也应该设置的不一样，一般来说，卷积层设置的学习率应该更低一些，而全连接层的学习率可以适当提高。

这就是差分学习率的意思，在不同的层设置不同的学习率，可以提高神经网络的训练效果，具体的介绍可以查看下方的连接。

7、多尺度训练

多尺度训练是一种「直接有效」的方法，通过输入不同尺度的图像数据集，因为神经网络卷积池化的特殊性，这样可以让神经网络充分地学习不同分辨率下图像的特征，可以提高机器学习的性能，也可以用来处理过拟合效应，在图像数据集不是特别充足的情况下，可以先训练小尺寸图像，然后增大尺寸并再次训练相同模型，这样的思想在Yolo-v2的论文中也提到过。

需要注意的是：多尺度训练并不是适合所有的深度学习应用，多尺度训练可以算是特殊的数据增强方法，在图像大小这一块做了调整。如果有可能最好利用可视化代码将多尺度后的图像近距离观察一下，「看看多尺度会对图像的整体信息有没有影响」，如果对图像信息有影响的话，这样直接训练的话会误导算法导致得不到应有的结果。

8、Cross Validation 交叉验证

在李航的统计学方法中说到，交叉验证往往是对实际应用中「数据不充足」而采用的，基本目的就是重复使用数据。在平常中我们将所有的数据分为训练集和验证集就已经是简单的交叉验证了，可以称为1折交叉验证。「注意，交叉验证和测试集没关系，测试集是用来衡量我们的算法标准的，不参与到交叉验证中来。」

交叉验证只针对训练集和验证集。

交叉验证是Kaggle比赛中特别推崇的一种技巧，我们经常使用的是5-折(5-fold)交叉验证，将训练集分成5份，随机挑一份做验证集其余为训练集，循环5次，这种比较常见计算量也不是很大。还有一种叫做leave-one-out cross validation留一交叉验证，这种交叉验证就是n-折交叉，n表示数据集的容量，这种方法只适合数据量比较小的情况，计算量非常大的情况很少用到这种方法。

9、选择合适的优化算法

按理说不同的优化算法适合于不同的任务，不过我们大多数采用的优化算法还是是adam和SGD+monmentum。Adam 可以解决一堆奇奇怪怪的问题（有时 loss 降不下去，换 Adam 瞬间就好了），也可以带来一堆奇奇怪怪的问题（比如单词词频差异很大，当前 batch 没有的单词的词向量也被更新；再比如Adam和L2正则结合产生的复杂效果）。用的时候要胆大心细，万一遇到问题找各种魔改 Adam（比如 MaskedAdam[14], AdamW 啥的）抢救。

但看一些博客说adam的相比SGD，收敛快，但泛化能力差，更优结果似乎需要精调SGD。adam,adadelta等, 在小数据上,我这里实验的效果不如sgd, sgd收敛速度会慢一些，但是最终收敛后的结果，一般都比较好。如果使用sgd的话,可以选择从1.0或者0.1的学习率开始,隔一段时间,在验证集上检查一下,如果cost没有下降,就对学习率减半. 我看过很多论文都这么搞,我自己实验的结果也很好. 当然,也可以先用ada系列先跑,最后快收敛的时候,更换成sgd继续训练.同样也会有提升.据说adadelta一般在分类问题上效果比较好，adam在生成问题上效果比较好。

adam收敛虽快但是得到的解往往没有sgd+momentum得到的解更好，如果不考虑时间成本的话还是用sgd吧。adam是不需要特别调lr，sgd要多花点时间调lr和initial weights。

10、尝试过拟合一个小数据集

这是一个经典的小trick了，但是很多人并不这样做，可以尝试一下。关闭正则化/随机失活/数据扩充，使用训练集的一小部分，让神经网络训练几个周期。确保可以实现零损失，如果没有，那么很可能什么地方出错了。

其他tricks
除了上面很多很高级的tricks，为了提升性能还有很多比较小的trick，有些是特别常用的特别普遍的，这里还是总结一下：

11、训练技巧

在数据集很大的情况下，别一上来就跑全量数据。先在一个较小（建议先用 1/100、1/10 ）的训练集上train和test，对模型性能和训练时间有个底，外推一下全量数据到底需要跑多久。在没有足够的信心前不做大规模实验。看看小数据集上它能不能过拟合或者预测结果比较理想。如果不能，可能是学习率太大，或者代码写错了。先调小学习率试一下，如果还不行就去检查代码，先看dataloader输出的数据对不对，再看模型每一步的size是否符合自己期待。例如：一开始不用大数据集，先在一个大概2w训练集，2k测试集的小数据集上调参。
看train/eval的loss曲线，正常的情况应该是train loss呈log状一直下降最后趋于稳定，eval loss开始时一直下降到某一个epoch之后开始趋于稳定或开始上升，这时候可以用early stopping保存eval loss最低的那个模型。a、如果loss曲线非常不正常，很有可能是数据处理出了问题，比如label对应错了，回去检查代码。 b、如果我们设计的网络不work，在训练集的正确率也很低的话，我们可以减小样本数量同时去掉正则化项，然后进行调参，如果正确率还是不高的话，就说明我们设计的网络结果可能有问题。
优化器优先用adam，学习率设1e-3或1e-4，再试Radam（LiyuanLucasLiu/RAdam）。不推荐sgd，因为很慢。 sgd收敛速度会慢一些，但是最终收敛后的结果，一般都比较好。如果使用sgd的话,可以选择从1.0或者0.1的学习率开始,隔一段时间,在验证集上检查一下,如果cost没有下降,就对学习率减半. 我看过很多论文都这么搞,我自己实验的结果也很好. 当然,也可以先用ada系列先跑,最后快收敛的时候,更换成sgd继续训练.同样也会有提升.据说adadelta一般在分类问题上效果比较好，adam在生成问题上效果比较好。
fine-tuning的时候，可以把新加层的学习率调高，重用层的学习率可以设置的相对较低。
激活函数用relu一般就够了，也可以试试leaky relu。当激活函数是RELU时，我们在初始化偏置项时，为了避免过多的死亡节点（激活值为0）一般可以初始化为一个较小的正值。
训练过程不仅要观察训练集和测试集的loss是否下降、正确率是否提高，对于参数以及激活值的分布情况也要及时观察，要有一定的波动。一个很好的措施是采用可视化库（visualization library ），在几个训练样例之后、或者周期之间，生成权重柱状图。这或许能帮助我们追踪深度学习模型中的一些常见问题，比如梯度消失与梯度爆发（Exploding Gradient）
要做梯度归一化，即算出来的梯度除以minibatch size
梯度检验：当我们的算法在训练出现问题而进行debug时，可以考虑使用近似的数值梯度和计算的梯度作比较检验梯度是否计算正确。
gradient clipping(梯度裁剪)：有一些任务（尤其是有RNN的）要做梯度裁剪(torch.nn.utils.clip_grad_norm)，限制最大梯度可以防止梯度爆炸，其实是 value = sqrt(w1^2+w2^2….) , 如果value超过了阈值,就算一个衰减系系数，让value的值等于阈值: 5,10,15。训 RNN ，如果不加梯度裁剪导致训练一段时间以后 loss 突然变成 Nan。
batchnorm和dropout可以试，放的位置很重要。优先尝试放在最后输出层之前，以及embedding层之后。RNN可以试layer_norm。但是有些任务上加了这些层可能会有负作用。dropout对小数据防止过拟合有很好的效果，值一般设为0.5，小数据上dropout+sgd在我的大部分实验中，效果提升都非常明显。因此可能的话，建议一定要尝试一下。dropout的位置比较有讲究, 对于RNN,建议放到输入->RNN与RNN->输出的位置
lrscheduler用torch.optim.lr_scheduler.CosineAnnealingLR，T_max设32或64，几个任务上试效果都不错。（用这个lr_scheduler加上adam系的optimizer基本就不用怎么调学习率了）
超参上，learning rate 最重要，推荐了解 cosine learning rate 和 cyclic learning
rate，其次是 batchsize 和 weight decay。当你的模型还不错的时候，可以试着做数据增广和改损失函数锦上添花了。weight decay可以试一下，我一般用1e-4。
在确定初始学习率的时候，从一个很小的值（例如 1e-7）开始，然后每一步指数增大学习率（例如扩大1.05 倍）进行训练。训练几百步应该能观察到损失函数随训练步数呈对勾形，选择损失下降最快那一段的学习率即可。
除了gate之类的地方,需要把输出限制成0-1之外,尽量不要用sigmoid,可以用tanh或者relu之类的激活函数. sigmoid函数在[-4，4]的区间里，才有较大的梯度。之外的区间，梯度接近0，很容易造成梯度消失问题。输入0均值，sigmoid函数的输出不是0均值的。
尽量对数据做shuffle
如果你的模型包含全连接层（MLP），并且输入和输出大小一样，可以考虑将MLP替换成Highway Network,我尝试对结果有一点提升，建议作为最后提升模型的手段，原理很简单，就是给输出加了一个gate来控制信息的流动。
一轮加正则，一轮不加正则，反复进行。
有CNN的地方就用shortcut。CNN层数加到某一个值之后对结果影响就不大了，这个值作为参数可以调一下。
注意实验的可复现性和一致性，注意养成良好的实验记录习惯 ==> 不然如何分析出实验结论。
对于大多数任务，数据比模型重要。面对新任务时先分析数据，再根据数据设计模型，并决定各个参数。例如nlp有些任务中的padding长度，通常需要达到数据集的90%以上，可用pandas的describe函数进行分析。

rnn调参技巧

LSTM 的forget gate的bias,用1.0或者更大的值做初始化,可以取得更好的结果, 我这里实验设成1.0,可以提高收敛速度.实际使用中,不同的任务,可能需要尝试不同的值.
补充一个rnn trick，仍然是不考虑时间成本的情况下，batch size=1是一个很不错的regularizer,
word2vec初始化,在小数据上,不仅可以有效提高收敛速度,也可以可以提高结果.
rnn的dim和embdding size,一般从128上下开始调整. batch size,一般从128左右开始调整. batch size合适最重要,并不是越大越好.
GPU 上报错时尽量放在 CPU 上重跑，错误信息更友好。例如 GPU 报 “ERROR:tensorflow:Model diverged with loss = NaN” 其实很有可能是输入 ID 超出了 softmax 词表的范围。

【STM32-学习笔记-11-】RTC实时时钟隼玉【STM32学习笔记】stm32 学习笔记 c语言
文章目录RTC实时时钟一、RTC简介二、RTC框图三、RTC基本结构四、RTC操作注意事项五、RTC函数六、配置RTCMyRTC.c七、示例：实时时钟①、main.c②、MyRTC.c③、MyRTC.hRTC实时时钟一、RTC简介RTC（RealTimeClock）实时时钟RTC是一个独立的定时器，可为系统提供时钟和日历的功能RTC和时钟配置系统处于后备区域，系统复位时数据不清零，VDD（2.0~
Python新春烟花 Want595 pygame python 开发语言
目录系列文章写在前面技术需求完整代码下载代码代码分析1.程序初始化与显示设置2.烟花类(Firework)3.粒子类(Particle)4.痕迹类(Trail)5.烟花更新与显示6.主函数(fire)7.游戏循环8.总结注意事项写在后面系列文章序号直达链接爱心系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳
使用MoA(Mixture of Agents)混合智能体技术,结合多个开源大语言模型如Llama3、phi-3和Mistral,实现一个强大的AI智能体 fc&&fl 大模型实战应用人工智能语言模型自然语言处理
1.简介论文简介:论文提出了一种称为混合智能体(Mixture-of-Agents,MoA)的方法,利用多个大语言模型(LLM)的集体智慧来提高自然语言理解和生成任务的性能。MoA采用了分层结构,每一层包含多个LLM智能体。每个智能体都将前一层所有智能体的输出作为辅助信息来生成自己的回答。通过迭代地综合和优化回答,MoA可以充分利用不同LLM的独特优势。实验发现,即使其他模型提供的辅助回答质量较低
基于YOLOv5、YOLOv8和YOLOv10的自助售货机商品检测：深度学习实践与应用 2025年数学建模美赛 YOLO 深度学习人工智能目标跟踪目标检测
引言自助售货机已经成为现代零售和自动化销售领域的重要组成部分。在自助售货机中，商品的检测与管理至关重要。通过精准的商品检测技术，售货机可以在商品售出后自动更新库存，并提供准确的商品信息反馈。然而，在复杂的环境下进行商品检测是一个具有挑战性的问题，尤其是在商品种类繁多、摆放方式多样以及光照条件变化较大的情况下。近年来，基于深度学习的目标检测算法，特别是YOLO（YouOnlyLookOnce）系列模
第15章：Python TDD应对货币类开发变化（二） Tester_孙大壮测试驱动开发驱动开发
写在前面这本书是我们老板推荐过的，我在《价值心法》的推荐书单里也看到了它。用了一段时间Cursor软件后，我突然思考，对于测试开发工程师来说，什么才更有价值呢？如何让AI工具更好地辅助自己写代码，或许优质的单元测试是一个切入点。就我个人而言，这本书确实很有帮助。第一次读的时候，很多细节我都不太懂，但将书中内容应用到工作中后，我受益匪浅。比如面对一些让人抓狂的代码设计时，书里的方法能让我逐步深入理解
第2章：Python TDD构建Dollar类基础 Tester_孙大壮测试驱动开发 python
写在前面这本书是我们老板推荐过的，我在《价值心法》的推荐书单里也看到了它。用了一段时间Cursor软件后，我突然思考，对于测试开发工程师来说，什么才更有价值呢？如何让AI工具更好地辅助自己写代码，或许优质的单元测试是一个切入点。就我个人而言，这本书确实很有帮助。第一次读的时候，很多细节我都不太懂，但将书中内容应用到工作中后，我受益匪浅。比如面对一些让人抓狂的代码设计时，书里的方法能让我逐步深入理解
【分类】【损失函数】处理类别不平衡：CEFL 和 CEFL2 损失函数的实现与应用丶2136 AI 分类人工智能损失函数
引言在深度学习中的分类问题中，类别不平衡问题是常见的挑战之一。尤其在面部表情分类任务中，不同表情类别的样本数量可能差异较大，比如“开心”表情的样本远远多于“生气”表情。面对这种情况，普通的交叉熵损失函数容易导致模型过拟合到大类样本，忽略少数类样本。为了有效解决类别不平衡问题，Class-balancedExponentialFocalLoss(CEFL)和Class-balancedExponen
VSCode 配置python虚拟环境（激活环境细节）_vscode python conda虚拟环境(1) 2401_83817171 程序员 vscode python conda
AnacondaPrompt常用命令：1.查看存在的环境：condainfo-e2.创建新环境：condacreate-n环境名python=（python的版本号）3.切换到某个环境：condaactivate环境名4.查看环境中已安装的包：condalist5.在环境中安装包：pipinstall包名6.删除包:pipunstall包名7.删除环境：condaenvremove-n环境名下载库
使用QT+OpenCV+C++完成一个简单的图像处理工具 17´ 机器视觉 Qt c++qt opencv c++图像处理
目录前言初始化UI界面qss样式表优化界面QImage和Mat的类型转换按钮功能实现读取图像处理图像保存图像最终效果前言本项目在QtCreator中编写，使用qmake来配置OpenCV库，具体配置方法请看这篇文章从0到机器视觉工程师（六）:配置OpenCV和Qt环境-CSDN博客，UI界面使用代码的形式书写。接下来，让我们一起来完成这个项目吧。初始化UI界面代码boolMainWindow::I
Mysql8 MHA 不吃稻米的熊 mysql 数据库 mysql 服务器
MySQL高可用架构之MHA简介：1、MHA简介MHA介绍MHA（MasterHighAvailability）目前在MySQL高可用方面是一个相对成熟的解决方案，它由日本DeNA公司youshimaton（现就职于Facebook公司）开发，是一套优秀的作为MySQL高可用性环境下故障切换和主从提升的高可用软件。在MySQL故障切换过程中，MHA能做到在0~30秒之内自动完成数据库的故障切换操作
数据迁移丨借助 AI 从 PostgreSQL 到 GreatSQL 数据库mysql
数据迁移丨借助AI从PostgreSQL到GreatSQL本文将介绍如何从PostgreSQL到GreatSQL的数据迁移，并运用AI协助迁移更加方便。迁移的方式有很多，例如：pg_dump：导出SQL文件，修改后导入GreatSQL数据库。COPY：导出txt文本文件，导入GreatSQL数据库。pg2mysql：从PostgreSQL迁移到MySQL/GreatSQL工具。GreatDTS：商
Univer Go 推出 AI 辅助编写 Univer API 功能
背景在扩展Univer应用时，使用UniverAPI可能会让很多开发者感到挑战，尤其是对于不熟悉API的开发者来说。传统上，我们需要频繁查阅官方文档，才能了解如何正确使用API。为了简化开发过程，并提高开发效率，UniverGo推出了AI辅助编写UniverAPI的功能，帮助开发者快速生成高质量的代码。只需下载最新版的UniverGo客户端，您就能免费体验这一全新能力。这项功能利用先进的AI技术，
云原生和“可移植性”到底意味着什么
虽然上云，拥抱云计算已经成为当今几乎所有企业的必走之路，但对于“在云原生环境中进行开发”和“依赖某些云供应商提供的，以平台为中心的工具”这两种做法，它们之间依然存在非常清晰的界限。所以你是否好奇，采用云原生方法到底能为业务带来哪些好处？该采用哪种云计算？在云中运行应用程序和工作负载，并不意味着就可以算得上一家云原生的公司。云原生应用程序应该可以在不同的云平台上运行，甚至可以通过混合模式在企业内部运
开年「荣誉三重奏」，融云斩获技术、产品、出海三项大奖！程序员
开年接连喜获大奖，融云服务再获认可——登榜CSDN“2024中国开发者影响力年度评选”、荣获InfoQ“2024年度优秀出海服务商”、人人都是产品经理“2024年度评选-产品技术创新突破奖”。2024年是AI应用元年，也是出海持续深化的一年。面对AI和出海这两大变量，开发者群体在国内应用市场增长空间狭小的现实下有了更趁手的工具和广阔的发力方向。融云作为以“一切为了开发者”为发展宗旨的通信云服务商，
低延迟更灵活，开发者怎能不爱分布式云
为了努力部署和管理复杂的数据密集型应用程序，从而满足客户不断变化的需求，我们需要一种方法让这些应用程序和工作负载更接近位于全球任意一个角落的客户。过去多年来，云计算满足了这种需求。不过这就够了吗？适合过去的东西，就一定适合将来吗？未必！根据重点关注开发者想法的研究公司SlashData的一项新研究，全球开发者正越来越多地将分布式云计算视为保障最佳客户体验的方法。根据Akamai的委托，这项名为“开
Mysql运维篇（五）部署MHA--主机环境配置努力的兜 mysql 运维数据库
一路走来，所有遇到的人，帮助过我的、伤害过我的都是朋友，没有一个是敌人。如有侵权，请留言，我及时删除！大佬博文https://www.cnblogs.com/gomysql/p/3675429.htmlMySQL高可用（MHA）-知乎一、MHA简介：MHA（MasterHighAvailability）目前在MySQL高可用方面是一个相对成熟的解决方案，它由日本DeNA公司youshimaton（
Ubuntu系统上安装Docker教程 goomind 软件安装教程 docker ubuntu 容器
文章目录前言一、Docker是什么？二、安装步骤结束语前言Docker是一种非常流行的容器化技术，可以帮助开发人员将应用程序和服务打包到容器中，实现跨平台的部署和运行。博主作为AI的科研人员，平时用的Linux发行版是Ubuntu，所以本文将介绍如何在Ubuntu系统上安装Docker，并配置Docker环境，以便在容器中运行应用程序和服务。无论是初学者还是有一定Docker使用经验的读者都能从中
相约深圳，个推与你共寻AI时代下的数据价值和数智增长机会运营产品经理
抓住AI风口，共探变革机遇。12月7日-8日，AI产品经理大会将在深圳召开。每日互动（个推）将在7日上午场带来《AI时代下的数据价值体现和数智增长机会》主题演讲，并在当天举办“数据驱动运营增长”专题闭门会。同时，在两天的会期中，个推在大会展区也将为现场观众带来数智化运营增长的实战案例与创新产品，助力各位产品官、运营官在AI产品飞速迭代的时代洞察发展趋势，稳抓增长曲线。本次产品经理大会聚焦AI时代的
LLama3.2-Vision + Gradio + 流式输出未来之星扣寄艾斯 llama vim
这里写自定义目录标题LLama-3.2-11B/90B-Vision-Instruct模型下载环境代码效果LLama-3.2-11B/90B-Vision-Instruct使用Gradio+流式输出+LLama3.2-Vision构建模型推理webdemo模型下载Huggingface：https://huggingface.co/meta-llama/Llama-3.2-11B-Vision-I
一款前端开源的，在线电子表格univer介绍
Univer是一款颠覆性的在线电子表格解决方案，为数据输入和协作带来了全新的方式。作为一款开源、免费的平台，Univer专注于在线电子表格管理，为用户提供了处理数据、创建动态报告和高效协作的无缝体验。具体可以看他们的官网univer.ai.Excel作为广受欢迎的电子表格软件，Univer的兼容性和功能性使其成为Excel爱好者的理想选择。用户可以体验到与Excel相关的功能，并且能够轻松使用带公
【NOIP普及组】三连击我就是南山 C++题目 #NOIP普及组算法
题目描述将1,2,…,91,2,…,9共99个数分成33组，分别组成33个三位数，且使这33个三位数构成1:2:31:2:3的比例，试求出所有满足条件的33个三位数。输入格式无输出格式若干行，每行33个数字。按照每行第11个数字升序排列。输入输出样例输入无输出192384576***...***（剩余部分不予展示）上代码代码#includeusingnamespacestd;intmain(){f
玩转云计算：教你在Akamai Linode上构建IT架构–准备工作
时至今日，选择以云计算方式来运维业务，已经成为大部分情况下的最优选。那么如果要从零开始开发一个新应用，并依托云平台来设计、开发、部害和远维，具体该从何处下手？这一系列文章将介绍如何基于AkamaiLinode平台实现这个目标。如果现在需要从零开始开发一个新应用，那么直接选择依托云平台来设计、开发、部署和运维，这无疑是最好的方式。不过到底该从何处下手？Akamai将通过一系列文章告诉大家，如何利用A
判断一个数组里面是否包含另外一个数组中的元素,包含返回true javascript
代码：//判断一个数组里面是否包含另外一个数组中的元素,包含返回truefunctioncontainsAnyValue(arr1,arr2){returnarr2.some((item)=>arr1.includes(item));};console.log(containsAnyValue(arr1,arr2))//trueconsole.log(containsAnyValue(arr1,a
交叉熵损失函数（Cross-Entropy Loss）我叫罗泽南深度学习人工智能
原理交叉熵损失函数是深度学习中分类问题常用的损失函数，特别适用于多分类问题。它通过度量预测分布与真实分布之间的差异，来衡量模型输出的准确性。交叉熵的数学公式交叉熵的定义如下：CrossEntroyLoss=−∑i=1Nyi⋅log(y^i)\begin{equation}CrossEntroyLoss=-\sum_{i=1}^{N}y_i\cdotlog(\hat{y}_i)\end{equati
什么是多模态机器学习：跨感知融合的智能前沿非凡暖阳人工智能神经网络
在人工智能的广阔天地里，多模态机器学习（MultimodalMachineLearning）作为一项前沿技术，正逐步解锁人机交互和信息理解的新境界。它超越了单一感官输入的限制，通过整合视觉、听觉、文本等多种数据类型，构建了一个更加丰富、立体的认知模型，为机器赋予了接近人类的综合感知与理解能力。本文将深入探讨多模态机器学习的定义、核心原理、关键技术、面临的挑战以及未来的应用前景，旨在为读者勾勒出这一
谷歌吹响反击号角：2025年Gemini用户目标5亿，AI大战一触即发！ that's boy 人工智能 chatgpt openai AI工具 AI编程 google gemini
人工智能领域的竞争日趋白热化，谷歌CEO桑达·皮采亲自下场，为GeminiAI定下了雄心勃勃的目标：到2025年底，用户突破5亿！面对ChatGPT的强势崛起，谷歌能否成功逆袭？本文将深入剖析谷歌的战略布局、Gemini的技术优势以及未来AI竞争的格局。谷歌的反击：5亿用户的雄心壮志在过去几年，OpenAI凭借ChatGPT的强大实力，几乎垄断了AI领域的聚光灯。谷歌虽然在AI技术研究方面一直处于
逆袭之路（11）——python网络爬虫：原理、应用、风险与应对策略凋零的蓝色玫瑰逆袭之路 php 开发语言 python
困厄铸剑心，逆袭展锋芒。寒苦凝壮志，腾跃绘华章。我要逆袭。目录一、引言二、网络爬虫的基本原理（一）网络请求与响应（二）网页解析（三）爬行策略三、网络爬虫的应用领域（一）搜索引擎（二）数据挖掘与分析（三）金融领域（四）学术研究（五）社交媒体监测四、网络爬虫带来的风险（一）法律风险（二）隐私风险（三）安全风险五、网络爬虫风险的应对策略（一）遵守法律法规（二）加强技术防护（三）提高道德意识六、结论一、引
AI大模型如何赋能电商行业，引领变革虞书欣的C 人工智能开发语言
•个性化推荐：利用机器学习算法分析用户的历史购买记录、浏览行为和喜好，生成个性化的产品推荐列表，提升用户的购买意愿和满意度。•优化用户体验：•智能搜索引擎：运用自然语言处理技术，优化搜索引擎，让用户能够通过自然语言进行搜索。•虚拟客服：通过聊天机器人和语音助手，提供24/7的客户支持，快速解答用户咨询。•图像识别：利用计算机视觉技术，用户可以通过拍照识别商品，快速找到相似商品或进行排版搭配推荐。•
什么是三高架构? java1234_小锋 java 架构 java 微服务
大家好，我是锋哥。今天分享关于【什么是三高架构?】面试题。希望对大家有帮助；什么是三高架构?1000道互联网大厂Java工程师精选面试题-Java资源分享网“三高架构”通常是指高可用性（HighAvailability）、高性能（HighPerformance）和高扩展性（HighScalability）架构。这三个特性是现代计算系统、尤其是在分布式系统和云计算架构中，设计和部署的关键目标。以下是
流量分析利器arkime的学习之路（二）---API接口胖哥王老师流量分析学习笔记网络协议学习 arkime API
前文回忆《流量分析利器arkime的学习之路（一）---安装部署》概述注意点Arkime对所有API调用都使用摘要身份验证，因此请确保在库或curl命令中启用摘要身份验证。学习如何进行API调用的最简单方法是打开浏览器的javascript控制台，观察ArkimeUI正在进行的调用，它使用所有相同的API。注意：许多API端点都需要一个数据库字段名称，这与您在搜索表达式中使用的名称不同。查看数据库
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI linux PHP android
╔-----------------------------------╗┆
zookeeper admin 笔记 braveCS zookeeper
Required Software 1) JDK>=1.6 2)推荐使用ensemble的ZooKeeper(至少3台)，并run on separate machines 3)在Yahoo!，zk配置在特定的RHEL boxes里，2个cpu，2G内存，80G硬盘数据和日志目录 1)数据目录里的文件是zk节点的持久化备份，包括快照和事务日
Spring配置多个连接池 easterfly spring
项目中需要同时连接多个数据库的时候，如何才能在需要用到哪个数据库就连接哪个数据库呢？ Spring中有关于dataSource的配置： <bean id="dataSource" class="com.mchange.v2.c3p0.ComboPooledDataSource" &nb
Mysql 171815164 mysql
例如，你想myuser使用mypassword从任何主机连接到mysql服务器的话。 GRANT ALL PRIVILEGES ON *.* TO 'myuser'@'%'IDENTIFIED BY 'mypassword' WI TH GRANT OPTION; 如果你想允许用户myuser从ip为192.168.1.6的主机连接到mysql服务器，并使用mypassword作
CommonDAO（公共/基础DAO） g21121 DAO
好久没有更新博客了，最近一段时间工作比较忙，所以请见谅，无论你是爱看呢还是爱看呢还是爱看呢，总之或许对你有些帮助。 DAO(Data Access Object)是一个数据访问（顾名思义就是与数据库打交道）接口，DAO一般在业
直言有讳永夜-极光感悟随笔
1.转载地址:http://blog.csdn.net/jasonblog/article/details/10813313 精华: “直言有讳”是阿里巴巴提倡的一种观念，而我在此之前并没有很深刻的认识。为什么呢？就好比是读书时候做阅读理解，我喜欢我自己的解读，并不喜欢老师给的意思。在这里也是。我自己坚持的原则是互相尊重，我觉得阿里巴巴很多价值观其实是基本的做人
安装CentOS 7 和Win 7后，Win7 引导丢失随便小屋 centos
一般安装双系统的顺序是先装Win7，然后在安装CentOS，这样CentOS可以引导WIN 7启动。但安装CentOS7后，却找不到Win7 的引导，稍微修改一点东西即可。一、首先具有root 的权限。即进入Terminal后输入命令su，然后输入密码即可二、利用vim编辑器打开/boot/grub2/grub.cfg文件进行修改 v
Oracle备份与恢复案例 aijuans oracle
Oracle备份与恢复案例一. 理解什么是数据库恢复当我们使用一个数据库时，总希望数据库的内容是可靠的、正确的，但由于计算机系统的故障（硬件故障、软件故障、网络故障、进程故障和系统故障）影响数据库系统的操作，影响数据库中数据的正确性，甚至破坏数据库，使数据库中全部或部分数据丢失。因此当发生上述故障后，希望能重构这个完整的数据库，该处理称为数据库恢复。恢复过程大致可以分为复原(Restore)与
JavaEE开源快速开发平台G4Studio v5.0发布無為子
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V5.0版本已经正式发布。访问G4Studio网站 http://www.g4it.org 2013-04-06 发布G4Studio_V5.0版本功能新增 (1). 新增了调用Oracle存储过程返回游标，并将游标映射为Java List集合对象的标
Oracle显示根据高考分数模拟录取百合不是茶 PL/SQL编程 oracle例子模拟高考录取学习交流
题目要求: 1,创建student表和result表 2,pl/sql对学生的成绩数据进行处理 3,处理的逻辑是根据每门专业课的最低分线和总分的最低分数线自动的将录取和落选 1,创建student表,和result表学生信息表; create table student( student_id number primary key,--学生id
优秀的领导与差劲的领导 bijian1013 领导管理团队
责任优秀的领导：优秀的领导总是对他所负责的项目担负起责任。如果项目不幸失败了，那么他知道该受责备的人是他自己，并且敢于承认错误。差劲的领导：差劲的领导觉得这不是他的问题，因此他会想方设法证明是他的团队不行，或是将责任归咎于团队中他不喜欢的那几个成员身上。努力工作优秀的领导：团队领导应该是团队成员的榜样。至少，他应该与团队中的其他成员一样努力工作。这仅仅因为他
js函数在浏览器下的兼容 Bill_chen jquery 浏览器 IE DWR ext
做前端开发的工程师，少不了要用FF进行测试，纯js函数在不同浏览器下，名称也可能不同。对于IE6和FF，取得下一结点的函数就不尽相同： IE6：node.nextSibling,对于FF是不能识别的； FF：node.nextElementSibling,对于IE是不能识别的；兼容解决方式：var Div = node.nextSibl
【JVM四】老年代垃圾回收：吞吐量垃圾收集器(Throughput GC) bit1129 垃圾回收
吞吐量与用户线程暂停时间衡量垃圾回收算法优劣的指标有两个：吞吐量越高，则算法越好暂停时间越短，则算法越好首先说明吞吐量和暂停时间的含义。垃圾回收时，JVM会启动几个特定的GC线程来完成垃圾回收的任务，这些GC线程与应用的用户线程产生竞争关系，共同竞争处理器资源以及CPU的执行时间。GC线程不会对用户带来的任何价值，因此，好的GC应该占
J2EE监听器和过滤器基础白糖_ J2EE
Servlet程序由Servlet，Filter和Listener组成，其中监听器用来监听Servlet容器上下文。监听器通常分三类：基于Servlet上下文的ServletContex监听，基于会话的HttpSession监听和基于请求的ServletRequest监听。 ServletContex监听器 ServletContex又叫application
博弈AngularJS讲义(16) - 提供者 boyitech js AngularJS api Angular Provider
Angular框架提供了强大的依赖注入机制，这一切都是有注入器(injector)完成. 注入器会自动实例化服务组件和符合Angular API规则的特殊对象，例如控制器，指令，过滤器动画等。那注入器怎么知道如何去创建这些特殊的对象呢？ Angular提供了5种方式让注入器创建对象，其中最基础的方式就是提供者(provider), 其余四种方式(Value, Fac
java-写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 bylijinnan java
public class CommonSubSequence { /** * 题目：写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 * 写一个版本算法复杂度O(N^2)和一个O(N) 。 * * O(N^2)：对于a中的每个字符，遍历b中的每个字符，如果相同，则拷贝到新字符串中。 * O(
sqlserver 2000 无法验证产品密钥 Chen.H sql windows SQL Server Microsoft
在 Service Pack 4 (SP 4), 是运行 Microsoft Windows Server 2003、 Microsoft Windows Storage Server 2003 或 Microsoft Windows 2000 服务器上您尝试安装 Microsoft SQL Server 2000 通过卷许可协议 (VLA) 媒体。这样做, 收到以下错误信息CD KEY的 SQ
[新概念武器]气象战争 comsci
气象战争的发动者必须是拥有发射深空航天器能力的国家或者组织.... 原因如下: 地球上的气候变化和大气层中的云层涡旋场有密切的关系,而维持一个在大气层某个层次
oracle 中 rollup、cube、grouping 使用详解 daizj oracle grouping rollup cube
oracle 中 rollup、cube、grouping 使用详解 -- 使用oracle 样例表演示转自namesliu -- 使用oracle 的样列库，演示 rollup, cube, grouping 的用法与使用场景 --- ROLLUP ，为了理解分组的成员数量，我增加了分组的计数 COUNT(SAL)
技术资料汇总分享 Dead_knight 技术资料汇总分享
本人汇总的技术资料，分享出来，希望对大家有用。 http://pan.baidu.com/s/1jGr56uE 资料主要包含： Workflow->工作流相关理论、框架(OSWorkflow、JBPM、Activiti、fireflow...) Security->java安全相关资料(SSL、SSO、SpringSecurity、Shiro、JAAS...) Ser
初一下学期难记忆单词背诵第一课 dcj3sjt126com english word
could 能够 minute 分钟 Tuesday 星期二 February 二月 eighteenth 第十八 listen 听 careful 小心的，仔细的 short 短的 heavy 重的 empty 空的 certainly 当然 carry 携带；搬运 tape 磁带 basket 蓝子 bottle 瓶 juice 汁，果汁 head 头；头部
截取视图的图片, 然后分享出去 dcj3sjt126com OS Objective-C
OS 7 has a new method that allows you to draw a view hierarchy into the current graphics context. This can be used to get an UIImage very fast. I implemented a category method on UIView to get the vi
MySql重置密码 fanxiaolong MySql重置密码
方法一: 在my.ini的[mysqld]字段加入： skip-grant-tables 重启mysql服务，这时的mysql不需要密码即可登录数据库然后进入mysql mysql>use mysql; mysql>更新 user set password=password('新密码') WHERE User='root'; mysq
Ehcache（03）——Ehcache中储存缓存的方式 234390216 ehcache MemoryStore DiskStore 存储驱除策略
Ehcache中储存缓存的方式目录 1 堆内存（MemoryStore） 1.1 指定可用内存 1.2 驱除策略 1.3 元素过期 2 &nbs
spring mvc中的@propertysource jackyrong spring mvc
在spring mvc中，在配置文件中的东西，可以在java代码中通过注解进行读取了： @PropertySource 在spring 3.1中开始引入比如有配置文件 config.properties mongodb.url=1.2.3.4 mongodb.db=hello 则代码中 @PropertySource(&
重学单例模式 lanqiu17 单例 Singleton 模式
最近在重新学习设计模式，感觉对模式理解更加深刻。觉得有必要记下来。第一个学的就是单例模式，单例模式估计是最好理解的模式了。它的作用就是防止外部创建实例，保证只有一个实例。单例模式的常用实现方式有两种，就人们熟知的饱汉式与饥汉式，具体就不多说了。这里说下其他的实现方式静态内部类方式: package test.pattern.singleton.statics; publ
.NET开源核心运行时，且行且珍惜 netcome java .net 开源
背景 2014年11月12日，ASP.NET之父、微软云计算与企业级产品工程部执行副总裁Scott Guthrie，在Connect全球开发者在线会议上宣布，微软将开源全部.NET核心运行时，并将.NET 扩展为可在 Linux 和 Mac OS 平台上运行。.NET核心运行时将基于MIT开源许可协议发布，其中将包括执行.NET代码所需的一切项目——CLR、JIT编译器、垃圾收集器（GC）和核心
使用oscahe缓存技术减少与数据库的频繁交互 Everyday都不同 Web 高并发 oscahe缓存
此前一直不知道缓存的具体实现，只知道是把数据存储在内存中，以便下次直接从内存中读取。对于缓存的使用也没有概念，觉得缓存技术是一个比较”神秘陌生“的领域。但最近要用到缓存技术，发现还是很有必要一探究竟的。缓存技术使用背景：一般来说，对于web项目，如果我们要什么数据直接jdbc查库好了，但是在遇到高并发的情形下，不可能每一次都是去查数据库，因为这样在高并发的情形下显得不太合理——
Spring+Mybatis 手动控制事务 toknowme mybatis
@Override public boolean testDelete(String jobCode) throws Exception { boolean flag = false; &nbs
菜鸟级的android程序员面试时候需要掌握的知识点 xp9802 android
熟悉Android开发架构和API调用掌握APP适应不同型号手机屏幕开发技巧熟悉Android下的数据存储熟练Android Debug Bridge Tool 熟练Eclipse/ADT及相关工具熟悉Android框架原理及Activity生命周期熟练进行Android UI布局熟练使用SQLite数据库；熟悉Android下网络通信机制，S