机器学习算法那些事

炼丹宝典 | 深度学习调参tricks

作者 | 山竹小果原文 | 文末『阅读原文』处整理 | NewBeeNLP

寻找合适的学习率(learning rate)

学习率是一个非常非常重要的超参数，这个参数呢，面对不同规模、不同batch-size、不同优化方式、不同数据集，其最合适的值都是不确定的，我们无法光凭经验来准确地确定lr的值，我们唯一可以做的，就是在训练中不断寻找最合适当前状态的学习率。

比如下图利用fastai中的lr_find()函数寻找合适的学习率，根据下方的学习率-损失曲线得到此时合适的学习率为1e-2。

推荐一篇fastai首席设计师「Sylvain Gugger」的一篇博客：How Do You Find A Good Learning Rate^[1]

以及相关的论文Cyclical Learning Rates for Training Neural Networks^[2]。

learning-rate与batch-size的关系

一般来说，越大的batch-size使用越大的学习率。

原理很简单，越大的batch-size意味着我们学习的时候，收敛方向的confidence越大，我们前进的方向更加坚定，而小的batch-size则显得比较杂乱，毫无规律性，因为相比批次大的时候，批次小的情况下无法照顾到更多的情况，所以需要小的学习率来保证不至于出错。

可以看下图损失Loss与学习率Lr的关系：

在显存足够的条件下，最好采用较大的batch-size进行训练，找到合适的学习率后，可以加快收敛速度。

另外，较大的batch-size可以避免batch normalization出现的一些小问题，参考如下Pytorch库Issue^[3]

权重初始化

权重初始化相比于其他的trick来说在平常使用并不是很频繁。

因为大部分人使用的模型都是预训练模型，使用的权重都是在大型数据集上训练好的模型，当然不需要自己去初始化权重了。只有没有预训练模型的领域会自己初始化权重，或者在模型中去初始化神经网络最后那几个全连接层的权重。

常用的权重初始化算法是「kaiming_normal」或者「xavier_normal」。

dropout

dropout是指在深度学习网络的训练过程中，对于神经网络单元，按照一定的概率将其暂时从网络中丢弃。注意是「暂时」，对于随机梯度下降来说，由于是随机丢弃，故而每一个mini-batch都在训练不同的网络。

Dropout类似于bagging ensemble减少variance。也就是投通过投票来减少可变性。通常我们在全连接层部分使用dropout，在卷积层则不使用。但「dropout」并不适合所有的情况，不要无脑上Dropout。

Dropout一般适合于全连接层部分，而卷积层由于其参数并不是很多，所以不需要dropout，加上的话对模型的泛化能力并没有太大的影响。

我们一般在网络的最开始和结束的时候使用全连接层，而hidden layers则是网络中的卷积层。所以一般情况，在全连接层部分，采用较大概率的dropout而在卷积层采用低概率或者不采用dropout。

数据集处理

主要有「数据筛选」 以及 「数据增强」

fastai中的图像增强技术为什么相对比较好^[9]

难例挖掘 hard-negative-mining

分析模型难以预测正确的样本，给出针对性方法。

多模型融合

Ensemble是论文刷结果的终极核武器,深度学习中一般有以下几种方式

同样的参数,不同的初始化方式
不同的参数,通过cross-validation,选取最好的几组
同样的参数,模型训练的不同阶段，即不同迭代次数的模型。
不同的模型,进行线性融合. 例如RNN和传统模型.

提高模型性能和鲁棒性大法：probs融合和投票法。

假设这里有model 1, model 2, model 3，可以这样融合：

1. model1 probs + model2 probs + model3 probs ==> final label

2. model1 label , model2 label , model3 label ==> voting ==> final label

3. model1_1 probs + ... + model1_n probs ==> mode1 label, model2 label与model3获取的label方式与1相同 ==> voting ==> final label

第三个方式的启发来源于，如果一个model的随机种子没有固定，多次预测得到的结果可能不同。

以上方式的效果要根据label个数，数据集规模等特征具体问题具体分析，表现可能不同，方式无非是probs融合和投票法的单独使用or结合。

差分学习率与迁移学习

首先说下迁移学习，迁移学习是一种很常见的深度学习技巧，我们利用很多预训练的经典模型直接去训练我们自己的任务。虽然说领域不同，但是在学习权重的广度方面，两个任务之间还是有联系的。

由上图，我们拿来「model A」训练好的模型权重去训练我们自己的模型权重(「Model B」)，其中，modelA可能是ImageNet的预训练权重，而ModelB则是我们自己想要用来识别猫和狗的预训练权重。

那么差分学习率和迁移学习有什么关系呢？我们直接拿来其他任务的训练权重，在进行optimize的时候，如何选择适当的学习率是一个很重要的问题。

一般地，我们设计的神经网络(如下图)一般分为三个部分，输入层，隐含层和输出层，随着层数的增加，神经网络学习到的特征越抽象。因此，下图中的卷积层和全连接层的学习率也应该设置的不一样，一般来说，卷积层设置的学习率应该更低一些，而全连接层的学习率可以适当提高。

这就是差分学习率的意思，在不同的层设置不同的学习率，可以提高神经网络的训练效果，具体的介绍可以查看下方的连接。

上面的示例图来自：towardsdatascience.com/transfer-le…^[10]

余弦退火(cosine annealing)和热重启的随机梯度下降

「余弦」就是类似于余弦函数的曲线，「退火」就是下降，「余弦退火」就是学习率类似余弦函数慢慢下降。

「热重启」就是在学习的过程中，「学习率」慢慢下降然后突然再「回弹」(重启)然后继续慢慢下降。

两个结合起来就是下方的学习率变化图：

更多详细的介绍可以查看知乎机器学习算法如何调参？这里有一份神经网络学习速率设置指南^[11]
以及相关论文SGDR: Stochastic Gradient Descent with Warm Restarts^[12]

尝试过拟合一个小数据集

这是一个经典的小trick了，但是很多人并不这样做，可以尝试一下。

关闭正则化/随机失活/数据扩充，使用训练集的一小部分，让神经网络训练几个周期。确保可以实现零损失，如果没有，那么很可能什么地方出错了。

多尺度训练

多尺度训练是一种「直接有效」的方法，通过输入不同尺度的图像数据集，因为神经网络卷积池化的特殊性，这样可以让神经网络充分地学习不同分辨率下图像的特征，可以提高机器学习的性能。

也可以用来处理过拟合效应，在图像数据集不是特别充足的情况下，可以先训练小尺寸图像，然后增大尺寸并再次训练相同模型，这样的思想在Yolo-v2的论文中也提到过：

需要注意的是：多尺度训练并不是适合所有的深度学习应用，多尺度训练可以算是特殊的数据增强方法，在图像大小这一块做了调整。如果有可能最好利用可视化代码将多尺度后的图像近距离观察一下，「看看多尺度会对图像的整体信息有没有影响」，如果对图像信息有影响的话，这样直接训练的话会误导算法导致得不到应有的结果。

Cross Validation 交叉验证

在李航的统计学方法中说到，交叉验证往往是对实际应用中「数据不充足」而采用的，基本目的就是重复使用数据。在平常中我们将所有的数据分为训练集和验证集就已经是简单的交叉验证了，可以称为1折交叉验证。「注意，交叉验证和测试集没关系，测试集是用来衡量我们的算法标准的，不参与到交叉验证中来。」

交叉验证只针对训练集和验证集。

交叉验证是Kaggle比赛中特别推崇的一种技巧，我们经常使用的是5-折(5-fold)交叉验证，将训练集分成5份，随机挑一份做验证集其余为训练集，循环5次，这种比较常见计算量也不是很大。还有一种叫做leave-one-out cross validation留一交叉验证，这种交叉验证就是n-折交叉，n表示数据集的容量，这种方法只适合数据量比较小的情况，计算量非常大的情况很少用到这种方法。

吴恩达有一节课The nuts and bolts of building applications using deep learning^[13]中也提到了。

优化算法

按理说不同的优化算法适合于不同的任务，不过我们大多数采用的优化算法还是是adam和SGD+monmentum。

Adam 可以解决一堆奇奇怪怪的问题（有时 loss 降不下去，换 Adam 瞬间就好了），也可以带来一堆奇奇怪怪的问题（比如单词词频差异很大，当前 batch 没有的单词的词向量也被更新；再比如Adam和L2正则结合产生的复杂效果）。用的时候要胆大心细，万一遇到问题找各种魔改 Adam（比如 MaskedAdam^[14], AdamW 啥的）抢救。

但看一些博客说adam的相比SGD，收敛快，但泛化能力差，更优结果似乎需要精调SGD。

adam,adadelta等, 在小数据上,我这里实验的效果不如sgd, sgd收敛速度会慢一些，但是最终收敛后的结果，一般都比较好。

如果使用sgd的话,可以选择从1.0或者0.1的学习率开始,隔一段时间,在验证集上检查一下,如果cost没有下降,就对学习率减半. 我看过很多论文都这么搞,我自己实验的结果也很好. 当然,也可以先用ada系列先跑,最后快收敛的时候,更换成sgd继续训练.同样也会有提升.据说adadelta一般在分类问题上效果比较好，adam在生成问题上效果比较好。

adam收敛虽快但是得到的解往往没有sgd+momentum得到的解更好，如果不考虑时间成本的话还是用sgd吧。

adam是不需要特别调lr，sgd要多花点时间调lr和initial weights。

数据预处理方式

zero-center ,这个挺常用的.

PCA whitening,这个用的比较少.

训练技巧

要做梯度归一化,即算出来的梯度除以minibatch size
clip c(梯度裁剪): 限制最大梯度,其实是value = sqrt(w1^2+w2^2….),如果value超过了阈值,就算一个衰减系系数,让value的值等于阈值: 5,10,15
dropout对小数据防止过拟合有很好的效果,值一般设为0.5
- 小数据上dropout+sgd在我的大部分实验中，效果提升都非常明显.因此可能的话，建议一定要尝试一下。
dropout的位置比较有讲究, 对于RNN,建议放到输入->RNN与RNN->输出的位置.关于RNN如何用dropout,可以参考这篇论文:http://arxiv.org/abs/1409.2329^[15]
除了gate之类的地方,需要把输出限制成0-1之外,尽量不要用sigmoid,可以用tanh或者relu之类的激活函数.
- sigmoid函数在-4到4的区间里，才有较大的梯度。之外的区间，梯度接近0，很容易造成梯度消失问题。
- 输入0均值，sigmoid函数的输出不是0均值的。
rnn的dim和embdding size,一般从128上下开始调整. batch size,一般从128左右开始调整. batch size合适最重要,并不是越大越好.
word2vec初始化,在小数据上,不仅可以有效提高收敛速度,也可以可以提高结果.
尽量对数据做shuffle
LSTM 的forget gate的bias,用1.0或者更大的值做初始化,可以取得更好的结果,来自这篇论文:http://jmlr.org/proceedings/papers/v37/jozefowicz15.pdf^[16], 我这里实验设成1.0,可以提高收敛速度.实际使用中,不同的任务,可能需要尝试不同的值.
Batch Normalization据说可以提升效果，参考论文：Accelerating Deep Network Training by Reducing Internal Covariate Shift
如果你的模型包含全连接层（MLP），并且输入和输出大小一样，可以考虑将MLP替换成Highway Network,我尝试对结果有一点提升，建议作为最后提升模型的手段，原理很简单，就是给输出加了一个gate来控制信息的流动，详细介绍请参考论文: http://arxiv.org/abs/1505.00387^[17]
来自@张馨宇的技巧：一轮加正则，一轮不加正则，反复进行。
在数据集很大的情况下，一上来就跑全量数据。建议先用 1/100、1/10 的数据跑一跑，对模型性能和训练时间有个底，外推一下全量数据到底需要跑多久。在没有足够的信心前不做大规模实验。
subword 总是会很稳定地涨点，只管用就对了。
GPU 上报错时尽量放在 CPU 上重跑，错误信息更友好。例如 GPU 报 "ERROR:tensorflow:Model diverged with loss = NaN" 其实很有可能是输入 ID 超出了 softmax 词表的范围。
在确定初始学习率的时候，从一个很小的值（例如 1e-7）开始，然后每一步指数增大学习率（例如扩大1.05 倍）进行训练。训练几百步应该能观察到损失函数随训练步数呈对勾形，选择损失下降最快那一段的学习率即可。
补充一个rnn trick，仍然是不考虑时间成本的情况下，batch size=1是一个很不错的regularizer, 起码在某些task上,这也有可能是很多人无法复现alex graves实验结果的原因之一，因为他总是把batch size设成1。
注意实验的可复现性和一致性，注意养成良好的实验记录习惯 ==> 不然如何分析出实验结论。
超参上，learning rate 最重要，推荐了解 cosine learning rate 和 cyclic learning rate，其次是 batchsize 和 weight decay。当你的模型还不错的时候，可以试着做数据增广和改损失函数锦上添花了。

参考：

关于训练神经网路的诸多技巧Tricks$完全总结版$^[18]
你有哪些deep learning（rnn、cnn）调参的经验？^[19]
Bag of Tricks for Image Classification with Convolutional Neural Networks^[20]，trick 合集 1。
Must Know Tips/Tricks in Deep Neural Networks^[21]，trick 合集 2。
33条神经网络训练秘技^[22]，trick 合集 3。
26秒单GPU训练CIFAR10^[23]，工程实践。
Batch Normalization^[24]，虽然玄学，但是养活了很多炼丹师。
Searching for Activation Functions^[25]，swish 激活函数。

本文参考资料

[1]

How Do You Find A Good Learning Rate: https://sgugger.github.io/how-do-you-find-a-good-learning-rate.html

[2]

Cyclical Learning Rates for Training Neural Networks: https://arxiv.org/abs/1506.01186

[3]

Pytorch库Issue: https://github.com/pytorch/pytorch/issues/4534

[4]

Delving deep into rectifiers: Surpassing human-level performance on ImageNet classification: https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/He_Delving_Deep_into_ICCV_2015_paper.pdf

[5]

Understanding the difficulty of training deep feedforward neural networks: http://proceedings.mlr.press/v9/glorot10a.html

[6]

Xavier初始化论文: http://proceedings.mlr.press/v9/glorot10a/glorot10a.pdf

[7]

He初始化论文: https://arxiv.org/abs/1502.01852

[8]

https://arxiv.org/abs/1312.6120: https://link.zhihu.com/?target=https%3A//arxiv.org/abs/1312.6120

[9]

fastai中的图像增强技术为什么相对比较好: https://oldpan.me/archives/fastai-1-0-quick-study

[10]

towardsdatascience.com/transfer-le…: https://towardsdatascience.com/transfer-learning-using-differential-learning-rates-638455797f00

[11]

机器学习算法如何调参？这里有一份神经网络学习速率设置指南: https://zhuanlan.zhihu.com/p/34236769

[12]

SGDR: Stochastic Gradient Descent with Warm Restarts: https://arxiv.org/abs/1608.03983

[13]

The nuts and bolts of building applications using deep learning: https://www.youtube.com/watch?v=F1ka6a13S9I

[14]

MaskedAdam: https://www.zhihu.com/question/265357659/answer/580469438

[15]

http://arxiv.org/abs/1409.2329: https://link.zhihu.com/?target=http%3A//arxiv.org/abs/1409.2329

[16]

http://jmlr.org/proceedings/papers/v37/jozefowicz15.pdf: https://link.zhihu.com/?target=http%3A//jmlr.org/proceedings/papers/v37/jozefowicz15.pdf

[17]

http://arxiv.org/abs/1505.00387: https://link.zhihu.com/?target=http%3A//arxiv.org/abs/1505.00387

[18]

关于训练神经网路的诸多技巧Tricks(完全总结版): https://juejin.im/post/5be5b0d7e51d4543b365da51

[19]

你有哪些deep learning（rnn、cnn）调参的经验？: https://www.zhihu.com/question/41631631

[20]

Bag of Tricks for Image Classification with Convolutional Neural Networks: https://link.zhihu.com/?target=https%3A//arxiv.org/abs/1812.01187

[21]

Must Know Tips/Tricks in Deep Neural Networks: https://link.zhihu.com/?target=http%3A//lamda.nju.edu.cn/weixs/project/CNNTricks/CNNTricks.html

[22]

33条神经网络训练秘技: https://zhuanlan.zhihu.com/p/63841572

[23]

26秒单GPU训练CIFAR10: https://zhuanlan.zhihu.com/p/79020733

[24]

Batch Normalization: https://link.zhihu.com/?target=https%3A//arxiv.org/abs/1502.03167%3Fcontext%3Dcs

[25]

Searching for Activation Functions: https://link.zhihu.com/?target=https%3A//arxiv.org/abs/1710.05941

- END -

Python从0到100（六十八）：Python OpenCV-图像边缘检测及图像融合是Dream呀 opencv python 计算机视觉
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
LSTM：解决梯度消失问题 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍在深度学习领域，循环神经网络（RNN）是一种处理序列数据的强大工具。然而，RNN在处理长序列时面临着梯度消失的问题。为了解决这个问题，Hochreiter和Schmidhuber于1997年提出了长短期记忆（LSTM）网络。本文将深入探讨LSTM如何解决梯度消失问题。2.核心概念与联系2.1梯度消失问题在深度神经网络中，梯度消失是一个常见的问题。当网络的层数增加时，反向传播的梯度会随着
基于深度学习的SSD口罩识别项目完整资料版（视频教程+课件+源码+数据） AI方案2025 深度学习人工智能
基于深度学习的SSD口罩识别项目完整资料版，包含视频教程、PPT课件和源码.01项目介绍.mp402SSD算法原理回顾.mp403数据集收集.mp404自定义数据集.mp405生成anchors.mp406展示anchors.mp407计算iou值.mp408计算target.mp409定义模型.mp410模型训练.mp411预测和总结.mp412ssd生成anchor源码编写.mp413计算of
[c语言日寄] 指针学习情况自检题目 siy2333 c语言日寄 c语言学习开发语言笔记
【作者主页】siy2333【专栏介绍】⌈c语言日寄⌋：这是一个专注于C语言刷题的专栏，精选题目，搭配详细题解、拓展算法。从基础语法到复杂算法，题目涉及的知识点全面覆盖，助力你系统提升。无论你是初学者，还是进阶开发者，这里都能满足你的需求！【食用方法】1.根据题目自行尝试2.查看基础思路完善题解3.学习拓展算法【Gitee链接】资源保存在我的Gitee仓库：https://gitee.com/siy
补题蓝桥杯14届JavaB组第4题大萌神Nagato 蓝桥杯
算法：动态规划需要两个一维数组来进行dp一个用来记录到当前位置的最短时间，另一个用来记录到达当前位置传送门的最短时间到达传送门的时间需要进行判断，如果上一次传送到达传送门，需要判断上一次传送到这的位置在当前传送门的上方，还是下方publicclassMain{publicstaticvoidmain(String[]args){Scannersc=newScanner(System.in);int
ANTs - Registration整理努力减肥的小胖子5 图像配准 registration
文章目录RegistrationANTsR函数：antsRegistrationANTSandantsRegistrationShrinkfactorsSmoothingAffineregistrationAnatomyofanantsRegistrationcall介绍:配准算法：迭代：预处理选项注册阶段Registrationants.registration(fixed,moving,typ
python路线规划_利用Python实现A*算法路径规划 weixin_39664962 python路线规划
一、A*算法介绍A*算法实际上是一种启发式算法，也是路径规划中应用最为普遍的算法之一。A*算法并不是只用于路径规划，同时，路径规划中也不只有A*一种启发式方法。A*算法相比其他路径规划算法，如遗传算法、蚁群算法等，其算法过程较为简单、易于理解，运行速度快。而且，应用A*的路径规划结果也还不错。因此，总体来说，A*算法应该是性价比较高的一种路径规划算法。A*算法的基本思想是，对于当前的搜索点CNod
A*路径规划算法的Python实现我太不严肃了算法 python
A*路径规划算法的Python实现写在前面Python代码写在前面今天因为要在Python上实现机器人建图导航的仿真，写了A*算法的Python实现，过来分享一下。关于A*算法的原理网上有很多，这里就不再赘述了，直接贴代码。open_list和close_list都通过dict实现，因为dict底层是hash_map，代码整体效率还行。Python代码fromcopyimportdeepcopyi
解锁机器学习核心算法 | K -近邻算法：机器学习的神奇钥匙紫雾凌寒 AI 炼金厂 #机器学习算法算法机器学习近邻算法 KNN k-近邻算法 python scikit-learn
一、引言今天我们继续学习机器学习核心算法——K-近邻（K-NearestNeighbors，简称KNN）算法。它就像是一位经验丰富的“老江湖”，以其简单而又强大的方式，在众多机器学习任务中占据着不可或缺的地位。K-近邻算法，作为机器学习中的一种基本分类与回归方法，以其独特的“基于邻居投票”策略而闻名。它的核心思想简单易懂，就如同我们在生活中判断一个人可能的兴趣爱好时，会参考他身边最常接触的朋友们的
各类路径规划算法python 代码许卿768503 python 算法开发语言
一、人工势场法#初始化参数设置importnumpyasnpimportmatplotlib.pyplotaspltimportcopyfromcelluloidimportCamera#保存动图时用，pipinstallcelluloid%matplotlibqt5##初始化车的参数d=3.5#道路标准宽度W=1.8#汽车宽度L=4.7#车长P0=np.array([0,-d/2,1,1])#车
【贪心+二分+双指针】P9559 [SDCPC2023] Fast and Fat|普及软件架构师何志丹 #洛谷普及 c++洛谷算法贪心二分查找双指针队员
本文涉及知识点本博文代码打包下载C++贪心C++二分查找C++算法：滑动窗口及双指针总结[SDCPC2023]FastandFat题面翻译【题目描述】您正在参加一场团体越野比赛。您的队伍共有nnn名队员，其中第iii名队员的速度为viv_ivi，体重为wiw_iwi。比赛允许每名队员独立行动，也允许一名队员背着另一名队员一起行动。当队员iii背着队员jjj时，如果队员iii的体重大于等于队员jjj
支持向量机（Support Vector Machine，SVM）详细解释（带示例）浪九天人工智能理论支持向量机算法机器学习
目录基本概念线性可分情况线性不可分情况工作原理示例Python案例代码解释基本概念支持向量机是一种有监督的机器学习算法，可用于分类和回归任务。在分类问题中，SVM的目标是找到一个最优的超平面，将不同类别的样本分隔开来，并且使得两类样本到该超平面的间隔最大。这个超平面被称为最大间隔超平面，而那些离超平面最近的样本点被称为支持向量，它们决定了超平面的位置和方向。线性可分情况当数据是线性可分的，即存在一
中国信通院“护证计划”正式启动，合合信息入选首批技术支撑单位大模型人工智能算法
随着人工智能技术的飞速发展，AI照“骗”在各个行业泛滥成灾，数字图像的真实性面临前所未有的挑战。近日，由中国互联网协会中小企业发展工委会主办的“卓信大数据计划”2025年度会议在京召开。本次会议上，中国信通院、中国互联网协会、中国图象图形学学会以及合合信息、蚂蚁安全实验室等多家企业代表共同启动了以AI守护AI，面向可信证照的专项行动“护证计划”，合合信息成功入选“护证计划”首批技术支撑单位。图说：
Nginx系列05（负载均衡、动静分离）浪九天 Nginx系列 nginx 运维开发持续部署
目录Nginx负载均衡Nginx动静分离Nginx负载均衡概念：负载均衡是一种将网络流量分摊到多个后端服务器（节点）上的技术，以提高系统的可用性、性能和可扩展性。通过负载均衡，Nginx可以根据一定的算法将客户端请求分发到不同的后端服务器，避免单个服务器因负载过高而出现性能瓶颈。原理：Nginx通过upstream模块定义一组后端服务器，然后在server块或location块中使用proxy_p
【Stable Diffusion】AnimatedDiff--AI动画插件使用技巧分享；文生视频、图生视频、AI生成视频工具；乘凉~ 人工智能应用 stable diffusion 人工智能音视频
本专栏主要记录人工智能的应用方面的内容，包括chatGPT、DeepSeek、AI绘画等等；在当今AI的热潮下，不学习AI，就要被AI淘汰；所以欢迎小伙伴加入本专栏和我一起探索AI的应用，通过AI来帮助自己提升生产力；本文的目标就是让每一个读者，都能学会并掌握AnimateDiff的使用；成功用它来生成你想要的视频。AnimateDiff是StableDiffusion的一个插件，借助它，你可以实
清华大学《DeepSeek与AI幻觉》（无套路免费分享） xiecoding.cn 人工智能 deepseek deepseek教程 deepseek与AI幻觉 deepseek清华教程
随着人工智能技术的飞速发展，以DeepSeek为代表的国产大模型正逐渐成为各行各业的重要工具。然而，AI在生成内容时常常会出现“幻觉”——即生成与事实不符、逻辑断裂或脱离上下文的内容。清华大学新闻与传播学院与人工智能学院联合推出的这篇教程《DeepSeek与AI幻觉》，系统性地讲解了AI幻觉的成因、评测方法及应对策略，旨在帮助用户更好地理解和使用AI工具。《DeepSeek与AI幻觉》：https
基于Python实现的【机器学习】小项目教程案例 xinxiyinhe 人工智能 github python 机器学习
以下是一个基于Python实现的【机器学习】小项目教程案例，结合的经典案例与最佳实践，涵盖数据预处理、模型训练与评估全流程，并附详细代码说明与结果分析：案例1：鸢尾花分类（SVM算法）数据集：IrisDataset（含150个样本，4个特征，3个类别）目标：根据花瓣与萼片长度预测鸢尾花种类步骤：环境准备：安装scikit-learn、pandas、matplotlibpipinstallsciki
【C++笔试强训】如何成为算法糕手Day11 循环渐进Forward 笔试强训Day48 c++开发语言算法动态规划牛客
学习编程就得循环渐进，扎实基础，勿在浮沙筑高台循环渐进Forward-CSDN博客目录游游的水果大礼包思路代码实现：买卖股票的最好时机(二)思路：代码实现：倒置字符串思路：代码实现：游游的水果大礼包牛客网做题链接：游游的水果大礼包(nowcoder.com)思路面对这样一个问题——给定一定数量的苹果和桃子，以及两种不同价值组合方式的礼包（一号礼包和二号礼包），目标是最大化所能组成的礼包总价值。这个
中值滤波结合快速排序算法优化传感器数据预处理 Gui林排序算法算法
一、算法核心逻辑目标：在嵌入式系统中，通过快速排序的“部分排序”特性，优化中值滤波的计算效率。适用场景：实时传感器数据处理（如红外、超声波、加速度计等），窗口大小N=5（可根据需求调整）。优势：时间复杂度从O(N²)（冒泡排序）优化至O(N)（快速排序部分排序）。内存占用低，适合资源受限的嵌入式设备（如STM32）。二、完整代码与注释#include//定义滑动窗口大小（N=5）#defineWI
钉钉宜搭智能车辆管理系统：AIoT技术驱动的全场景解决方案（价值体现版）阿三0812 人工智能
一、系统核心架构通过“智能硬件+AI中台+低代码平台”三层架构，构建覆盖车辆全生命周期的数字化管理系统：感知层：车载OBD、GPS定位器、NFC识别器等设备实时采集车辆位置、油耗、驾驶行为等20+类数据分析层：AI算法引擎处理亿级数据流，实现智能调度、风险预警、能效分析等核心功能应用层：钉钉宜搭低代码平台快速搭建审批流、数据看板等业务模块，支持多端协同二、核心功能解析1.公务车辆智能化管理智能硬件
上海第二批49家创新型企业总部名单出炉，合合信息入选人工智能算法大数据大模型
创新型企业是上海现代化产业体系的重要组成部分，是上海高质量发展的活力所在。近期，上海为新认定的第二批49家创新型企业总部进行授牌，着力为创新型企业在沪发展壮大营造良好环境。此次获授牌的企业总部涵盖集成电路、生物医药、人工智能、数字经济、战新综合等重点产业领域，上海合合信息科技股份有限公司（股票代码：688615.SH）成功入选第二批49家创新型企业总部名单，系人工智能领域获奖企业之一。图说：上海市
深入详解人工智能机器学习：强化学习猿享天开人工智能基础知识学习人工智能机器学习强化学习
目录强化学习概述强化学习的基本概念定义关键组件强化学习过程常用算法应用示例示例代码代码解释应用场景强化学习核心概念和底层原理核心概念底层原理总结强化学习概述强化学习（ReinforcementLearning,RL）是机器学习中的一个重要领域，其核心目标是通过与环境的交互学习如何采取行动以最大化累积奖励。与监督学习不同的是，强化学习不依赖于给定的输入输出对，而是通过试探和反馈不断改进决策策略。强化
自学c++之stl 拾萤 c++开发语言
stl六大组件，容器、算法、迭代器、仿函数、适配器、空间配置器容器各种数据结构，例如：vector、list、deque、set、mapvctor#include#include#includeusingnamespacestd;voidmyprint(intval){coutv;//相当于数组//插入数据v.push_back(10);v.push_back(20);//通过迭代器来访问数据//
JS宏案例：在wps编辑器中玩numpy jackispy JS宏实例 numpy 数据分析 javascript
NumPy是Python中用于科学计算的一个基础库，它提供了大量的数学函数工具，尤其是用于高效处理大型多维数组和矩阵。NumPy是Python数据分析、机器学习、科学计算等领域中不可或缺的一部分。然，在wps的js宏编辑器中，并没有这样一个模块或是全局对象，但是，问题不大，我们可以手搓一个。不过，要使用JS完全模拟python中的numpy是比较困难的，工作量也非常的大，我们可以适当简化一下，如只
饿了么算法工程师-AIGC岗内推飞300 AIGC 业界资讯
1、紧跟业界最新自然语言处理技术动态，深入研发并努力创新，特别是在LLM、多模态理解和LLMAgent领域。2、基于大型语言模型开展文本生成、自然语言理解以及智能对话系统的研发，提出新颖的算法/模型，并进行实际开发和应用。3、探索多模态数据的结合，包括图像、文本、语音等，以丰富智能系统的理解和交互能力。4、将自然语言处理技术与具体业务场景相结合，考虑业务的特殊性并适配业务需求。参与到具体的NLP相
2025年，值得关注的LLM大趋势 AI小白熊人工智能产品经理 python 开发语言学习 ai 大模型
随着人工智能技术不断进步，大语言模型正在改变各行各业的运作方式。从代码生成到语言学习应用，GenAI已经渗透到我们日常生活的方方面面。随着像上个月OpenAI的“12天”计划或谷歌的Veo2和Imagen3等新技术的发布，我们看到了快速的创新迭代。面对这些变化，2025年LLM的大趋势值得我们关注。LLM的新兴应用：不仅仅是聊天机器人回想起最初我们用ChatGPT来生成代码或修改文本时，可能没有意
机器学习：强化学习的epsilon贪心算法田乐蒙 Python ML 机器学习贪心算法人工智能
强化学习（ReinforcementLearning,RL）是一种机器学习方法，旨在通过与环境交互，使智能体（Agent）学习如何采取最优行动，以最大化某种累积奖励。它与监督学习和无监督学习不同，强调试错探索（Exploration-Exploitation）以及基于奖励信号的学习。强化学习任务通常用马尔可夫决策过程来描述：机器处于环境EEE中，状态空间XXX，其中每个状态x∈Xx\inXx∈X是
构建智慧校园：推动教育现代化的重要路径智慧校园-合肥自友科技智慧校园数字化校园智慧校园平台智慧校园智慧校园系统智慧校园平台智慧校园建设智慧校园软件智慧校园方案智慧校园厂商
随着信息技术的飞速发展，智慧校园作为教育领域的新趋势，正逐渐成为推动教育现代化的重要力量。智慧校园不仅是一种物理空间的升级，更是一种教育理念和实践方式的革新。它强调利用大数据、人工智能、物联网等前沿技术，实现教学过程的智能化、个性化与高效化。智慧校园的核心在于智能硬件设施的广泛部署，如智能教室、电子白板、智能图书馆等，这些设备不仅能够提供更为便捷、高效的教与学环境，还能够收集并分析大量数据，为优化
自然语言处理入门：从基础概念到实战项目范范0825 自然语言处理人工智能
自然语言处理入门：从基础概念到实战项目一、引言自然语言处理（NaturalLanguageProcessing，简称NLP）是人工智能的重要分支，旨在让计算机能够理解、生成和处理人类语言。随着大数据和深度学习的发展，NLP技术在文本分类、机器翻译、问答系统、情感分析等领域得到了广泛应用。本文将从NLP的基础概念入手，逐步介绍关键技术，最终通过一个完整的实战项目帮助读者掌握如何在实际应用中使用NLP
数据结构与算法：动态规划dp：子序列相关力扣题（上）：300. 最长递增子序列、674.最长连续递增序列 shanshandeisu 数据结构与算法 LeetCode 动态规划 leetcode 算法子序列力扣 dp 数据结构
300.最长递增子序列classSolution:deflengthOfLIS(self,nums:List[int])->int:length=len(nums)iflength==1:return1#dp[i]指的是以nums[i]为结尾的最长递增子序列的长度。dp=[1]*lengthmmax=1foriinrange(1,length):forjinrange(i):ifnums[i]>n
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &