PyBigStar

新手炼丹师的调参内经——深度学习涨点技巧总结

训练神经网络的过程就像是一个炼丹的过程，各位炼丹师们除了要设计一个好的丹方（Contribution），配置好的炼丹炉（GPU Server），当然这其中也不能够忽略对火候（Tricks）的掌控。就像一个一品丹药，由九品炼药师和五品炼药师分别在相同的炼丹炉里面炼制，炼制出来的成丹效果肯定也是天差地别，而导致这种差别的最主要原因就是两位炼药师之间经验的差别。设计一个好的丹方这没有什么好说的，就是各位炼药师多读paper，再充分发挥自己的想象力，不断试错，最终成功的过程。炼丹炉一言蔽之就是Money is all you need!。所以，可以去人为控制且方便有效的炼丹三件套之一就是火候。这也正是博主写这篇博客的原因，作为一个新手炼丹师，希望和大家分享一下我自己的炼丹经验。

文章目录

新手炼丹师的调参内经——深度学习涨点技巧总结
- 1. Introduction
- 2. 准备工作
- - 2.1 合并训练集与测试集
  - 2.2 交叉验证
- 3. 数据处理
- - 3.1 数据筛选
  - 3.2 数据归一化和增强
- 4. 基本超参数
- - 4.1 学习率（Learning Rate）
  - 4.2 批次大小（Batch Size）
- 5. 网络结构
- - 5.1 BatchNorm
  - 5.2 Dropout
- 6. 权重初始化
- 7. 优化器（Optimizer）
- 8. 学习率策略（Scheduler）
- 9. 训练策略
- Summary
- Reference

1. Introduction

这篇博客将一个从准备到成丹的完整过程按顺序拆分为：准备工作、数据处理、基本超参数、网络结构、权重初始化策略、优化器（optimizer）、学习率策略(scheduler)、训练策略这八个大的板块，再对这些板块分别进行详细地讲解。PS：本博客涉及到的技术细节均基于Pytorch1.6，且都是vision领域的

2. 准备工作

准备工作的目的就是高效筛选丹方。可能大家都碰到过这样一种情况，那就是好不容易想出来一个自己觉得非常make sense的idea，然后就开始使劲调参数，调到最后发现这个方法根本行不通，这样既浪费了时间还没有任何效果，特别是在面对大数据集的时候，训练个一次就要个几周那时间成本就会更加昂贵。所以，博主在这里介绍两种高效筛选丹方的技巧：

2.1 合并训练集与测试集

这个方法是博主最推荐的办法，在能够拿得到测试集的前提下（一般不打比赛，大部分的research应该都是能直接拿到测试集的），可以使用ConcatDataset将训练集和测试集合并起来训练，按照baseline的训练流程训练，看看自己的网络能不能过拟合，这个时候只需要稍微尝试调整一下学习率，如果不论怎么调整学习率都无法过拟合的话，建议可以直接放弃这个丹方。

2.2 交叉验证

这类方法就是适用于无法拿到测试集的情况下，将训练集分成k折，然后用k-1分训练，1分测试。这样轮询训练，如果效果不错的情况下就基本认为丹方没有大问题，就可以进行后续的进一步试验。详细的交叉验证训练流程可以参考K-Fold 交叉验证 (Cross-Validation)的理解与应用。

3. 数据处理

3.1 数据筛选

这项工作是一个比较耗时耗力的工作，这类数据一般会分成两类：错误数据和噪声数据。

错误数据就是读取就会报错的数据，例如ImageNet里面可能有些图像读取的时候会报raise IOError("image file is truncated ")错误，这就意味着这周图像后面的bytes编码有点问题。这时候你可以选择加入这两行代码

from PIL import ImageFile
ImageFile.LOAD_TRUNCATED_IMAGES = True

强行读取被截断的图像，不过读入的图像有可能就是这样的（图像来源）。也可以直接从数据集中删除这些错误图像：

噪声数据的处理就较为麻烦，这类数据只能通过人工查看后矫正，建议一般放在最后作为精度冲刺的手段，只要噪声数据不是很多，在可以接受的范围之内，还是建议多考虑一些抗噪的方法，而不是人工矫正。

3.2 数据归一化和增强

torchvision.transforms提供了数据归一化和增强的操作，transforms.Normalize(mean, std)可以很轻松地实现数据的归一化操作，至于为什么归一化可以加速网络收敛可以参考我的另一篇博客第二章：多变量线性回归。

数据增强包括了旋转、翻转、裁剪、颜色抖动等等操作，不同的task有效的数据增强方式一般不同，博主的建议是可以自己花时间做小实验去尝试哪种数据增强对你自己的task有效。这里推荐一篇中文的博客，有结果图像也有代码实例：二十二种 transforms 图片数据预处理方法。当然还是需要去看看官网的API torchvision.transforms，这里面有最新的变换操作和每个参数的讲解。

4. 基本超参数

4.1 学习率（Learning Rate）

学习率作为炼丹过程中一个非常非常非常重要的超参数，在很多情况之下都是各位炼丹师调参的首选目标。这里博主推荐一种fastai的lr_find()函数寻找合适的初始学习率的方法。如上图所示，可以首先确定一个初始学习率的尝试范围（一般baseline的论文中都可以比较容易找到），然后改变学习率并绘制出固定Steps之后平均损失与学习率之间的统计图，这种图一般会呈现出一个对钩，所以我们只需要选择曲线的最低点对应的学习率作为初始学习率即可。

推荐参考fastai的首席设计师Sylvain Gugger的一篇博客How Do You Find A Good Learning Rate（上图来源）。

4.2 批次大小（Batch Size）

上图来源Visualizing Learning rate vs Batch size。批次大小作为两个基本超参数之一，对于网络模型训练的性能也有着十分重要的影响。特别是在contrastive learning和metric learning两个领域，这个超参数往往越大越好，可能会给模型性能带了巨大的提升。越大的batch size意味着我们学习的时候，收敛方向的confidence越大，我们前进的方向更加坚定，而小的batch size，在更新的时候则显得比较杂乱，所以需要小的学习率来保证不至于出错。所以这里给出一个经验公式（参考了MoCov3）：
$\frac{bs'}{bs} \times lr$
其中 $l r^{'}$ 和 $b s^{'}$ 是新的学习率和批次大小， $l r$ 和 $b s$ 是之前寻找到的最优学习率和批次大小。

5. 网络结构

5.1 BatchNorm

BN层作为涨点利器，现在已经作为卷积神经网络的标配模块了。不过它对batch size有较高要求，因为batch size较小的话难以得到一个较好的统计估计，不同的任务对于batch size的要求不一样（一般数据集越大要求batch size越大，因为数据集越大也就代表着图片与图片之间的差异越大，需要更大的batch size才能得到一个较好的均值与方差的估计），在不使用SyncBN的情况之下，一般对于那些比较吃显卡的任务，至少要求每张卡BN前向传播的bs $\geq$ 10。

还是拿metric learning举例子，如果source domain和target domain之间的域差异过大，建议使用不共享参数的孪生神经网络。因为，如果使用共享参数的网络，BN难以估计到一个对于source domain和target domain都较为合适的均值与方差。

BN可以接受更大的lr，按照pytorch官网在ImageNet上训练的例子和我自己的试验经验，一般有BN的网络可以接受比没有BN的网络大10倍左右的学习率。

5.2 Dropout

Dropout类似于bagging ensemble减少variance，一般适合于全连接层部分，而卷积层由于其参数并不是很多，所以不需要dropout，加上的话对模型的泛化能力并没有太大的影响。

6. 权重初始化

权重初始化相比于其他的技巧来说使用的并不是特别频繁，因为大家现在搞research很多都用的是pretrained的模型。不过这里博主还是介绍一下三种比较常用的初始化方法，用于初始化自己设计的模型：

kaiming_normal/uniform_：kaiming_uniform_是Pytorch的Linear与Conv层的默认初始化函数，这个初始化函数适合leaky_relu和relu这一系列的激活函数。
xavier_normal/uniform_：这个初始化函数适合以前的tanh, sigmoid这一类的激活函数。
truncated_normal：个人感觉比较适合小数据集，有些task会比上面两个好一点，不过一般还是首推上面两个，在Pytorch官网没有提供高层的封装，这里博主贴出自己的实现代码：

from torch.nn import init

   @torch.no_grad()
    def _reset_parameters(self):
        mean = 0.0
        std = 0.005
        torch.clamp_(init.normal_(self.w1), mean-2*std, mean+2*std)
        torch.clamp_(init.normal_(self.w2), mean-2*std, mean+2*std)
        init.constant_(self.b1, 0.001)
        init.constant_(self.b2, 0.001)

7. 优化器（Optimizer）

Adam及其一堆的变体：对学习率不敏感，就算初始化学习率设置的不够好还是有较好的结果；收敛速度快，不过容易陷入sharp local minimum，建议小数据集和快速试验的时候使用。
SGD+momentum：对学习率很敏感，使用它的时候一定要精调学习率，影响非常大；收敛速度较慢，往往需要更多的epochs才能达到较好的结果，不过这个优化器上限往往更高，适合那种大数据集刷点。

8. 学习率策略（Scheduler）

学习率策略也是炼丹之中十分重要的一个小组件，这里列举一些常用的策略进行说明，要想了解更多可以去看看Pytorch的官网说明：

ReduceLROnPlateau：当监控的指标不发生变化的时候去调整学习率，这个策略就比较符合人类的直观感受，就是loss下不去了，我就把学习率降一点。
Linear Decay：这是一个比较万金油的衰减策略，适合很多任务，不过Pytorch官方没有提供高层封装，需要自己用LambdaLR去实现，这里贴出博主自己的实现：

	epochs = 100
	scheduler = LambdaLR(optimizer, lambda epoch: 1.0-epoch/epochs)

CosineAnnealingLR & CosineAnnealingWarmRestarts：分类问题用的挺多的，周期性地调整学习率，这种退火操作可以有效地防止网络陷入局部最优。下图来源
StepLR & MultiStepLR：通过设置里程碑，当epoch到达里程碑之后调整学习率。博主研究的领域就是metric learning之下的一个小方向，使用StepLR效果较好。一般就是在总Epochs的 $\frac{3}{4}$ 之时，将学习率调整为原来的 $\frac{1}{10}$ 。

9. 训练策略

混合精度训练：以前大家使用混合精度训练一般是用apex这个库，而Pytorch1.6开始原生支持混合精度训练，使用混合精度训练大约能节省 $\frac{1}{3}$ 的显存占用，也就是你可以使用更大的batch size去提升网络性能和加速网络训练。涉及到的核心概念GradScaler和autocast，注释上面都有解释，个人推荐使用Pytorch原生的混合精度训练，这里贴出训练示例：

# Creates a GradScaler once at the beginning of training.
# Creates model and optimizer in default precision
model = Net().cuda()
optimizer = optim.SGD(model.parameters(), ...)

# Creates a GradScaler once at the beginning of training.
scaler = GradScaler()

for epoch in epochs:
    for input, target in data:
        optimizer.zero_grad()

        # Runs the forward pass with autocasting.
        with autocast():
            output = model(input)
            loss = loss_fn(output, target)

        # Scales loss.  Calls backward() on scaled loss to create scaled gradients.
        # Backward passes under autocast are not recommended.
        # Backward ops run in the same dtype autocast chose for corresponding forward ops.
        scaler.scale(loss).backward()

        # scaler.step() first unscales the gradients of the optimizer's assigned params.
        # If these gradients do not contain infs or NaNs, optimizer.step() is then called,
        # otherwise, optimizer.step() is skipped.
        scaler.step(optimizer)

        # Updates the scale for next iteration.
        scaler.update()

特别注意： 当你要是用torch.nn.DataParallel和torch.nn.DistributedDataParallel两个并行训练的方式时，一定要在自己模型的forward前面使用@autocast装饰器或者使用autocast上下文管理：

MyModel(nn.Module):
    ...
    @autocast()
    def forward(self, input):
       ...

# Alternatively
MyModel(nn.Module):
    ...
    def forward(self, input):
        with autocast():
            ...

差分学习率：差分学习率就是在不同的层设置不同的学习率，可以提高神经网络的训练效果，一般我们使用pretrained模型之后可以将pretrained模型的学习率设置小一点，将自己随机初始化的模型学习率设置大一点。Pytorch的优化器已经考虑到这一点了，所以它支持参数的分组训练：

optim.SGD([
            {'params': model.base.parameters()},
            {'params': model.classifier.parameters(), 'lr': 1e-2}
           ], lr=1e-3, momentum=0.9)

梯度归一化：即算出来的梯度或者loss除以minibatch size或者某一个常数，让梯度更加稳定，这里可以参考Transformer有关梯度的处理。
梯度裁剪：限制最大梯度范数或者value，当梯度范数或者value大于设定的值之后直接进行裁剪。属于暴力地防止梯度爆炸的出现，建议不到万不得已不要使用，因为这个操作会大大地加长训练时间。pytorch实现这个操作的两个类是torch.nn.utils.clip_grad_norm_()和torch.nn.utils.clip_grad_value_()，从名字就可以看出来这两个是in-place操作，所以只需要在backward之后，step之前使用裁剪即可：

pred = model(x)
loss = loss_fn(pred, label)
optimizer.zero_grad()
loss.backward()
# gradient clip
nn.utils.clip_grad_norm_(model.parameters(), max_norm=20.)
optimizer.step()

梯度累积：初学者可能会很疑惑为什么么Pytorch让用户自己去控制optimizer.zero_grad()，这正是由于Pytorch想让用户可以搞一些骚操作才这样做的。梯度累积就是通过几次前向传播再一次反向传播的操作达到不增加显存占用的情况下，增加batch size的效果，这样做的效果介于不使用梯度累积和直接扩大batch size（加钱）之间，主要原因是使用梯度累积，BN层估计得到的均值和方差还是小batch size得到的，所以效果会比直接增加batch size的效果差。

for i,(images,target) in enumerate(train_loader):
    # 1. input output
    outputs = model(images)
    loss = criterion(outputs,target)

    # 2.1 loss regularization
    loss = loss/accumulation_steps
    # 2.2 back propagation
    loss.backward()

    # 3. update parameters of net
    if((i+1)%accumulation_steps)==0:
        # optimizer the net
        optimizer.step()        # update parameters of net
        optimizer.zero_grad()   # reset gradient

尽量对数据做shuffle：这个对于metric learning的问题尤为重要，因为就是需要不同的example直接进行对比才能训练出较好的模型。
weight decay：Pytorch将weight decay作为torch.optim.Optimizer构造器的参数，相当于l2的正则化，一般会设置为1e-4左右，不过不同任务还是有所不同，有些任务不设置weight decay可能效果更好。
label smoothing：这也算是一种正则化方法，在蒸馏、分类和检测问题中用的挺多的，可以参考我的这篇博客Self-Knowledge Distillation: A Simple Way for Better Generalization论文阅读
hard negative mining：这个就是把难样本放进一个池子里面，模型精度上不去了就开始训练这些难样本，注意这里往往需要将学习率调小一点，两者配合使用进行冲分。
Ensemble：是论文和比赛刷结果的终极核武器，就是拿几个不同的模型将每个模型的结果进行平均或者按照某种方式（误差加权、投票、蒸馏等等）融合，往往能涨两三个点。

Summary

欢迎大家和我讨论一起分享自己的炼丹心经！

Reference

半天2k赞火爆推特！李飞飞高徒发布33条神经网络训练秘技
深度学习调参tricks总结
Bag of Tricks for Convolutional Neural Networks
你有哪些deep learning（rnn、cnn）调参的经验？
关于训练神经网路的诸多技巧Tricks(完全总结版)
写给新手炼丹师：2021版调参上分手册

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
数据结构 | 栈和队列 TT-Kun 数据结构与算法数据结构栈队列 C语言
文章目录栈和队列1.栈：后进先出（LIFO）的数据结构1.1概念与结构1.2栈的实现2.队列：先进先出（FIFO）的数据结构2.1概念与结构2.2队列的实现3.栈和队列算法题3.1有效的括号3.2用队列实现栈3.3用栈实现队列3.4设计循环队列结论栈和队列在计算机科学中，栈和队列是两种基本且重要的数据结构，它们在处理数据存储和访问顺序方面有着独特的规则和应用。本文将详细介绍栈和队列的概念、结构、实
[Python] 数据结构详解及代码 AIAdvocate 算法 python 数据结构链表
今日内容大纲介绍数据结构介绍列表链表1.数据结构和算法简介程序大白话翻译,程序=数据结构+算法数据结构指的是存储,组织数据的方式.算法指的是为了解决实际业务问题而思考思路和方法,就叫:算法.2.算法的5大特性介绍算法具有独立性算法是解决问题的思路和方式,最重要的是思维,而不是语言,其(算法)可以通过多种语言进行演绎.5大特性有输入,需要传入1或者多个参数有输出,需要返回1个或者多个结果有穷性,执行
Python算法L5：贪心算法小熊同学哦 Python算法算法 python 贪心算法
Python贪心算法简介目录Python贪心算法简介贪心算法的基本步骤贪心算法的适用场景经典贪心算法问题1.**零钱兑换问题**2.**区间调度问题**3.**背包问题**贪心算法的优缺点优点：缺点：结语贪心算法（GreedyAlgorithm）是一种在每一步选择中都采取当前最优或最优解的算法。它的核心思想是，在保证每一步局部最优的情况下，希望通过贪心选择达到全局最优解。虽然贪心算法并不总能得到全
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
【RabbitMQ 项目】服务端：数据管理模块之绑定管理月夜星辉雪 rabbitmq 分布式
文章目录一.编写思路二.代码实践一.编写思路定义绑定信息类交换机名称队列名称绑定关键字：交换机的路由交换算法中会用到没有是否持久化的标志，因为绑定是否持久化取决于交换机和队列是否持久化，只有它们都持久化时绑定才需要持久化。绑定就好像一根绳子，两端连接着交换机和队列，当一方不存在，它就没有存在的必要了定义绑定持久化类构造函数：如果数据库文件不存在则创建，打开数据库，创建binding_table插入
非对称加密算法原理与应用2——RSA私钥加密文件私语茶馆云部署与开发架构及产品灵感记录 RSA2048 私钥加密
作者：私语茶馆1.相关章节（1）非对称加密算法原理与应用1——秘钥的生成-CSDN博客第一章节讲述的是创建秘钥对，并将公钥和私钥导出为文件格式存储。本章节继续讲如何利用私钥加密内容，包括从密钥库或文件中读取私钥，并用RSA算法加密文件和String。2.私钥加密的概述本文主要基于第一章节的RSA2048bit的非对称加密算法讲述如何利用私钥加密文件。这种加密后的文件，只能由该私钥对应的公钥来解密。
粒子群优化 (PSO) 在三维正弦波函数中的应用 subject625Ruben 机器学习人工智能 matlab 算法
在这篇博客中，我们将展示如何使用粒子群优化（PSO）算法求解三维正弦波函数，并通过增加正弦波扰动，使优化过程更加复杂和有趣。本文将介绍目标函数的定义、PSO参数设置以及算法执行的详细过程，并展示搜索空间中的动态过程和收敛曲线。1.目标函数定义我们使用的目标函数是一个三维正弦波函数，定义如下：objectiveFunc=@(x)sin(sqrt(x(1).^2+x(2).^2))+0.5*sin(5
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
非对称加密算法————RSA理论及详情 hu19930613
转自：https://www.kancloud.cn/kancloud/rsa_algorithm/48484一、一点历史1976年以前，所有的加密方法都是同一种模式：（1）甲方选择某一种加密规则，对信息进行加密；（2）乙方使用同一种规则，对信息进行解密。由于加密和解密使用同样规则（简称"密钥"），这被称为"对称加密算法"（Symmetric-keyalgorithm）。这种加密模式有一个最大弱点
ASM系列五利用TreeApi 解析生成Class lijingyao8206 ASM 字节码动态生成 ClassNode TreeAPI
前面CoreApi的介绍部分基本涵盖了ASMCore包下面的主要API及功能，其中还有一部分关于MetaData的解析和生成就不再赘述。这篇开始介绍ASM另一部分主要的Api。TreeApi。这一部分源码是关联的asm-tree-5.0.4的版本。在介绍前，先要知道一点， Tree工程的接口基本可以完
链表树——复合数据结构应用实例 bardo 数据结构树型结构表结构设计链表菜单排序
我们清楚：数据库设计中，表结构设计的好坏，直接影响程序的复杂度。所以，本文就无限级分类（目录）树与链表的复合在表设计中的应用进行探讨。当然，什么是树，什么是链表，这里不作介绍。有兴趣可以去看相关的教材。需求简介：经常遇到这样的需求，我们希望能将保存在数据库中的树结构能够按确定的顺序读出来。比如，多级菜单、组织结构、商品分类。更具体的，我们希望某个二级菜单在这一级别中就是第一个。虽然它是最后
为啥要用位运算代替取模呢 chenchao051 位运算哈希汇编
在hash中查找key的时候，经常会发现用&取代%，先看两段代码吧， JDK6中的HashMap中的indexFor方法： /** * Returns index for hash code h. */ static int indexFor(int h, int length) {
最近的情况麦田的设计者生活感悟计划软考想
今天是2015年4月27号整理一下最近的思绪以及要完成的任务 1、最近在驾校科目二练车，每周四天，练三周。其实做什么都要用心，追求合理的途径解决。为
PHP去掉字符串中最后一个字符的方法 IT独行者 PHP 字符串
今天在PHP项目开发中遇到一个需求，去掉字符串中的最后一个字符原字符串1,2,3,4,5,6, 去掉最后一个字符","，最终结果为1,2,3,4,5,6 代码如下： $str = "1,2,3,4,5,6,"; $newstr = substr($str,0,strlen($str)-1); echo $newstr;
hadoop在linux上单机安装过程 _wy_ linux hadoop
1、安装JDK jdk版本最好是1.6以上，可以使用执行命令java -version查看当前JAVA版本号，如果报命令不存在或版本比较低，则需要安装一个高版本的JDK，并在/etc/profile的文件末尾，根据本机JDK实际的安装位置加上以下几行： export JAVA_HOME=/usr/java/jdk1.7.0_25
JAVA进阶----分布式事务的一种简单处理方法无量多系统交互分布式事务
每个方法都是原子操作：提供第三方服务的系统，要同时提供执行方法和对应的回滚方法 A系统调用B,C,D系统完成分布式事务 =========执行开始======== A.aa(); try { B.bb(); } catch(Exception e) { A.rollbackAa(); } try { C.cc(); } catch(Excep
安墨移动广告：移动DSP厚积薄发引领未来广告业发展命脉矮蛋蛋 hadoop 互联网
　　“谁掌握了强大的DSP技术，谁将引领未来的广告行业发展命脉。”2014年，移动广告行业的热点非移动DSP莫属。各个圈子都在纷纷谈论，认为移动DSP是行业突破点，一时间许多移动广告联盟风起云涌，竞相推出专属移动DSP产品。　　到底什么是移动DSP呢? 　　DSP(Demand-SidePlatform)，就是需求方平台，为解决广告主投放的各种需求，真正实现人群定位的精准广
myelipse设置 alafqq IP
在一个项目的完整的生命周期中，其维护费用，往往是其开发费用的数倍。因此项目的可维护性、可复用性是衡量一个项目好坏的关键。而注释则是可维护性中必不可少的一环。注释模板导入步骤安装方法：打开eclipse/myeclipse 选择 window-->Preferences-->JAVA-->Code-->Code
java数组百合不是茶 java数组
java数组的声明创建初始化； java支持C语言数组中的每个数都有唯一的一个下标一维数组的定义声明： int[] a = new int[3];声明数组中有三个数int[3] int[] a 中有三个数，下标从0开始，可以同过for来遍历数组中的数
javascript读取表单数据 bijian1013 JavaScript
利用javascript读取表单数据，可以利用以下三种方法获取： 1、通过表单ID属性：var a = document.getElementByIdx_x_x("id"); 2、通过表单名称属性：var b = document.getElementsByName("name"); 3、直接通过表单名字获取：var c = form.content.
探索JUnit4扩展：使用Theory bijian1013 java JUnit Theory
理论机制（Theory）一.为什么要引用理论机制（Theory）当今软件开发中，测试驱动开发（TDD — Test-driven development）越发流行。为什么 TDD 会如此流行呢？因为它确实拥有很多优点，它允许开发人员通过简单的例子来指定和表明他们代码的行为意图。 TDD 的优点： &nb
[Spring Data Mongo一]Spring Mongo Template操作MongoDB bit1129 template
什么是Spring Data Mongo Spring Data MongoDB项目对访问MongoDB的Java客户端API进行了封装，这种封装类似于Spring封装Hibernate和JDBC而提供的HibernateTemplate和JDBCTemplate，主要能力包括 1. 封装客户端跟MongoDB的链接管理 2. 文档-对象映射，通过注解:@Document(collectio
【Kafka八】Zookeeper上关于Kafka的配置信息 bit1129 zookeeper
问题： 1. Kafka的哪些信息记录在Zookeeper中 2. Consumer Group消费的每个Partition的Offset信息存放在什么位置 3. Topic的每个Partition存放在哪个Broker上的信息存放在哪里 4. Producer跟Zookeeper究竟有没有关系？没有关系！！！ //consumers、config、brokers、cont
java OOM内存异常的四种类型及异常与解决方案 ronin47 java OOM 内存异常
　OOM异常的四种类型：　　　　　一：　StackOverflowError ：通常因为递归函数引起（死递归，递归太深）。-Xss 128k 一般够用。　二：　out Of memory: PermGen Space：通常是动态类大多，比如web 服务器自动更新部署时引起。-Xmx
java-实现链表反转-递归和非递归实现 bylijinnan java
20120422更新：对链表中部分节点进行反转操作，这些节点相隔k个： 0->1->2->3->4->5->6->7->8->9 k=2 8->1->6->3->4->5->2->7->0->9 注意1 3 5 7 9 位置是不变的。解法：将链表拆成两部分： a.0-&
Netty源码学习-DelimiterBasedFrameDecoder bylijinnan java netty
看DelimiterBasedFrameDecoder的API，有举例：接收到的ChannelBuffer如下： +--------------+ | ABC\nDEF\r\n | +--------------+ 经过DelimiterBasedFrameDecoder(Delimiters.lineDelimiter())之后，得到： +-----+----
linux的一些命令 -查看cc攻击-网口ip统计等 hotsunshine linux
Linux判断CC攻击命令详解 2011年12月23日 ⁄ 安全 ⁄ 暂无评论查看所有80端口的连接数 netstat -nat|grep -i '80'|wc -l 对连接的IP按连接数量进行排序 netstat -ntu | awk '{print $5}' | cut -d: -f1 | sort | uniq -c | sort -n 查看TCP连接状态 n
Spring获取SessionFactory ctrain sessionFactory
String sql = "select sysdate from dual"; WebApplicationContext wac = ContextLoader.getCurrentWebApplicationContext(); String[] names = wac.getBeanDefinitionNames(); for(int i=0; i&
Hive几种导出数据方式 daizj hive 数据导出
Hive几种导出数据方式 1.拷贝文件如果数据文件恰好是用户需要的格式，那么只需要拷贝文件或文件夹就可以。 hadoop fs –cp source_path target_path 2.导出到本地文件系统 --不能使用insert into local directory来导出数据，会报错 --只能使用
编程之美 dcj3sjt126com 编程 PHP 重构
我个人的 PHP 编程经验中，递归调用常常与静态变量使用。静态变量的含义可以参考 PHP 手册。希望下面的代码，会更有利于对递归以及静态变量的理解 header("Content-type: text/plain"); function static_function () { static $i = 0; if ($i++ < 1
Android保存用户名和密码 dcj3sjt126com android
转自：http://www.2cto.com/kf/201401/272336.html 我们不管在开发一个项目或者使用别人的项目，都有用户登录功能，为了让用户的体验效果更好，我们通常会做一个功能，叫做保存用户，这样做的目地就是为了让用户下一次再使用该程序不会重新输入用户名和密码，这里我使用3种方式来存储用户名和密码 1、通过普通的txt文本存储 2、通过properties属性文件进行存
Oracle 复习笔记之同义词 eksliang Oracle 同义词 Oracle synonym
转载请出自出处：http://eksliang.iteye.com/blog/2098861 1.什么是同义词同义词是现有模式对象的一个别名。概念性的东西，什么是模式呢？创建一个用户，就相应的创建了一个模式。模式是指数据库对象，是对用户所创建的数据对象的总称。模式对象包括表、视图、索引、同义词、序列、过
Ajax案例 gongmeitao Ajax jsp
数据库采用Sql Server2005 项目名称为:Ajax_Demo 1.com.demo.conn包 package com.demo.conn; import java.sql.Connection;import java.sql.DriverManager;import java.sql.SQLException; //获取数据库连接的类public class DBConnec
ASP.NET中Request.RawUrl、Request.Url的区别 hvt .net Web C#asp.net hovertree
如果访问的地址是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree%3C&n=myslider#zonemenu那么Request.Url.ToString() 的值是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree<&
SVG 教程（七）SVG 实例，SVG 参考手册天梯梦 svg
SVG 实例在线实例下面的例子是把SVG代码直接嵌入到HTML代码中。谷歌Chrome，火狐，Internet Explorer9，和Safari都支持。注意：下面的例子将不会在Opera运行，即使Opera支持SVG - 它也不支持SVG在HTML代码中直接使用。 SVG 实例 SVG基本形状一个圆矩形不透明矩形一个矩形不透明2 一个带圆角矩
事务管理 luyulong java spring 编程事务
事物管理 spring事物的好处为不同的事物API提供了一致的编程模型支持声明式事务管理提供比大多数事务API更简单更易于使用的编程式事务管理API 整合spring的各种数据访问抽象 TransactionDefinition 定义了事务策略 int getIsolationLevel()得到当前事务的隔离级别 READ_COMMITTED
基础数据结构和算法十一：Red-black binary search tree sunwinner Algorithm Red-black
The insertion algorithm for 2-3 trees just described is not difficult to understand; now, we will see that it is also not difficult to implement. We will consider a simple representation known
centos同步时间 stunizhengjia linux 集群同步时间
做了集群，时间的同步就显得非常必要了。以下是查到的如何做时间同步。在CentOS 5不再区分客户端和服务器，只要配置了NTP，它就会提供NTP服务。 1)确认已经ntp程序包： # yum install ntp 2)配置时间源（默认就行，不需要修改） # vi /etc/ntp.conf server pool.ntp.o
ITeye 9月技术图书有奖试读获奖名单公布 ITeye管理员 ITeye
ITeye携手博文视点举办的9月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 9月试读活动回顾：http://webmaster.iteye.com/blog/2118112本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《NFC：Arduino、Andro

新手炼丹师的调参内经——深度学习涨点技巧总结

新手炼丹师的调参内经——深度学习涨点技巧总结

文章目录

1. Introduction

2. 准备工作

2.1 合并训练集与测试集

2.2 交叉验证

3. 数据处理

3.1 数据筛选

3.2 数据归一化和增强

4. 基本超参数

4.1 学习率（Learning Rate）

4.2 批次大小（Batch Size）

5. 网络结构

5.1 BatchNorm

5.2 Dropout

6. 权重初始化

7. 优化器（Optimizer）

8. 学习率策略（Scheduler）

9. 训练策略

Summary

Reference

你可能感兴趣的:(深度学习,机器学习,深度学习,人工智能,算法,神经网络,pytorch)