墨夜之枫

神经网络模型提升算法性能的方法

转自：https://machinelearningmastery.com/improve-deep-learning-performance/（英文原文）

PS:找了好久，CSDN都分类为转载，但是都没写原文地址。

提升算法性能的方法

列表划分为四块：

从数据上提升性能
从算法上提升性能
从算法调优上提升性能
从模型融合上提升性能

上述四块的排序对应其对性能的提升能力的排序。

文中的想法主要针对人工神经网络，但大多数想法都是通用性的。

1.从数据上提升性能

ps:在实际应用中，数据的清洗处理占用时间最长，因为模型框架基本都是应用现有的，改动很少。当然也有使用传统方法先预处理，自动标注切割缺陷作为训练集的方法，但监督学习中传统方法获取的数据也需要人工校验。

调整训练数据或是问题的抽象定义方法可能会带来巨大的效果改善，甚至是最显著的改善。
下面是概览：

收集更多的数据
产生更多的数据
对数据做缩放
对数据做变换
特征选择

1）收集更多的数据
    在可能的情况下收集更多的数据。
    你的模型的质量往往取决于你的训练数据的质量。你需要确保使用的数据是针对问题最有效的数据。
    PS：虽然有些模型只需要较少的数据即可完成训练测试并得到较好的结果，但我们一般还是希望数据尽可能多于其中一个原因就是手收集的数据并非全部需要，训练师需要保证样本的多样性。
    深度学习和其它现代的非线性机器学习模型在大数据集上的效果更好，尤其是深度学习。这也是深度学习方法令人兴奋的主要原因之一。

不总是数据越多效果越好，但大多数情况下如此。如果让我选择，我会选择要更多的数据。（PS:AlexNet在那个时间节点获得成功的重要原因之一就是有了更大量的数据。）

2) 产生更多的数据
深度学习算法往往在数据量大的时候效果好。
如果由于某些原因你得不到更多的数据，也可以制造一些数据。

如果你的数据是数值型的向量，那么随机生成已有向量的变形向量。
如果你的数据是图像，用已有的图像随机生成相似图像。
如果你的数据是文本，做法你懂得……

这类做法通常被称为数据扩展或是数据生成。（PS：深度学习中常见的图像预处理方法：数据增强）
你可以使用生成模型，也可以用一些简单的小技巧。
举个例子，若是用图像数据，简单地随机选择和平移已有的图像就能取得很大的提升。它能提升模型的泛化能力，如果新的数据中包含这类变换就能得到很好的处理。
有时候是往数据中增加噪声，这相当于是一种规则方法，避免过拟合训练数据

3) 对数据做缩放
    此方法简单有效。
    使用神经网络模型的一条经验法宝就是：
    将数据缩放到激活函数的阈值范围。
    如果你使用sigmoid激活函数，将数据缩放到0~1之间。如果选用tanh激活函数，将值域控制在-1~1之间。
    输入、输出数据都经过同样的变换。比如，如果在输出层有一个sigmoid函数将输出值转换为二值数据，则将输出的y归一化为二进制。如果选用的是softmax函数，对y进行归一化还是有效的。
    我还建议你将训练数据扩展生成多个不同的版本：
           归一化到 0 ~ 1
           归一化到 -1 ~ 1
           标准化
    然后在每个数据集上测试模型的性能，选用最好的一组生成数据。
    如果更换了激活函数，最好重复做一次这个小实验。
    在模型中不适合计算大的数值。此外，还有许多其它方法来压缩模型中的数据，比如对权重和激活值做归一化，我会在后面介绍这些技巧。
相关阅读：

我需要对输入数据（列向量）做标准化吗?

4）对数据做变换（应该是数据分析中使用较多，深度学习中目前未使用）
你必须真正了解所用到的数据。对训练数据可视化处理，以便筛选异常值。
先猜测每一列数据的分布
这一列数据是不是倾斜的高斯分布，若是如此，尝试用Box-Cox方法纠正倾斜
这一列数据是不是指数分布，若是如此，则进行对数变换
这一列数据是不是存在某些特性，但是难以直观地发现，尝试一下对数据平方或者开方
是否可以将特征离散化，以便更好地强调一些特征
凭你的直觉，尝试几种方法

是否可以用投影的方法对数据预处理，比如PCA？
是否可以将多个属性合并为单个值？
是否可以发掘某个新的属性，用布尔值表示？
是否可以在时间尺度或是其它维度上有些新发现？
神经网络有特征学习的功能，它们能够完成这些事情。
不过你若是可以将问题的结构更好地呈现出来，网络模型学习的速度就会更快。
在训练集上快速尝试各种变换方法，看看哪些方法有些，而哪些不起作用。
相关阅读：

如何定义你的机器学习问题
特征挖掘工程，如何构造特征以及如何提升
如何用Scikit-Learn准备机器学习的输入数据

5）特征选择

PS：在卷积神经网络中，卷积过程替代了特征提取。
神经网络受不相关数据的影响很小。
它们会对此赋予一个趋近于0的权重，几乎忽略此特征对预测值的贡献。
你是否可以移除训练数据的某些属性呢？
我们有许多的特征选择方法和特征重要性方法来鉴别哪些特征可以保留，哪些特征需要移除。
动手试一试，试一试所有的方法。
如果你的时间充裕，我还是建议在相同的神经网络模型上选择尝试多个方法，看看它们的效果分别如何。

也许用更少的特征也能得到同样的、甚至更好的效果。
也许所有的特征选择方法都选择抛弃同一部分特征属性。那么就真应该好好审视这些无用的特征。
也许选出的这部分特征给你带来了新的启发，构建出更多的新特征。
相关阅读：

特征选择入门介绍
基于Python的机器学习中的特征选择问题

6) 问题重构（PS:很有意思的一个角度，对本人有参考价值）
在回到你问题的定义上来。
你所收集到的这些观测数据是描述问题的唯一途径吗？
也许还有其它的途径。也许其它途径能更清晰地将问题的结构暴露出来。
我自己非常喜欢这种练习，因为它强迫我们拓宽思路。很难做好。尤其是当你已经投入大量的时间、精力、金钱在现有的方法上。
即使你列举了3 ~ 5种不同的方式，至少你对最后所选用的方式有充足的信心。

也许你可以将时间元素融入到一个窗口之中
也许你的分类问题可以转化为回归问题，反之亦然
也许可以把二值类型的输出转化为softmax的输出
也许你可以对子问题建模
深入思考问题是一个好习惯，最好在选择工具下手之前先完成上述步骤，以减少无效的精力投入。
无论如何，如果你正束手无策，这个简单的连续能让你思如泉涌。
另外，你也不必抛弃前期的大量工作，详情可以参见后面的章节。

相关阅读：

用Keras展现深度学习模型的训练过程
机器学习算法的过拟合和欠拟合

2）权重的初始化
有一条经验规则：用小的随机数初始化权重。
事实上，这可能已经足够了。但是这是你网络模型的最佳选择吗？
不同的激活函数也可以有不同的应对策略，但我不记得在实践中存在什么显著的差异。
保持你的模型结构不变，试一试不同的初始化策略。
记住，权重值就是你模型需要训练的参数。几组不同的权重值都能取得不错的效果，但你想得到更好的效果。

尝试所有的初始化方法，找出最好的一组初始化值
试一试用非监督式方法预学习，比如自动编码机
尝试用一组现有的模型权重参数，然后重新训练输入和输出层（迁移学习）

记住，修改权重初始化值的方法与修改激活函数或者目标函数的效果相当。
相关阅读：

深度网络模型的初始化

3）学习率
调节学习率也能带来效果提升。
这里也有一些探索的思路：

尝试非常大、非常小的学习率
根据参考文献，在常规值附近用网格化搜索
尝试使用逐步减小的学习率
尝试每隔固定训练步骤衰减的学习率
尝试增加一个向量值，然后用网格搜索

大的网络模型需要更多的训练步骤，反之亦然。如果你添加了更多的神经节点和网络层，请加大学习率。
学习率与训练步骤、batch大小和优化方法都有耦合关系。
相关阅读：

使用Keras对深度学习模型进行学习率调节
反向传播算法该选用什么学习率？

4）激活函数
也许你应该选用ReLU激活函数。
仅仅因为它们的效果更好。
在ReLU之前流行sigmoid和tanh，然后是输出层的softmax、线性和sigmoid函数。除此之外，我不建议尝试其它的选择。
这三种函数都试一试，记得把输入数据归一化到它们的值域范围。
显然，你需要根据输出内容的形式选择转移函数。
比方说，将二值分类的sigmoid函数改为回归问题的线性函数，然后对输出值进行再处理。同时，可能需要调整合适的损失函数。在数据转换章节去寻找更多的思路吧。
相关阅读：

为何使用激活函数？

5）网络拓扑结构
调整网络的拓扑结构也会有一些帮助。
你需要设计多少个节点，需要几层网络呢？
别打听了，鬼知道是多少。
你必须自己找到一组合理的参数配置。

试一试加一层有许多节点的隐藏层（拓宽）
试一试一个深层的神经网络，每层节点较少（纵深）
尝试将上面两种组合
尝试模仿近期发表的问题类似的论文
尝试拓扑模式和书本上的经典技巧（参考下方的链接）
这是一个难题。越大的网络模型有越强的表达能力，也许你就需要这样一个。
更多晨的结构提供了抽象特征的更多结构化组合的可能，也许你也需要这样一个网络。
后期的网络模型需要更多的训练过程，需要不断地调节训练步长和学习率。
相关阅读：
下面的链接可能给你提供一些思路：

我的网络模型该设计几层呢？
我的网络模型该设计几个节点呢？

6） batch和epoch
batch的大小决定了梯度值，以及权重更新的频率。一个epoch指的是训练集的所有样本都参与了一轮训练，以batch为序。
你尝试过不同的batch大小和epoch的次数吗？
在前文中，我们已经讨论了学习率、网络大小和epoch次数的关系。
深度学习模型常用小的batch和大的epoch以及反复多次的训练。
这或许对你的问题会有帮助。

尝试将batch大小设置为全体训练集的大小（batch learning）
尝试将batch大小设置为1（online learning）
用网格搜索尝试不同大小的mini-batch（8，16，32，…）
尝试再训练几轮epoch，然后继续训练很多轮epoch
尝试设置一个近似于无限大的epoch次数，然后快照一些中间结果，寻找效果最好的模型。
有些模型结构对batch的大小很敏感。

/****作者认为多层感知器对batch的大小很不敏感，而LSTM和CNN则非常敏感，但这都是仁者见仁。****/

相关阅读：

什么是批量学习、增量学习和在线学习？
直觉上，mini-batch的大小如何影响（随机）梯度下降的效果？

7）正则项
正则化是克服训练数据过拟合的好方法。
最近热门的正则化方法是dropout，你试过吗？
Dropout方法在训练过程中随机地略过一些神经节点，强制让同一层的其它节点接管。简单却有效的方法。

权重衰减来惩罚大的权重值
激活限制来惩罚大的激活函数值

尝试用各种惩罚措施和惩罚项进行实验，比如L1、L2和两者之和。
相关阅读：

使用Keras对深度学习模型做dropout正则化
什么是权值衰减？

8）优化方法和损失函数
以往主要的求解方法是随机梯度下降，然而现在有许许多多的优化器。
你尝试过不同的优化策略吗？
随机梯度下降是默认的方法。先用它得到一个结果，然后调节不同的学习率、动量值进行优化。
许多更高级的优化方法都用到更多的参数，结构更复杂，收敛速度更快。这取决于你的问题，各有利弊吧。
为了压榨现有方法的更多潜力，你真的需要深入钻研每个参数，然后用网格搜索法测试不同的取值。过程很艰辛，很花时间，但值得去尝试。
我发现更新/更流行的方法收敛速度更快，能够快速了解某个网络拓扑的潜力，例如：

ADAM
RMSprop

你也可以探索其它的优化算法，例如更传统的算法（Levenberg-Marquardt）和比较新的算法（基因算法）。其它方法能给SGD创造好的开端，便于后续调优。
待优化的损失函数则与你需要解决的问题更相关。
不过，也有一些常用的伎俩（比如回归问题常用MSE和MAE），换个损失函数有时也会带来意外收获。同样，这可能也与你输入数据的尺度以及所使用的激活函数相关。
相关阅读：

梯度下降优化算法概览
什么是共轭梯度和Levenberg-Marquardt？
深度学习的优化方法，2011

9） Early Stopping
你可以在模型性能开始下降的时候停止训练。
这帮我们节省了大量时间，也许因此就能使用更精细的重采样方法来评价模型了。
early stopping也是防止数据过拟合的一种正则化方法，需要你在每轮训练结束后观察模型在训练集和验证集上的效果。
一旦模型在验证集上的效果下降了，则可以停止训练。
你也可以设置检查点，保存当时的状态，然后模型可以继续学习。
相关阅读：

如何在Keras给深度学习模型设置check-point
什么是early stopping？

4. 用融合方法提升效果
你可以将多个模型的预测结果融合。
继模型调优之后，这是另一个大的提升领域。
事实上，往往将几个效果还可以的模型的预测结果融合，取得的效果要比多个精细调优的模型分别预测的效果好。
我们来看一下模型融合的三个主要方向：

模型融合
视角融合
stacking

1）模型融合
不必挑选出一个模型，而是将它们集成。
如果你训练了多个深度学习模型，每一个的效果都不错，则将它们的预测结果取均值。
模型的差异越大，效果越好。举个例子，你可以使用差异很大的网络拓扑和技巧。
如果每个模型都独立且有效，那么集成后的结果效果更稳定。
相反的，你也可以反过来做实验。
每次训练网络模型时，都以不同的方式初始化，最后的权重也收敛到不同的值。多次重复这个过程生成多个网络模型，然后集成这些模型的预测结果。
它们的预测结果会高度相关，但对于比较难预测的样本也许会有一点提升。
相关阅读：

用scikit-learn集成机器学习算法
如何提升机器学习的效果

2）视角融合
如上一节提到的，以不同的角度来训练模型，或是重新刻画问题。
我们的目的还是得到有用的模型，但是方式不同（如不相关的预测结果）。
你可以根据上文中提到的方法，对训练数据采取完全不同的缩放和变换技巧。
所选用的变化方式和问题的刻画角度差异越大，效果提升的可能性也越大。
简单地对预测结果取均值是一个不错的方式。

3）stacking
你还可以学习如何将各个模型的预测结果相融合。
这被称作是stacked泛化，或者简称为stacking。
通常，可以用简单的线性回归的方式学习各个模型预测值的权重。
把各个模型预测结果取均值的方法作为baseline，用带权重的融合作为实验组。

Stacked Generalization (Stacking)

总结
各抒己见吧

补充资料
还有一些非常好的资料，但没有像本文这么全面。
我在下面列举了一些资料和相关的文章，你感兴趣的话可以深入阅读。

神经网络常见问答
如何用网格搜索法求解深度学习模型的超参数
深度神经网络必知的技巧
如何提升深度神经网络的验证准确率？

服务器与环境配置——Ubuntu22.04杂记 Osiria 服务器 python ubuntu
服务器与环境配置——Ubuntu22.04杂记系统配置apt/apt-getProxy配置修改主机名用户权限文件复制一些容易出错的python库安装Pytorch3D(0.7.5)psbody-mesh4.0([link](https://github.com/MPI-IS/mesh))其它系统配置apt/apt-getProxy配置sudonano/etc/apt/apt.conf.d/prox
anaconda，Python，cuda,pytorch 下载安装三希 python pytorch 开发语言
以下是Anaconda、Python、CUDA和PyTorch的下载安装步骤：一、Anaconda下载访问Anaconda官方网站：DownloadAnacondaDistribution|Anaconda。根据您的操作系统（Windows、macOS或Linux）选择合适的版本进行下载。例如，对于Windows系统，选择对应的.exe安装文件。安装Windows：双击下载的.exe文件。按照安装
用deepseek学大模型08-长短时记忆网络 (LSTM) wyg_031113 lstm 人工智能 rnn
deepseek.com从入门到精通长短时记忆网络(LSTM),着重介绍的目标函数，损失函数，梯度下降标量和矩阵形式的数学推导，pytorch真实能跑的代码案例以及模型,数据，模型应用场景和优缺点，及如何改进解决及改进方法数据推导。从入门到精通长短时记忆网络(LSTM)参考：长短时记忆网络（LSTM）在序列数据处理中的优缺点分析1.LSTM核心机制LSTM通过门控机制（遗忘门、输入门、输出门）和细
torch环境冲突:AttributeError: module ‘torch.library‘ has no attribute ‘register_fake‘ Ven% 深度学习速通系列深度学习基础动手 Ubuntu 深度学习机器学习 pytorch
如果torch版本冲突问题复杂，可以尝试清理环境并重新安装所有依赖项：pipuninstalltorchtorchaudiotorchvisionpipinstalltorch==2.3.1torchaudio==2.3.1torchvision==0.18.1-fhttps://mirrors.tuna.tsinghua.edu.cn/pytorch-wheels/torch_stable.ht
Pytorch实现之粒子群优化算法在GAN中的应用这张生成的图像能检测吗优质GAN模型训练自己的数据集生成对抗网络人工智能神经网络 pytorch 算法深度学习计算机视觉
简介简介：主要是采用了粒子群优化（PSO）算法来优化GAN的一个训练。PSO是一种是一种基于种群的随机优化技术。这种优化技术是通过粒子群进行的，粒子群在每次迭代中都会更新自己。对于给定的目标函数，这种方法利用一个搜索空间，在那里粒子群移动，找到所需的全局最小值。这些粒子与它们当前的环境局部相互作用，也与彼此相互作用，具有可接受的随机性质。通过合并粒子的当前速度，探索粒子的历史和粒子的邻居，可以知道
用deepseek学大模型08-卷积神经网络(CNN) wyg_031113 机器学习人工智能
yuanbao.tencent.com从入门到精通卷积神经网络(CNN),着重介绍的目标函数，损失函数，梯度下降标量和矩阵形式的数学推导，pytorch真实能跑的代码案例以及模型,数据，预测结果的可视化展示，模型应用场景和优缺点，及如何改进解决及改进方法数据推导。一、目标函数与损失函数数学推导1.均方误差（MSE）标量形式：E(w)=12∑i=1N(yi−y^i)2E(\mathbf{w})=\f
Pytorch实现论文之一种基于扰动卷积层和梯度归一化的生成对抗网络这张生成的图像能检测吗 GAN系列优质GAN模型训练自己的数据集 pytorch 人工智能机器学习生成对抗网络神经网络计算机视觉深度学习
简介简介：提出了一种针对鉴别器的梯度惩罚方法和在鉴别器中采用扰动卷积，拟解决锐梯度空间引起的训练不稳定性问题和判别器的记忆问题。论文题目：APerturbedConvolutionalLayerandGradientNormalizationbasedGenerativeAdversarialNetwork（一种基于扰动卷积层和梯度归一化的生成对抗网络）会议：20244thInternationa
Pytorch实现之在LSGAN中结合重建损失这张生成的图像能检测吗 GAN系列优质GAN模型训练自己的数据集 pytorch 人工智能 python
简介简介：这篇论文在LSGAN的基础上结合了重建损失来产生通过传统不良数据检测（BDD）机制的人工测量。这篇博客的主要内容是关于实现了重建损失与LSGAN的结合。论文题目：FalseDataInjectionAttacksBasedonLeastSquaresGenerativeAdversarialNetworkswithReconstructionLoss（基于重构损失最小二乘生成对抗网络的虚
Pytorch实现论文：利用推土机距离与梯度惩罚在ACGAN中训练。这张生成的图像能检测吗优质GAN模型训练自己的数据集 pytorch 人工智能深度学习 gan 机器学习生成对抗网络
论文简介论文：ACWGAN-GPformillingtoolbreakagemonitoringwithimbalanceddata（ACWGAN-GP用于铣削工具断裂监视的数据不平衡数据）出处：RoboticsandComputer-IntegratedManufacturing论文摘要：铣削操作过程中的刀具破损监测(TBM)对于确保工件质量和最大限度减少经济损失至关重要。在训练数据充足、分布均
Pytorch实现论文之三元DCGAN生成RGB图像用于红外图像着色生成这张生成的图像能检测吗 GAN系列优质GAN模型训练自己的数据集人工智能 python 生成对抗网络深度学习 pytorch 机器学习计算机视觉
简介简介：采用了三次DCGAN单独生成单通道图像之后进行组成RGB图像放入鉴别器中检测，并在鉴别器和生成器的损失训练中采用梯度方法来提升或者降低权重。该方法将用于获得红外图像着色的生成。论文题目：InfraredImageColorizationbasedonaTripletDCGANArchitecture（基于三元DCGAN架构的红外图像着色）会议：2017IEEEConferenceonCo
conda更换环境版本（比如torch版本）挨打且不服66 python python
找到想要的torch版本pytorch官网torch过往的版本创建新环境condacreate--namemyenvpython=3.8condaactivatemyenvconda虚拟环境中安装CUDA和CUDNN深度学习用显卡训练的时候，需要安装与显卡对应的cuda和cudnn。但不同的项目所支持的pytorch版本是不一样的，而pytorch版本和cuda版本之间又是互相依赖的，所以如果可以
一文读懂！深度学习 + PyTorch 的超实用学习路线 a小胡哦深度学习 python pytorch
深度学习作为人工智能领域的核心技术，正深刻改变着诸多行业。PyTorch则是深度学习实践中备受青睐的框架，它简单易用且功能强大。下面就为大家详细规划深度学习结合PyTorch的学习路线。一、基础知识储备数学基础数学是很重要的！！！线性代数、概率论与数理统计、微积分是深度学习的数学基石。熟悉矩阵运算、概率分布、梯度计算等概念，能帮助理解深度学习模型的原理。例如，在神经网络中，矩阵乘法用于神经元之间的
Python 用pytorch从头写Transformer源码，一行一解释；机器翻译实例代码；Transformer源码解读与实战医学小达人 NLP LLMs GPT 深度学习人工智能 transformer python 机器学习
1.Transformer简介Transformer模型被提出的主要动机是解决序列处理任务的长距离依赖问题。传统的RNN和LSTM虽然能够处理序列任务，但因为它们在处理序列时需要一步步前进，因此其他信息无法立即对其产生影响，当序列变长时，长距离依赖的信息很可能会被丢失。为了解决这个问题，Transformer模型被设计出来，内核思想是利用自注意力机制，这样模型可以直接对输入序列的任意两个位置建立直
采用分布式部署deepseek 慧香一格 AI 学习分布式 deepseek
分布式部署DeepSeek涉及使用多个计算节点来加速模型训练或提升推理效率。下面是一个基本的指南，帮助您了解如何进行分布式部署。1.环境准备硬件需求：确保您的集群环境中有足够的GPU资源，并且所有机器之间可以通过高速网络互联。软件依赖：安装必要的库和工具，如PyTorch、Transformers等。特别地，对于分布式训练，还需要安装torch.distributed或者类似的库支持，例如Horo
huggingface/pytorch-image-models GarryLau ML&DL pytorch python huggingface
huggingface/pytorch-image-models1.使用技巧1.1.训练指令单卡：pythontrain.py--pretrained--input-size3224224--mean000--std111--batch-size128--validation-batch-size128--color-jitter-prob0.2--grayscale-prob0.2--gauss
PyTorch `.pth` 转 ONNX：从模型训练到跨平台部署 MO__YE 人工智能
PyTorch.pth转ONNX：从模型训练到跨平台部署在深度学习里，模型的格式决定了它的可用性。如果你是PyTorch用户，你可能熟悉.pth文件，它用于存储训练好的模型。但当你想在不同的环境（如TensorRT、OpenVINO、ONNXRuntime）部署模型时，.pth可能并不适用。这时，ONNX（OpenNeuralNetworkExchange）就必不可少。本文目录：什么是.pth文件
Pytorch实现之SCGAN实现人脸修复这张生成的图像能检测吗优质GAN模型训练自己的数据集 GAN系列 pytorch 人工智能 python 生成对抗网络深度学习计算机视觉 gan
简介简介：在输入端对输入图像采用掩码遮挡部分图像，之后通过跳跃生成对抗网络生成修复掩码部分的人脸进而生成完整的人脸数据。对于生成器结构的损失采用MES损失，对于鉴别器的结构采用WGAN-GP的损失。鉴别器为双鉴别器结构，一个负责检验完整图像的真假，一个负责检验掩码部分图像的真假。论文题目：SCGAN:GenerativeAdversarialNetworksofSkipConnectionforF
PyTorch `.pth` 转 ONNX：从模型训练到跨平台部署 MO__YE pytorch 人工智能 python
PyTorch.pth转ONNX：从模型训练到跨平台部署在深度学习里，模型的格式决定了它的可用性。如果你是PyTorch用户，你可能熟悉.pth文件，它用于存储训练好的模型。但当你想在不同的环境（如TensorRT、OpenVINO、ONNXRuntime）部署模型时，.pth可能并不适用。这时，ONNX（OpenNeuralNetworkExchange）就必不可少。本文目录：什么是.pth文件
搜广推校招面经十九 Y1nhl 搜广推面经搜索引擎推荐算法 python 求职招聘
快手推荐算法一、1*1的cnn有什么作用？1.1.降维与通道数调整（ChannelReduction）在CNN中，特征图（FeatureMap）通常有多个通道（channels）。1×1卷积可以用于减少通道数，从而降低计算量，提高模型效率。1×1卷积可以增加通道数，以增强特征表达能力。示例代码（PyTorch）：importtorchimporttorch.nnasnnconv1x1=nn.Con
新书速览|细说PyTorch深度学习：理论、算法、模型与编程实现全栈开发圈深度学习 pytorch 算法
超详细的PyTorch深度学习入门书，100余个编程示例+6大热点案例，大咖带路，边学边实践。本书特点：1.专家编撰：由资深专家精心编撰，通俗易懂，娓娓道来2．范例丰富：100余个编程教学示例，帮你深入理解，边学习、边操练。3.实战应用：6大典型应用，原理与实操并重，快速掌握提升实战能力。4技术先进：视觉transformer模型详解，紧跟大模型核心技术。5易于上手：Pytorch详解并使用Pyt
pytorch环境配置过程中遇到的那些坑枕绵 pytorch 人工智能 python conda
基本命令查看conda版本conda--version查看conda环境配置condaconfig--show创建虚拟环境condacreate-nenvNamepython=3.8查看虚拟环境的个数详情condaenvlist激活虚拟环境condaactivateenvName删除虚拟环境condaremove--nameenvName--all下载pytorchpip3installtorch
【pytorch】norm的使用安安爸Chris pytorch python 深度学习
torch.norm[deprecated]在torch.norm中，通过参数p来定制order主要有如下几类L1norm计算张量中所有数值之和L2norm计算张量中所有数值的平方和开根Frobeniusnorm计算张量中所有维度上所有数值的平方和开根Infinitynorm计算张量中有所数值绝对值最大Negativeinfinitynorm计算张量中所有数值绝对值最小importtorch#Cr
每天五分钟深度学习框架pytorch：搭建谷歌的Inception网络模块每天五分钟玩转人工智能深度学习框架pytorch 深度学习 pytorch 网络人工智能机器学习 Inception
本文重点前面我们学习了VGG，从现在开始我们将学习谷歌公司推出的GoogLeNet。当年ImageNet竞赛的第二名是VGG，而第一名就是GoogLeNet,它的模型设计拥有很多的技巧，这个model证明了一件事：用更多的卷积，更深的层次可以得到更好的结构GoogLeNet的网络结构如图所示就是GoogLeNet的网络结构，在这个网络结构中我们可以看到红色框起来的地方，他就是Inception块，
Pytorch实现mnist手写数字识别 Zn要学习 python
>-**本文为[365天深度学习训练营]中的学习记录博客**>-**原作者：[K同学啊]**我的环境：语言环境：Python3.8编译器：JupyterLab深度学习环境：torch==1.12.1+cu113torchvision==0.13.1+cu113一、前期准备1.设置GPU如果设备上支持GPU就使用GPU,否则使用CPUimporttorchimporttorch.nnasnnimpo
Pytorch官方文档英语翻译 yanzhiwen2 深度学习Pyrotch pytorch 机器学习 python 人工智能深度学习
深度学习Pytorch-Pytorch官方文档英语翻译1.a-e1.1span跨度1.2blended混合的1.3criterion标准1.4deprecated弃用的1.5clamp钳制1.6arbitraryshapes任意形状1.7explodinggradients梯度爆炸1.8converge收敛1.9approximate近似1.10arg参数1.11argument参数1.12con
PyTorch中文/英文官方文档&教程资源三千の世界 Python DataAnalysis Computer Science pytorch
PyTorch中文文档https://pytorch-cn.readthedocs.io/zh/latest/PyTorch英文文档https://pytorch.org/docs/stable/index.htmlPyTorch官方教程-PyTorch教程1.1.0文档https://pytorch.org/tutorials/
【PYTORCH】官方的turoria实现中英文翻译 liwulin0506 pytorch python pytorch 人工智能 python
参考https://pytorch.org/tutorials/intermediate/seq2seq_translation_tutorial.html背景pytorch官方的是seq2seq是法语到英文，做了一个中文到英文的。数据集下载后解压，使用的data\testsets\devset\UNv1.0.devset.zh和UNv1.0.devset.en，因为电脑配置不行，所以只选取了10
PyTorch实战深度学习——用CNN进行手写数字识别一位小说男主人工智能入门深度学习
用CNN进行手写数字识别---计算机专业研究生的代码第一课，相当于”HelloWorld“，不管以后选择什么研究方向，都值得一看,欢迎大家留言交流学习！下面手把手教大家一步一步实现该任务：1.环境准备首先呢，您需要确保安装了PyTorch库。如果还没有安装，可以使用以下命令进行安装，这里默认您已经有Anaconda并创建好虚拟环境啦，如果还没有安装，可以参考其他更完整的安装pytorch的教程：p
基于DeepSeek-R1的高效推理优化实战：从API封装到动态批处理竹木有心人工智能
引言在LLM（大语言模型）应用中，推理延迟和计算资源消耗是核心痛点。本文以DeepSeek-R1-7B模型为例，通过动态批处理、模型量化和异步推理三大技术，将单次推理耗时从2.3s降至0.4s，吞吐量提升6倍。所有代码均通过PyTorch2.1+验证。一、环境准备与模型加载优化1.1硬件感知的模型加载通过device_map自动分配计算资源，避免显存溢出fromtransformersimport
darts框架使用 ME_Seraph 机器学习 darts
文|Seraph高版本Pytorch问题运行test.py报错IndexError:invalidindexofa0-dimtensor.Usetensor.item()toconverta0-dimtensortoaPythonnumber解决：update函数的参数loss.data[0]，prec1.data[0]，prec5.data[0]等修改为loss.item()，prec1.ite
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =

神经网络模型提升算法性能的方法

你可能感兴趣的:(pytorch,TensorFlow2.0)