噜噜的小苹果

pytorch 入门 - 优化算法详解

文章目录

梯度下降法（Gradient Descent）

GD算法的实现方式

BGD（Batch Gradient Descent）
SGD（Stochastic Gradient Descent）
MBGD （Mini-Batch Gradient Descent）

梯度下降算法的不足
GD算法的改进

Momentum
Nesterov Accelerated Gradient
自适应优化算法

Adagrad
Adadelta
RMSprop
Adam

优化算法的选择

牛顿法和拟牛顿法（Newton's method & Quasi-Newton Methods）

基本牛顿法
全局牛顿法

共轭梯度法（Conjugate Gradient）
GD与另两种优化算法的比较
pytorch优化函数包
参考资料

目标：理解更多神经网络优化方法，了解不同优化器，并书写优化器代码

神经网络的学习过程中需要利用优化算法去更新参数，训练模型。优化器的种类有多个，比较常见的是随机梯度下降算法，接下来系统梳理一下各种优化算法的原理、实现方法和优劣之处。

梯度下降法（Gradient Descent）

梯度下降算法的优化思想是每次沿着当前位置梯度的反方向为搜索方向。梯度的几何含义是：函数增长最快的方向，那么为了使损失函数达到最小，就得取负方向，即沿着反向梯度方向更新参数，使损失函数沿着下降最快的方向走。

计算损失函数梯度就是相对于各参数求偏导的矢量和，即
$w_i = w_i - \text{learning rate} * \dfrac{\partial Loss }{\partial w_i}$

注：
当损失函数是凸函数时，可求得全局最优解，否则不能保证
梯度下降法的速度也未必是最快的
梯度下降算法的学习效果取决于初始值、学习率
其越接近目标值、步长越小，前进越慢

梯度下降算法的优缺点：
缺点：
　　1、靠近极小值时收敛速度减慢，如下图所示；
　　2、直线搜索时可能会产生一些问题；
　　3、可能会“之字形”地下降。

从上图可以看出，梯度下降法在接近最优解的区域收敛速度明显变慢，利用梯度下降法求解需要很多次的迭代。

GD算法的实现方式

按每次训练过程中投入数据量的大小可将GD优化算法的实现分为以下三类：

BGD（Batch Gradient Descent）

在每次计算中，采用整个训练集的数据来计算Loss function 对参数的梯度：
$lr\cdot \nabla _WJ(W)$

BGD 缺点：计算量大，计算缓慢，对于大规模数据比较棘手；对于很大的数据集来说可能会有相似样本，这样在计算梯度过程中就容易出现冗余；不能新增样本
BGD 优点：可以收敛到局部最优

SGD（Stochastic Gradient Descent）

SGD在每次更新过程中，只对每个样本进行梯度更新。
$lr\cdot \nabla _WJ(W;x^{(i)};y^{(i)})$

SGD 优点：一次只更新一个样本，计算速度很快，而且可以新增样本；SGD虽然包含了随机性，但从期望来看是等于正确导数的；稍微减小lr时，SGD与BGD收敛性一样；
SGD 缺点：更新频繁，容易造成Loss震荡；SGD的噪音较多，使得SGD不是每次迭代都朝整体最优化方向前进；SGD收敛到局部最小存在随机性；

MBGD （Mini-Batch Gradient Descent）

在每次训练过程中，从总体m个样本中随机取n个样本计算Loss的梯度。
$lr\cdot \nabla _WJ(W;x^{(i:i+n)};y^{(i:i+n)})$

MBGD 优点：降低更新参数的方差，即克服SGD噪音多不稳定的缺点，收敛更加稳定；充分利用dl学习框架中高度优化的矩阵操作进行更有效的梯度计算。

梯度下降算法的不足

1、不能很好保证收敛性，lr取太小的话收敛速度会过慢、lr取太大的话loss就会在极小值处不同震荡直至偏离。（措施：lr预先设置大一点，前后两次迭代的loss变化小于某个阈值后，就减小lr，但阈值的设定需要数据集本身的特点）

2、对于非凸函数，GD容易被困在局部极小值或者鞍点处（鞍点附近的loss都一样，所有维度的梯度接近0）；若是用BGD，则优化停止不动；若是MBGD或SGD，那么每次找到的梯度是不同的，会发生震荡，来回跳动

3、SGD对所有参数更新采用的lr是相同的，若数据稀疏，我们更希望对出现频率低的特征进行大一点的更新，即学习率lr是一个可变量，根据特征出现频率以及更新次数发生变化

GD算法的改进

Momentum

momentum是模拟物理里动量的概念，积累之前的动量来替代真正的梯度。它通过加入 $\gamma v_{t-1}$ 来加速SGD的同时可以抑制震荡。

$v_t = \gamma v_{t-1} + lr*\nabla_w J(w)$ 一般 $\gamma$ 常取0.9左右
$w = w-v_t$

原理：模拟小球从山顶滚落的过程，若没有阻力，小球的动量会增大，若遇上阻力，速度就会变小，加入速度变化的这一项可以使梯度不变的维度上速度变快，梯度方向改变的维度上更新速度变慢，这样可以加快收敛并减小震荡。

数学思维的理解：参数每次更新的数值不再是直接取负梯度值，二是参考上一步的数值，有点类似做一个“滑动平均”？此外对于加速SGD且抑制震荡这块，可以这么理解：梯度计算结果和上次更新值 $v_{t-1}$ 符号一致时，相当于对最终对参数更新得更多，而符号不一致时，相当于更新得少。

下降初期时，使用上一次参数更新，下降方向一致，乘上较大的 $\gamma$ 能够进行很好的加速
下降中后期时，在局部最小值来回震荡的时候，gradient→0， $\gamma$ 使得更新幅度增大，跳出陷阱
在梯度改变方向的时候， $\gamma$ 能够减少更新

缺点：缺乏先知信息，若知道快要上坡了，就知道减速的话，适应性会更好

Nesterov Accelerated Gradient

同momentum 一样，在更新参数时添加动量信息，不同的是在计算梯度时，不是计算当前位置的梯度，而是计算未来位置的梯度
$v_t = \gamma v_{t-1} + lr*\nabla_w J(w- \gamma v_{t-1})$ 一般 $\gamma$ 常取0.9左右
$w = w-v_t$

相比于momentum，NAG收敛速度会更快一点，这种算法能够提前看到前方的地形梯度，若前面的梯度比当前位置大，就可以把步子迈得大一点，若前方梯度小，就可以迈小步一点，这个大与小是相对于当前位置梯度信息去计算的。

避免前进太快，同时提高灵敏度

momentum首先计算一个梯度(短的蓝色向量)，然后在加速更新梯度的方向进行一个大的跳跃(长的蓝色向量)，nesterov项首先在之前加速的梯度方向进行一个大的跳跃(棕色向量)，计算梯度然后进行校正(绿色梯向量)

自适应优化算法

该算法针对GD算法的第三个不足（lr对数据频率的变化）做一个改进，即可以对低频参数做较大的更新，对高频参数做较小的更新。对于稀疏数据来说表现更好，且很好的提高了SGD的鲁棒性。

首先介绍自适应算法的第一个实现方法

Adagrad

对学习率做一个约束：
$g_t = \nabla _WJ(W)$
$n_t = n_{t-1} + g_t^2$
$W_t = W_t - \dfrac{lr}{\sqrt{\smash[b]{n_t +\epsilon}}}*g_t$ ， $\epsilon$ 保证分母不为0， $n_t$ 表示从1到t的梯度累计，形成一个约束。

前期gt较小的时候， regularizer较大，能够放大梯度
后期gt较大的时候，regularizer较小，能够约束梯度
适合处理稀疏梯度

缺点：
1、由公式可以看出，仍依赖于人工设置一个全局学习率
2、η设置过大的话，会使regularizer过于敏感，对梯度的调节太大
3、中后期，分母上梯度平方的累加将会越来越大，使gradient→0，使得训练提前结束

Adadelta

对Adagrad的改进（解决Adagrad学习率急剧下降的问题），将 $n_t$ 做一个变换，变成梯度平方的衰减平均数

$E[g^2]_t = \gamma E[g^2]_{t-1} + (1-\gamma)g_t^2$

$\dfrac{lr}{\sqrt{\smash[b]{E[g^2]_t+\epsilon}}}*g_t$

此处的lr还是需要预先设定的，但作者经过一定的改进之后将学习率lr 替换成了每次更新值的求和开方值。
即

训练初中期，加速效果不错，很快
训练后期，反复在局部最小值附近抖动

RMSprop

RMSprop 也是为了解决Adagrad 学习率急剧下降的问题。RMSprop可以算作Adadelta的一个特例：当 $\gamma$ =0.5时， $E[g^2]_t = \gamma E[g^2]_{t-1} + (1-\gamma)g_t^2$ 就变为了求梯度平方和的平均数。如果再求根的话，就变成了RMS(均方根)：

$\dfrac{lr}{RMS[g]_t}*g_t$

其实RMSprop依然依赖于全局学习率
RMSprop算是Adagrad的一种发展，和Adadelta的变体，效果趋于二者之间
适合处理非平稳目标
对于RNN效果很好

Adam

本质上是带有动量项的RMSprop，它利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率。Adam的优点主要在于经过偏置校正后，每一次迭代学习率都有个确定范围，使得参数比较平稳。公式如下：

结合了Adagrad善于处理稀疏梯度和RMSprop善于处理非平稳目标的优点
对内存需求较小
为不同的参数计算不同的自适应学习率
也适用于大多非凸优化
适用于大数据集和高维空间
Adam 就是在RMSprop 的基础上加了bias-correction 和 momentum的效果

优化算法的选择

对于稀疏数据，尽量使用自适应学习方法，即Adagrad，Adadelta, RMSprop, Adam

SGD通常训练时间更长，容易陷入鞍点，但是在好的初始化和学习率调度方案的情况下，结果更可靠

如果在意更快的收敛，并且需要训练较深较复杂的网络时，推荐使用学习率自适应的优化方法

Adadelta，RMSprop，Adam是比较相近的算法，在相似的情况下表现差不多

在想使用带动量的RMSprop，或者Adam的地方，大多可以使用Nadam取得更好的效果

牛顿法和拟牛顿法（Newton’s method & Quasi-Newton Methods）

牛顿法的每一步需要求解目标函数的海塞矩阵的逆矩阵；拟牛顿法通过正定矩阵近似还塞矩阵的逆矩阵或海塞矩阵，简化计算过程。

牛顿法：主要是利用迭代点 $X_k$ 处的一阶导数和二阶导数去拟合一个二次函数，并求当前函数的极小值，然后将当前函数的极小值作为新的迭代点并不断重复该过程，直至得到满足精度的极小值点。

牛顿法的具体实现：基本牛顿法和全局牛顿法

基本牛顿法

（1）原理：对于一维函数问题，将函数的极值问题转化为求f’(x)=0的问题。将函数做二阶泰勒展开：对等式两边关于x求导，得到得到 $x=x_k-\dfrac{f’(x_k)}{f’’(x_k)}$ 这是牛顿法的基本更新公式
（2）基本流程：

优缺点：

1、牛顿法收敛速度很快且具有局部二阶收敛性
2、基本牛顿法依赖于初始点的选取，若初始点未足够靠近极小点，会导致算法不收敛.

全局牛顿法

全局牛顿法是对基本牛顿法的一个改进
（1）基本流程

（2）Armijo搜索
就是在更新 $x_k$ 时，给 $d_k$ 加一个系数，改变更新值

共轭梯度法（Conjugate Gradient）

共轭梯度法介于最速下降法和牛顿法之间，用于求解无约束最优化问题，仅需要利用一阶导数的相关信息，但可以克服最速下降法收敛慢的缺点，是解决大型线性方程组/大型非线性最优化的有效方法之一。

基本思想：将共轭性和最速下降法相结合，利用已知点的梯度构造一组共轭方向，并沿该方向搜索，求出目标函数的极小点。

目标函数： $x^* = arg \min\dfrac {1}{2}x^TAx -bx$
梯度： $\nabla f(x^*) = Ax^* - b =0$

共轭方向的定义：

算法流程：

其中r为残差，d为梯度方向，x为出发点

优点：存储量小，具有步收敛性，稳定性高，且不需要任何外来参数。

GD与另两种优化算法的比较

梯度下降法和牛顿法：
两者都是梯度求解，而牛顿法/拟牛顿法是用二阶海塞矩阵的逆矩阵或伪逆矩阵求解。相对而言，使用牛顿法收敛更快，但是每次迭代时间比梯度下降法长。
梯度下降算法和共轭梯度法：
共轭梯度法克服了梯度下降算法中的收敛慢的缺点。

pytorch优化函数包

torch.optim是一个实现了各种优化算法的库。大部分常用的方法得到支持，并且接口具备足够的通用性，使得未来能够集成更加复杂的方法。

优化函数	特殊参数说明
torch.optim.Adadelta(params, lr=1.0, rho=0.9, eps=1e-06, weight_decay=0)	lr_decay (float, 可选) – 学习率衰减；weight_decay (float, 可选) – 权重衰减（L2惩罚）
torch.optim.Adam(params, lr=0.001, betas=(0.9, 0.999), eps=1e-08, weight_decay=0)	betas (Tuple[float, float], 可选) – 用于计算梯度以及梯度平方的运行平均值的系数；eps (float, 可选) – 为了增加数值计算的稳定性而加到分母里的项；
torch.optim.RMSprop(params, lr=0.01, alpha=0.99, eps=1e-08, weight_decay=0, momentum=0, centered=False)	momentum (float, 可选) – 动量因子；alpha (float, 可选) – 平滑常数；centered (bool, 可选) – 如果为True，计算中心化的RMSProp，并且用它的方差预测值对梯度进行归一化；
torch.optim.SGD(params, lr=, momentum=0, dampening=0, weight_decay=0, nesterov=False)	dampening (float, 可选) – 动量的抑制因子；nesterov (bool, 可选) – 使用Nesterov动量
torch.optim.Adamax(params, lr=0.002, betas=(0.9, 0.999), eps=1e-08, weight_decay=0)
torch.optim.ASGD(params, lr=0.01, lambd=0.0001, alpha=0.75, t0=1000000.0,weight_decay=0)	lambd (float, 可选) – 衰减项； alpha (float, 可选) – eta更新的指数； t0 (float, 可选) – 指明在哪一次开始平均化

以SGD为例，实现完整的一次优化步骤：

optimizer = torch.optim.SGD(model.parameters(), lr=0.1, momentum=0.9)
optimizer.zero_grad() #累计梯度清零
loss_fn(model(input), target).backward() # backward计算损失函数梯度
optimizer.step() # 做一次更新

参考资料

1）https://blog.csdn.net/u012759136/article/details/52302426/
2）https://www.cnblogs.com/shixiangwan/p/7532830.html
3)https://pytorch-cn.readthedocs.io/zh/latest/package_references/torch-optim/

[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
【安装环境】配置MMTracking环境 xuanyu22 安装环境机器学习神经网络深度学习 python
版本v0.14.0安装torchnumpy的版本不能太高，否则后面安装时会发生冲突。先安装numpy，因为pytorch的安装会自动配置高版本numpy。condainstallnumpy=1.21.5mmtracking支持的torch版本有限，需要找到合适的condainstallpytorch==1.11.0torchvision==0.12.0cudatoolkit=10.2-cpytor
Python(PyTorch)和MATLAB及Rust和C++结构相似度指数测量导图亚图跨际 Python 交叉知识算法量化检查图像压缩质量低分辨率多光谱峰值信噪比端到端优化图像压缩手术机器人三维实景实时可微分渲染重建三维可视化
要点量化检查图像压缩质量低分辨率多光谱和高分辨率图像实现超分辨率分析图像质量图像索引/多尺度结构相似度指数和光谱角映射器及视觉信息保真度多种指标峰值信噪比和结构相似度指数测量结构相似性图像分类PNG和JPEG图像相似性近似算法图像压缩，视频压缩、端到端优化图像压缩、神经图像压缩、GPU变速图像压缩手术机器人深度估计算法重建三维可视化推理图像超分辨率算法模型三维实景实时可微分渲染算法MATLAB结构
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
Pyorch中 nn.Conv1d 与 nn.Linear 的区别迪三 #NN_Layer 神经网络
即一维卷积层和全联接层的区别nn.Conv1d和nn.Linear都是PyTorch中的层，它们用于不同的目的，主要区别在于它们处理输入数据的方式和执行的操作类型。nn.Conv1d通过应用滑动过滤器来捕捉序列数据中的局部模式，适用于处理具有时间或序列结构的数据。nn.Linear通过将每个输入与每个输出相连接，捕捉全局关系，适用于将输入数据作为整体处理的任务。1.维度与输入nn.Conv1d（一
图片中的上采样，下采样和通道融合(up-sample, down-sample, channel confusion) 迪三 #图像处理_PyTorch 计算机视觉深度学习人工智能
前言以conv2d为例（即图片），Pytorch中输入的数据格式为tensor，格式为:[N,C,W,H,W]第一维N.代表图片个数，类似一个batch里面有N张图片第二维C.代表通道数，在模型中输入如果为彩色，常用RGB三色图，那么就是3维，即C=3。如果是黑白的，即灰度图，那么只有一个通道，即C=1第三维H.代表图片的高度，H的数量是图片像素的列数第四维W.代表图片的宽度，W的数量是图片像素的
深度学习：怎么看pth文件的参数奥利给少年深度学习人工智能
.pth文件是PyTorch模型的权重文件，它通常包含了训练好的模型的参数。要查看或使用这个文件，你可以按照以下步骤操作：1.确保你有模型的定义你需要有创建这个.pth文件时所用的模型的代码。这意味着你需要有模型的类定义和架构。2.加载模型权重使用PyTorch的load_state_dict方法来加载权重。这里是如何操作的：importtorchimporttorch.nnasnn#定义模型结构
每天五分钟玩转深度学习PyTorch：模型参数优化器torch.optim 幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 人工智能神经网络机器学习优化算法
本文重点在机器学习或者深度学习中，我们需要通过修改参数使得损失函数最小化(或最大化)，优化算法就是一种调整模型参数更新的策略。在pytorch中定义了优化器optim，我们可以使用它调用封装好的优化算法，然后传递给它神经网络模型参数，就可以对模型进行优化。本文是学习第6步(优化器)，参考链接pytorch的学习路线随机梯度下降算法在深度学习和机器学习中，梯度下降算法是最常用的参数更新方法，它的公式
【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程牙牙要健康深度学习 onnx onnxruntime 深度学习 python 人工智能
【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程提示:博主取舍了很多大佬的博文并亲测有效,分享笔记邀大家共同学习讨论文章目录【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程前言模型转换--pytorch转onnxWindows平台搭建依赖环境onnxruntime调用onnx模型ONNXRuntime推理核
天下苦英伟达久矣！PyTorch官方免CUDA加速推理，Triton时代要来？诗者才子酒中仙物联网 /互联网 /人工智能 /其他 pytorch 人工智能 python
在做大语言模型（LLM）的训练、微调和推理时，使用英伟达的GPU和CUDA是常见的做法。在更大的机器学习编程与计算范畴，同样严重依赖CUDA，使用它加速的机器学习模型可以实现更大的性能提升。虽然CUDA在加速计算领域占据主导地位，并成为英伟达重要的护城河之一。但其他一些工作的出现正在向CUDA发起挑战，比如OpenAI推出的Triton，它在可用性、内存开销、AI编译器堆栈构建等方面具有一定的优势
pytorch安装(windows) m0_62244898 windows 人工智能
（1）下载pycharmPyCharm:thePythonIDEforProfessionalDevelopersbyJetBrains(2)下载anacondaAnaconda|TheWorld'sMostPopularDataSciencePlatform(3)创建一个新环境：torchcondacreate-ntorch-y(4)进入新环境condaactivatetorch(5)加入清华源
深度学习入门篇：PyTorch实现手写数字识别 AI_Guru人工智能深度学习 pytorch 人工智能
深度学习作为机器学习的一个分支，近年来在图像识别、自然语言处理等领域取得了显著的成就。在众多的深度学习框架中，PyTorch以其动态计算图、易用性强和灵活度高等特点，受到了广泛的喜爱。本篇文章将带领大家使用PyTorch框架，实现一个手写数字识别的基础模型。手写数字识别简介手写数字识别是计算机视觉领域的一个经典问题，目的是让计算机能够识别并理解手写数字图像。这个问题通常作为深度学习入门的练习，因为
【ShuQiHere】小白也能懂的 TensorFlow 和 PyTorch GPU 配置教程 ShuQiHere tensorflow pytorch 人工智能
【ShuQiHere】在深度学习中，GPU的使用对于加速模型训练至关重要。然而，对于许多刚刚入门的小白来说，如何在TensorFlow和PyTorch中指定使用GPU进行训练可能会感到困惑。在本文中，我将详细介绍如何在这两个主流的深度学习框架中指定使用GPU进行训练，并确保每一个步骤都简单易懂，跟着我的步骤来，你也能轻松上手！1.安装所需库首先，确保你已经安装了TensorFlow或PyTorch
解决ModuleNotFoundError: No module named ‘torch的方法梅菊林各种问题解决方案开发语言
ModuleNotFoundError:Nomodulenamed‘torch’错误是Python在尝试导入名为torch的模块时找不到该模块而抛出的异常。torch是PyTorch深度学习框架的核心库，如果你的Python环境中没有安装这个库，尝试导入时就会遇到这个错误。文章目录报错问题报错原因解决方法报错问题当你尝试在Python脚本或交互式环境中执行以下命令时：importtorch如果Py
Python中item()和items()的用处 ~|Bernard| 深度学习疑点总结 python pytorch 深度学习
item()区别一:在pytorch训练时，一般用到.item()。比如loss.item()。我们可以做个简单测试代码看看它的区别:importtorchx=torch.randn(2,2)print(x)print(x[1,1])print(x[1,1].item())运行结果:tensor([[-2.0743,0.1675],[0.7016,-0.6779]])tensor(-0.6779)
GPU版pytorch安装普通攻击往后拉 python tips 神经网络基础模型关键点
由于经常重装系统，导致电脑的环境需要经常重新配置，其中尤其是cudatorch比较难以安装，因此记录一下安装GPU版本torch的过程。1）安装CUDAtoolkit这个可以看做是N卡所有cuda计算的基础，一般都会随驱动的更新自动安装，但是不全，仍然需要安装toolkit，并不需要先看已有版本是哪个，反正下载完后会自动覆盖原有的cuda。下载网站两个：国内网站：只能下载最新的toolkit，但是
轻松升级：Ollama + OpenWebUI 安装与配置【AIStarter】 ai_xiaogui AI作画 AI软件人工智能 AI写作 AIStarter
Ollama是一个开源项目，用于构建和训练大规模语言模型，而OpenWebUI则提供了一个方便的前端界面来管理和监控这些模型。本文将指导你如何更新这两个工具，并顺利完成配置。准备工作确保你的系统已安装Git和Python环境。安装必要的依赖库，如TensorFlow或PyTorch等。更新步骤克隆项目：使用Git命令行工具克隆最新的Ollama和OpenWebUI仓库到本地。更新代码：确保你正在使
conda环境管理 Johnson0722 python python conda 环境管理
Anaconda使用软件包管理系统Conda进行包管理，为用户对不同版本、不同功能的工具包的环境进行配置和管理提供便利。来看一看使用conda来进行环境管理的基本命令创建环境创建一个名为test的python环境，指定python版本是3.7.3，并在test环境中安装pytorchcondacreate--nametestpython=3.7.3pytorch查看系统中的所有环境用户安装的不同环
R-Drop pytorch实现 warpin 深度学习深度学习 pytorch
Pytorch实现了R-Drop，可以用于训练分类模型。#-*-coding:utf-8-*-"""Description:AnimplementationofR-Drop(https://arxiv.org/pdf/2106.14448.pdf).Authors:lihpCreateDate:2021/8/24"""fromtorchimportnnfromtorch.nnimportfunct
Transformer模型：WordEmbedding实现 Galaxy.404 Transformer transformer 深度学习人工智能 embedding
前言最近在学Transformer，学了理论的部分之后就开始学代码的实现，这里是跟着b站的up主的视频记的笔记，视频链接：19、Transformer模型Encoder原理精讲及其PyTorch逐行实现_哔哩哔哩_bilibili正文首先导入所需要的包：importtorchimportnumpyasnpimporttorch.nnasnnimporttorch.nn.functionalasF关
如何使用Pytorch-Metric-Learning？鱼儿也有烦恼 PyTorch pytorch
文章目录如何使用Pytorch-Metric-Learning？1.Pytorch-Metric-Learning库9个模块的功能1.1Sampler模块1.2Miner模块1.3Loss模块1.4Reducer模块1.5Distance模块1.6Regularizer模块1.7Trainer模块1.8Tester模块1.9Utils模块2.如何使用PyTorchMetricLearning库中的
每天五分钟玩转深度学习框架PyTorch：获取神经网络模型的参数幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 神经网络人工智能模型参数 python
本文重点当我们定义好神经网络之后，这个网络是由多个网络层构成的，每层都有参数，我们如何才能获取到这些参数呢？我们将再下面介绍几个方法来获取神经网络的模型参数，此文我们是为了学习第6步（优化器）。获取所有参数Parametersfromtorchimportnnnet=nn.Sequential(nn.Linear(4,2),nn.Linear(2,2))print(list(net.paramet
一维数组 list 呢，怎么转换成 (批次句子长度特征值 )三维向量 python pytorch lstm 编程人工智能 zhangfeng1133 python pytorch 人工智能数据挖掘
一、介绍对于一维数组，如果你想将其转换成适合深度学习模型（如LSTM）输入的格式，你需要考虑将其扩展为三维张量。这通常涉及到批次大小（batchsize）、序列长度（sequencelength）和特征数量（numberoffeatures）的维度。以下是如何将一维数组转换为这种格式的步骤：###1.确定维度-**批次大小（BatchSize）**：这是你一次处理的样本数量。-**序列长度（Seq
每天五分钟玩转深度学习框架PyTorch：将nn的神经网络层连接起来幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 神经网络人工智能机器学习 python
本文重点前面我们学习pytorch中已经封装好的神经网络层，有全连接层，激活层，卷积层等等，我们可以直接使用。如代码所示我们直接使用了两个nn.Linear（），这两个linear之间并没有组合在一起，所以forward的之后，分别调用了，在实际使用中我们常常将几个神经层组合在一起，这样不仅操作方便，而且代码清晰。这里介绍一下Sequential()和ModuleList()，它们可以将多个神经网
项目实训十四 qq_51946537 项目实训 python
将pytorch模型封装成接口由于前面对于模型的构建、训练、评估都以完成，接下来要做的就是将按照项目要求，将模型封装成接口，供后端直接调用。我需要做的是后端直接调用系统命令pythonprase.py-img图片便可以直接得到解析结果。由于前面的测试模型的正确率都是批量处理过的图片，而现在前端只会传过来要解析的图片或者图片路径，而且图片也是未经处理过的，显然直接输入不会得到好的结果，并且性能也会比
pytorch矩阵乘法 weixin_45694975 pytorch 深度学习神经网络
一、torch.bmminput1shape:(batch_size,seq1_len,emb_dim)input2shape:(batch_size,emb_dim,seq2_len)outputshape:(batch_size,seq1_len,seq2_len)注意：torch.bmm只适合三维tensor做矩阵运算特别地，torch.bmm支持tenso广播运算input1shape:(
pytorch矩阵乘法总结 chenxi yan PyTorch 学习 pytorch 矩阵深度学习
1.element-wise（*）按元素相乘，支持广播，等价于torch.mul()a=torch.tensor([[1,2],[3,4]])b=torch.tensor([[2,3],[4,5]])c=a*b#等价于torch.mul(a,b)#tensor([[2,6],#[12,20]])a*torch.tensor([1,2])#广播,等价于torch.mul(a,torch.tensor
推荐开源项目：PyTorch-Metric-Learning 潘惟妍
推荐开源项目：PyTorch-Metric-Learningpytorch-metric-learningTheeasiestwaytousedeepmetriclearninginyourapplication.Modular,flexible,andextensible.WritteninPyTorch.项目地址:https://gitcode.com/gh_mirrors/py/pytorc
pytroch2.4 提示到不到fbgemm.dll bziyue python pytorch
#python/pytorch/问题记录```>>>importtorchTraceback(mostrecentcalllast):File"",line1,inFile"C:\Users\95416\AppData\Local\Programs\Python\Python312\Lib\site-packages\torch\__init__.py",line148,inraiseerrOSE
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f