magic_ll

【pytorch系列】优化器optimizer的使用与常用优化器

1 optimizer类实例

1.1 介绍

属性
【default】该实例的类型为 dict，元素为初始化时候的学习率等，具体的keys为
 ['lr','momentum',  'dampening',  'weight_decay',  'nesterov']
【state】保存参数更新过程中的一些中间变量，如momentum的缓存（使用前几次的梯度进行平均）
【params_groups】该实例的类型为 list，可以将神经网络中需要更新的参数分组管理，list中每个元素为一组数据，包括：优化器中需要更新的参数，以及default中超参数在当前的对应数据。数据格式为
[
{'lr': **, 'momentum': **,  'dampening':**,  'weight_decay':**,  'nesterov':**, 'params':[**]} ,
 ...
]
方法

【step()】进行一次梯度更新

【zero_grad()】清零优化器中模型参数的梯度。主要在 .step() 后使用。注意pytorch主张张量梯度不自动清零

【add_param_group()】入参类型为字典，即要添加参数组，以及对该组参数需设置的超参，如未设置默认使用default中的。添加的参数组会存放在 param_group属性当中。优化器可管理多组数据，该方法在finetune模型时经常使用。

【state_dict()】获取优化器当前状态信息，我们去到源码可看到，该方法的返回值如下

【load_state_dict()】加载状态信息。这两个方法用于模型断点的一个继续训练，所以我们在训练时，隔一段时间应保存一次该信息。

这里补充说明下参数weight_deacy：

当需要设置L2正则时，可不用自定义额外添加到损失函数中。只需要在实例化 optimizer时，设置weight_deacy即可，此时优化器在进行权重的更新时使用的公式为
$w_{i+1}=w_i*(1-weight\_decay)+\frac{\partial{Loss}}{\partial{w_i}}$ 。那么这个公式是如何等价L2正则呢？
当损失函数中使用的是L2正则：
$\begin{aligned} Obj&=Cost+Regularization Term \\ &=Loss+\frac{\lambda}{2}*\sum_{i}^{N}w^2_i \\ w_{i+1}&=w_i-\frac{\partial{Obj}}{\partial{w_i}} \\ &=w_i-\frac{\partial{Loss}}{\partial{w_i}}-\lambda*w_i \\ &=w_i(1-\lambda)-\frac{\partial{Loss}}{\partial{w_i}} \end{aligned}$

1.2 例子

这里使用个小例子来说明优化器的使用：
import torch
import torch.nn as nn
import torch.optim as optim

def geneWeight():
    weight = torch.randn((2,2),requires_grad=True)
    weight.grad = torch.ones((2,2))
    return weight
torch.manual_seed(0)
a = geneWeight()
b = geneWeight()

optimizer = optim.SGD([a], lr=0.1)
optimizer.add_param_group({'params': [b], 'weight_decay': 0.005})

optimizer.step()
optimizer.zero_grad()
可有以下分析
1 【optimizer的属性】在实例化后进行debug，可看到【default、param_groups、state】

2 optimizer.add_param_group()运行之后的optimizer的内容如下，可以看到【.add_param_group()】的操作将新的参数组添加到优化器中

【optimizer.param_groups中的参数】与【变量（在工程中就是网络模型中的参数）】的关系：
打印两者的id，可以看到是完全一致的，说明optimize.param_groups中的参数存的是网络中参数的引用，这样操作也是为了节省内存

3【optimizer.step() 和 optimizer.zero_grad()】

使用debug模式，在该.step()命令运行前后分别打印变量的data和grad，可以看到权重进行了更新，对于SGD优化器的更新公式为【weight = weight - lr * grad】

在.zero_grad() 命令前后运行分别打印参数信息，可以看到梯度置零

可以看到，权重的更新和梯度的置零是分开操作的。当资源有限的情况下，就可以多次进行梯度计算（这里涉及到loss.backward）求梯度均值，再进行权重更新和梯度置零，这就是 梯度累计操作。这样在资源有限的情况下，约等于增大了前向传播的batch。
4【.state_dict() 和 .load_state_dict()】
这两种方法，是用于保存和加载优化器的一个状态信息，经常用于训练中间断掉后的继续训练。
在第一次运行保存结果时的 optimizer，和第二次运行加载模型后的optimizer，可查看两次的优化器当中的 state_dict()的内容，这里不截图展示。
 import torch
 import torch.nn as nn
 import torch.optim as optim
 import os
  
 def geneWeight():
     weight = torch.randn((2,2),requires_grad=True)
     weight.grad = torch.ones((2,2))
     return weight
 
 torch.manual_seed(0)
 a = geneWeight()
 b = geneWeight()
 
 optimizer = optim.SGD([a], lr=0.1)
 optimizer.add_param_group({'params': [b]})
 
 ckpt = "optimizer_state_dict.pt"
 pretrained = True
 if pretrained and os.path.exit(ckpt):
     state_dict = torch.load(ckpt)
     optimizer.load_state_dict(state_dict)
 
 for i in range(100):
     optimizer.step()
     torch.save(optimizer.state_dict(), ckpt)

2 常用优化器的计算

损失函数：深度学习模型通过引入损失函数，用来计算目标预测的错误程度。根据损失函数计算得到的误差结果，需要对模型参数（即权重和偏差）进行很小的更改，以期减少预测错误。
优化器：使损失函数最小化的方式更改可训练参数，损失函数指导优化器朝正确的方向移动。

优化器的发展历程：SGD -> SGDM -> NAG —>AdaGrad -> AdaDelta -> Adam -> Nadam–>…
从AdaGrad之后提出的为自适应学习率的优化算法。其思想：经常更新的参数，需要学习速度慢一些，偶尔更新的参数，需要学习率大一些。

2.1 SGD

【BGD (Batch gradient descent) 批量梯度下降法】：每次的梯度的更新使用所有的样本。每一次的梯度更新都使用所有样本，更新100次遍历所有数据100次

优点：每次迭代都计算了全部的样本，获取到的是全局最优解

缺点：
1）要对实际数据同时计算梯度，就会非常的耗时；
2）同事实际使用中数据量都很大，无法进行一次完成所有数据的迭代。

【SGD（Stochastic gradientdescent）随机梯度下降法】：每次的梯度的更新使用一个样本。

优点：速度快

缺点：
1）噪声大，波动大；
2）非常容易陷入局部最优解；
3）结果具有随机性，因为可能只使用到部分的样本，就已经迭代到局部最优解了

【MBGD（Mini-batch gradient descent）小批量梯度下降】：每次的梯度的更新使用batch个样本。

优点：
1）相较SGD收敛更稳定；
2）另一方面可以充分地利用深度学习库中高度优化的矩阵操作来进行更有效的梯度计算。

缺点：
1）SGD的学习受学习率影响，如果lr偏大，lossfunction 会在极小值处不停地震荡；lr偏小，收敛速度就会变慢。
这种情况一般解决方法，训练开始使用较大lr，随着迭代过程逐步降低lr，这样我们需要多尝试 lr降低策略，直到找到最优的）
2）对于非凸函数，容易陷入局部最优解。因为在鞍点周围的所有维度的梯度都约等于0，就很容易困在这里

但在实际的论文或工程中，所说的使用优化器SGD，其实指代的MBGD。这样强调的重点是参数更新的计算方式，而不是batch数量。所以在本博客接下来的表述中，SGD就指代MBGD。

SGD的表达式为： $\theta^{t}=\theta^{t-1}-lr*\bigtriangledown _{t}J(\theta^{t})$

2.2 SGD+Momentum

为了优化SGD的问题，提出了SGDM（使用动量的随机梯度下降）。
动量方法是为了加速学习（加速梯度下降），特别的是处理高曲率、小但一致的梯度，或带噪声的梯度。动量累积了之前梯度指数级衰减的移动平均，并继续沿该方向移动。
这里约等于是对动量进行了加权平均。

具体的数学表达式如下: $v^{t} = \gamma v^{t-1} + lr*\bigtriangledown J(\theta^{t})$ $\theta^{t}=\theta^{t-1}-v^{t}$
其中， $g^t$ 为本次计算的梯度， $l r$ 为学习率， $\theta$ 为当前的参数。
$\gamma$ 为动量因子，通常被设置为0.9~0.99之间。

【SGDM】好处：

减小震荡，加速收敛：在前后两次梯度方向改变时，momentum能够降低参数更新速度，从而减少震荡；在两次梯度方向相近时，momentum可以加速参数更新，从而加速收敛

离开鞍点，离开局部最优：如果运行到了鞍点，不会立马停下来，即使当前的方向为水平，因为会借用上一时刻的动量，从而离开鞍点，离开局部最优值。

在pytorch中，SGDM的公式调整为 $v^{t} = \gamma v^{t-1} + \bigtriangledown J(\theta^{t})$ $\theta^{t}= \theta^{t-1}-lr*v^{t}$

这里图示简单示意SGDM是如何减小震荡的。横轴为权重参数，纵轴为该操作的输出，我们想由起始点开始优化迭代，直至目标输出target。

使用SGD的收敛曲线 (图一)，进行了7次的梯度更新后，到达target。使用SGDM的收敛曲线 (图二)，进行4次的梯度更新后，到达target。
对与某一次的迭代，若上次和本次的梯度方向相反（夹角大于90），则会减弱本次的梯度，使其减小震荡，加速收敛 (图三)；若上次和本次的梯度方向相近（夹角小于90度），动量项产生一个加速的作用，从而加速收敛（图略）。最后给出个动图模拟两者的收敛


2.3 NAG

牛顿加速梯度动量优化方法(NAG, Nesterov accelerated gradient)：沿着上一步的速度方向先走一小步，再看当前的梯度然后再走一步。简化的理解是：

SGD：在点B时，直接沿着点B的梯度进行更新即可

SGDM：在点B时，先沿着动量项的方向更新到B’，然后在按照点B的梯度方向更新。

NAG：在点B时，先沿着动量项的方向更新到 B’，然后计算B’ 位置的梯度，再沿着 B’ 的梯度方向进行更新。具体公式为 $\theta^{'}=\theta^{t-1}-\gamma v_{t-1}$ $v_{t}=\gamma v_{t-1}+lr*\bigtriangledown J(\theta^{'})$ $\theta^{t}=\theta^{t-1}-v_t$

在pytorch内，对需要训练的参数只维护一组参数的，而且是自动求导。这也就意味着，我们每次的梯度更新是需要走到 $\theta^{'}$ ，下一次的backward才能在 $\theta^{'}$ 处求导。虽然最后得到的是“多跨了一步动量”的参数，但是由于到最后靠近极值点的时候动量已经很小了，所以有一点误差也并无大碍。
经推导，上面可修改为 $v_t=\gamma v_{t-1} + \bigtriangledown J(\theta^{'}_{t-1})$ $\theta^{'}_{t} = \theta^{'}_{t-1} - lr * (\bigtriangledown J(\theta^{'}_{t-1}) + \gamma v_{t})$

2.4 AdaGrad

二阶动量：可以度量历史更新频率。使⽤⼀个小批量随机梯度 $g_t$ 按元素平⽅的累加变量的所有历史累计值 $n_t$ 。可以解释为以往所有梯度值的平方和，越大表示经常跟新，越小表示不经常更新。
$n_0=g^{2}_0$
$n_1=g^{2}_0+g^{2}_1$
$n_2=g^{2}_0+g^{2}_1+g^{2}_2$

AdaGrad 的操作为：根据梯度的情况自适应的调整学习率，从而避免统⼀的学习率难以适应所有维度的问题。在第t次时，有公式： $n_{t}=n_{t-1}+g^{2}_{t}$ $\Delta \theta_{t}=-\frac{lr}{\sqrt{n_{t}+\varepsilon }}*g_{t}$
特点：

$n_t$ 单调递增， $lr^{'}$ 单调递减。

前期 $n_t$ 较小的时候，学习率较大，能够放大梯度。
后期 $n_t$ 较大的时候，学习率较小，能够缩小梯度
中后期，分母上梯度平方的累加会越来越大，使gradient→0，使得训练提前结束。

2.5 RMSProp算法 / Adadelta算法

两者都是为了解决 AdaGrad 学习率下降过快的问题，提出了 $n_t$ 的计算使用加权的方式，只关注过去一段时间内的变化。

对于RMSProp，更新的梯度为 $n_{t}=\gamma n_{t-1}+(1-\gamma)g^{2}_{t}$ $\Delta \theta_{t}=-\frac{lr}{\sqrt{n_{t}+\varepsilon }}*g_{t}$

对于Adadelta，没有学习率这个超参数。它会维护一个新的变量 $\Delta x_{t}$ ，初始为0，用其来带替学习率的设置。
$n_{t}=\gamma n_{t-1}+(1-\gamma)g^{2}_{t}$ $\Delta \theta_{t}=-\frac{\sqrt{\Delta x_{i-1}+\varepsilon }}{\sqrt{n_{t}+\varepsilon }}*g_{t}$ $\Delta x_{i}=\rho \Delta x_{i-1}+(1-\rho )g^{2}_{t}$

2.6 Adam

Adam(Adaptive Moment Estimation)自适应矩估计。adam–> SGDM + RMSProp，也就是结合了动量加权、自适应学习率的系数加权（梯度的平方）。公式为 $v_t=\beta_{1}v_{t-1} + (1-\beta_1)g_t$ $n_t=\beta_2n_{t-1} + (1-\beta_2)g^2_t$ 作者发现一阶和二阶值初始训练时很小，接近为0，所以作者重新计算了个偏差进行校正，降低偏差对训练初期的影响。训练前期时， $1/(1-\beta^t)$ 起到校正作用，训练后期，该项约定于1，不起作用。 $\hat{v}_t=\frac{v_t}{1-\beta^t_1}$ $\hat{n}_t=\frac{n_t}{1-\beta^t_2}$ 最终的梯度更新为 $\theta_{t+1}=\theta_t-\frac{lr}{\sqrt{\hat{n}_t+\varepsilon}}\hat{v}_t$ 其中 $\beta^t_1$ 、 $\beta^t_2$ 为 $\beta$ 的t次方。超参通常选择 $\beta_1=0.9$ 、 $\beta_2=0.999$ 、 $\varepsilon=10^8$

adam中 $1/(1-\beta^t)$ 的参数的推导：
$n_1=(1-\beta_2)g^2_1$
$n_2=\beta_2 v_1+(1-\beta)g^2_2$
$=\beta_2(1-\beta_2)g^2_1+(1-\beta_2)g^2_2$
$=(1-\beta_2)(\beta_2g^2_1+g^2_2)$
$=(1-\beta_2)(\beta^{2-1}_2g^2_1+\beta^{2-2}_2g^2_2)$
$=(1-\beta_2)\sum^2_{i=1}\beta^{2-i}_2g^2_2$
$n_t=(1-\beta_2)\sum^t_{i=1}\beta^{t-1}_2 g^2_i$
$E(n_t)=(1-\beta_2) E(\sum^{t}_{i=1}\beta^{t-i}_2 g^2_i)+\xi$
$=(1-\beta_2)(1+\beta^1_2+\beta^2_2+...+\beta^{t-1}_2)E(g^2_i)+\xi$
$=(1-\beta_2)(\frac{1-\beta^t_2}{1-\beta_2})E(g^2_i)+\xi$
$=(1-\beta^t_2)E(g^2_i)+\xi$
我们实际需要的是梯度的二阶矩估计 $E(g^2_i)$ ，但当前是对 $v_t$ 求期望 $E(v_t)$ ，因此要得到 $E(g^2_i)$ ，就需要除以前面的系数。
公式推导是OK的，但这里的个人理解还是有点不明确。只需要把握住：重新计算了个偏差进行校正，可以降低偏差对训练初期的影响。

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
seaborn又一个扩展heatmapz qq_21478261 #Python可视化 matplotlib
推荐阅读：Pythonmatplotlib保姆级教程嫌Matplotlib繁琐？试试Seaborn！
NGS测序基础梳理01-文库构建（Library Preparation） qq_21478261 #生物信息生物学
本文介绍Illumina测序平台文库构建（LibraryPreparation）步骤，文库结构。写作时间：2020.05。推荐阅读：10W字《Python可视化教程1.0》来了！一份由公众号「pythonic生物人」精心制作的PythonMatplotlib可视化系统教程，105页PDFhttps://mp.weixin.qq.com/s/QaSmucuVsS_DR-klfpE3-Q10W字《Rg
Python 常用内置函数详解（七）：dir()函数——获取当前本地作用域中的名称列表或对象的有效属性列表
目录一、功能二、语法和示例一、功能dir()函数获取当前本地作用域中的名称列表或对象的有效属性列表。二、语法和示例dir()函数有两种形式，如果没有实参，则返回当前本地作用域中的名称列表。如果有实参，它会尝试返回该对象的有效属性列表。如果对象有一个名为__dir__()的方法，那么该方法将被调用，并且必须返回一个属性列表。dir()函数的语法格式如下：C:\Users\amoxiang>ipyth
pythonjson中list操作_Python json.dumps 特殊数据类型的自定义序列化操作
场景描述：Python标准库中的json模块，集成了将数据序列化处理的功能；在使用json.dumps()方法序列化数据时候，如果目标数据中存在datetime数据类型，执行操作时，会抛出异常：TypeError:datetime.datetime(2016,12,10,11,04,21)isnotJSONserializable那么遇到json.dumps序列化不支持的数据类型，该怎么办！首先，
Python 日期格式转json.dumps的解决方法 douyaoxin python json 开发语言
classDateEncoder(json.JSONEncoder):defdefault(self,obj):ifisinstance(obj,datetime.datetime):returnobj.strftime('%Y-%m-%d%H:%M:%S')elifisinstance(obj,datetime.date):returnobj.strftime("%Y-%m-%d")json.d
Python 爬虫实战：视频平台播放量实时监控（含反爬对抗与数据趋势预测）西攻城狮北 python 爬虫音视频
一、引言在数字内容蓬勃发展的当下，视频平台的播放量数据已成为内容创作者、营销人员以及行业分析师手中极为关键的情报资源。它不仅能够实时反映内容的受欢迎程度，更能在竞争分析、营销策略制定以及内容优化等方面发挥不可估量的作用。然而，视频平台为了保护自身数据和用户隐私，往往会设置一系列反爬虫机制，对数据爬取行为进行限制。这就向我们发起了挑战：如何巧妙地突破这些限制，同时精准地捕捉并预测播放量的动态变化趋势
Python技能手册 - 模块module 金色牛神 Python python windows 开发语言
系列Python常用技能手册-基础语法Python常用技能手册-模块modulePython常用技能手册-包package目录module模块指什么typing数据类型int整数float浮点数str字符串bool布尔值TypeVar类型变量functools高阶函数工具functools.partial()函数偏置functools.lru_cache()函数缓存sorted排序列表排序元组排序
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
Ubuntu基础（Python虚拟环境和Vue） aaiier ubuntu python linux
Python虚拟环境sudoaptinstallpython3python3-venv进入项目目录cdXXX创建虚拟环境python3-mvenvvenv激活虚拟环境sourcevenv/bin/activate退出虚拟环境deactivateVue安装Node.js和npm#安装Node.js和npm（Ubuntu默认仓库可能版本较旧，适合入门）sudoaptinstallnodejsnpm#验
苦练Python第9天：if-else分支九剑 python后端前端人工智能
苦练Python第9天：if-else分支九剑前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众号：倔强青铜三。欢迎点赞、收藏、关注，一键三连！！！欢迎来到100天Python挑战第9天！今天我们不练循环，改磨“分支剑法”——ifelse三式：单分支、双分支、多分支，以及嵌套和三元运算符，全部实战演练，让
ViewController添加button按钮解析。（翻译）张亚雄 c
<div class="it610-blog-content-contain" style="font-size: 14px"></div>// ViewController.m // Reservation software // // Created by 张亚雄 on 15/6/2.
mongoDB 简单的增删改查开窍的石头 mongodb
在上一篇文章中我们已经讲了mongodb怎么安装和数据库/表的创建。在这里我们讲mongoDB的数据库操作在mongo中对于不存在的表当你用db.表名他会自动统计下边用到的user是表明，db代表的是数据库添加(insert):
log4j配置 0624chenhong log4j
1) 新建java项目 2) 导入jar包，项目右击，properties—java build path—libraries—Add External jar，加入log4j.jar包。 3) 新建一个类com.hand.Log4jTest package com.hand; import org.apache.log4j.Logger; public class
多点触摸(图片缩放为例) 不懂事的小屁孩多点触摸
多点触摸的事件跟单点是大同小异的，上个图片缩放的代码，供大家参考一下 import android.app.Activity; import android.os.Bundle; import android.view.MotionEvent; import android.view.View; import android.view.View.OnTouchListener
有关浏览器窗口宽度高度几个值的解析换个号韩国红果果 JavaScript html
1 元素的 offsetWidth 包括border padding content 整体的宽度。 clientWidth 只包括内容区 padding 不包括border。 clientLeft = offsetWidth -clientWidth 即这个元素border的值 offsetLeft 若无已定位的包裹元素
数据库产品巡礼：IBM DB2概览蓝儿唯美 db2
IBM DB2是一个支持了NoSQL功能的关系数据库管理系统，其包含了对XML，图像存储和Java脚本对象表示（JSON）的支持。DB2可被各种类型的企业使用，它提供了一个数据平台，同时支持事务和分析操作，通过提供持续的数据流来保持事务工作流和分析操作的高效性。 DB2支持的操作系统 DB2可应用于以下三个主要的平台: 工作站，DB2可在Linus、Unix、Windo
java笔记5 a-john java
控制执行流程： 1，true和false 利用条件表达式的真或假来决定执行路径。例：（a==b）。它利用条件操作符“==”来判断a值是否等于b值，返回true或false。java不允许我们将一个数字作为布尔值使用，虽然这在C和C++里是允许的。如果想在布尔测试中使用一个非布尔值，那么首先必须用一个条件表达式将其转化成布尔值，例如if(a!=0)。 2，if-els
Web开发常用手册汇总 aijuans PHP
一门技术，如果没有好的参考手册指导,很难普及大众。这其实就是为什么很多技术，非常好，却得不到普遍运用的原因。正如我们学习一门技术，过程大概是这个样子： ①我们日常工作中，遇到了问题，困难。寻找解决方案，即寻找新的技术； ②为什么要学习这门技术？这门技术是不是很好的解决了我们遇到的难题，困惑。这个问题，非常重要，我们不是为了学习技术而学习技术，而是为了更好的处理我们遇到的问题，才需要学习新的
今天帮助人解决的一个sql问题 asialee sql
今天有个人问了一个问题，如下： type AD value A
意图对象传递数据百合不是茶 android 意图Intent Bundle对象数据的传递
学习意图将数据传递给目标活动; 初学者需要好好研究的 1,将下面的代码添加到main.xml中 <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http:/
oracle查询锁表解锁语句 bijian1013 oracle object session kill
一.查询锁定的表如下语句，都可以查询锁定的表语句一： select a.sid, a.serial#, p.spid, c.object_name, b.session_id, b.oracle_username, b.os_user_name from v$process p, v$s
mac osx 10.10 下安装 mysql 5.6 二进制文件［tar.gz］征客丶 mysql osx
场景：在 mac osx 10.10 下安装 mysql 5.6 的二进制文件。环境：mac osx 10.10、mysql 5.6 的二进制文件步骤：[所有目录请从根“/”目录开始取，以免层级弄错导致找不到目录] 1、下载 mysql 5.6 的二进制文件，下载目录下面称之为 mysql5.6SourceDir；下载地址：http://dev.mysql.com/downl
分布式系统与框架 bit1129 分布式
RPC框架 Dubbo 什么是Dubbo Dubbo是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。其核心部分包含: 远程通讯: 提供对多种基于长连接的NIO框架抽象封装，包括多种线程模型，序列化，以及“请求-响应”模式的信息交换方式。集群容错: 提供基于接
那些令人蛋痛的专业术语白糖_ spring Web SSO IOC
spring 【控制反转(IOC)/依赖注入(DI)】：由容器控制程序之间的关系，而非传统实现中，由程序代码直接操控。这也就是所谓“控制反转”的概念所在：控制权由应用代码中转到了外部容器，控制权的转移，是所谓反转。简单的说：对象的创建又容器(比如spring容器)来执行，程序里不直接new对象。 Web 【单点登录(SSO)】：SSO的定义是在多个应用系统中，用户
《给大忙人看的java8》摘抄 braveCS java8
函数式接口：只包含一个抽象方法的接口 lambda表达式：是一段可以传递的代码你最好将一个lambda表达式想象成一个函数，而不是一个对象，并记住它可以被转换为一个函数式接口。事实上，函数式接口的转换是你在Java中使用lambda表达式能做的唯一一件事。方法引用：又是要传递给其他代码的操作已经有实现的方法了，这时可以使
编程之美-计算字符串的相似度 bylijinnan java 算法编程之美
public class StringDistance { /** * 编程之美计算字符串的相似度 * 我们定义一套操作方法来把两个不相同的字符串变得相同，具体的操作方法为： * 1.修改一个字符（如把“a”替换为“b”）; * 2.增加一个字符（如把“abdd”变为“aebdd”）; * 3.删除一个字符（如把“travelling”变为“trav
上传、下载压缩图片 chengxuyuancsdn 下载
/** * * @param uploadImage --本地路径(tomacat路径) * @param serverDir --服务器路径 * @param imageType --文件或图片类型 * 此方法可以上传文件或图片.txt,.jpg,.gif等 */ public void upload(String uploadImage,Str
bellman-ford(贝尔曼-福特)算法 comsci 算法 F#
Bellman-Ford算法(根据发明者 Richard Bellman 和 Lester Ford 命名)是求解单源最短路径问题的一种算法。单源点的最短路径问题是指：给定一个加权有向图G和源点s，对于图G中的任意一点v，求从s到v的最短路径。有时候这种算法也被称为 Moore-Bellman-Ford 算法，因为 Edward F. Moore zu 也为这个算法的发展做出了贡献。与迪科
oracle ASM中ASM_POWER_LIMIT参数 daizj ASM oracle ASM_POWER_LIMIT 磁盘平衡
ASM_POWER_LIMIT 该初始化参数用于指定ASM例程平衡磁盘所用的最大权值，其数值范围为0~11，默认值为1。该初始化参数是动态参数，可以使用ALTER SESSION或ALTER SYSTEM命令进行修改。示例如下： SQL>ALTER SESSION SET Asm_power_limit=2;
高级排序:快速排序 dieslrae 快速排序
public void quickSort(int[] array){ this.quickSort(array, 0, array.length - 1); } public void quickSort(int[] array,int left,int right){ if(right - left <= 0
C语言学习六指针_何谓变量的地址一个指针变量到底占几个字节 dcj3sjt126com C语言
# include <stdio.h> int main(void) { /* 1、一个变量的地址只用第一个字节表示 2、虽然他只使用了第一个字节表示，但是他本身指针变量类型就可以确定出他指向的指针变量占几个字节了 3、他都只存了第一个字节地址，为什么只需要存一个字节的地址，却占了4个字节，虽然只有一个字节，但是这些字节比较多，所以编号就比较大，
phpize使用方法 dcj3sjt126com PHP
phpize是用来扩展php扩展模块的，通过phpize可以建立php的外挂模块,下面介绍一个它的使用方法,需要的朋友可以参考下安装（fastcgi模式）的时候，常常有这样一句命令：代码如下: /usr/local/webserver/php/bin/phpize 一、phpize是干嘛的？ phpize是什么？ phpize是用来扩展php扩展模块的，通过phpi
Java虚拟机学习 - 对象引用强度 shuizhaosi888 JAVA虚拟机
本文原文链接：http://blog.csdn.net/java2000_wl/article/details/8090276 转载请注明出处！无论是通过计数算法判断对象的引用数量，还是通过根搜索算法判断对象引用链是否可达，判定对象是否存活都与“引用”相关。引用主要分为：强引用(Strong Reference)、软引用(Soft Reference)、弱引用(Wea
.NET Framework 3.5 Service Pack 1（完整软件包）下载地址 happyqing .net 下载 framework
Microsoft .NET Framework 3.5 Service Pack 1（完整软件包） http://www.microsoft.com/zh-cn/download/details.aspx?id=25150 Microsoft .NET Framework 3.5 Service Pack 1 是一个累积更新，包含很多基于 .NET Framewo
JAVA定时器的使用 jingjing0907 java timer 线程定时器
1、在应用开发中，经常需要一些周期性的操作，比如每5分钟执行某一操作等。对于这样的操作最方便、高效的实现方式就是使用java.util.Timer工具类。 privatejava.util.Timer timer; timer = newTimer(true); timer.schedule( newjava.util.TimerTask() { public void run()
Webbench 流浪鱼 webbench
首页下载地址 http://home.tiscali.cz/~cz210552/webbench.html Webbench是知名的网站压力测试工具，它是由Lionbridge公司（http://www.lionbridge.com）开发。 Webbench能测试处在相同硬件上，不同服务的性能以及不同硬件上同一个服务的运行状况。webbench的标准测试可以向我们展示服务器的两项内容：每秒钟相
第11章动画效果（中） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
windows下制作bat启动脚本. sanyecao2314 java cmd 脚本 bat
java -classpath C:\dwjj\commons-dbcp.jar;C:\dwjj\commons-pool.jar;C:\dwjj\log4j-1.2.16.jar;C:\dwjj\poi-3.9-20121203.jar;C:\dwjj\sqljdbc4.jar;C:\dwjj\voucherimp.jar com.citsamex.core.startup.MainStart
Java进行RSA加解密的例子 tomcat_oracle java
加密是保证数据安全的手段之一。加密是将纯文本数据转换为难以理解的密文；解密是将密文转换回纯文本。　　数据的加解密属于密码学的范畴。通常，加密和解密都需要使用一些秘密信息，这些秘密信息叫做密钥，将纯文本转为密文或者转回的时候都要用到这些密钥。　　对称加密指的是发送者和接收者共用同一个密钥的加解密方法。　　非对称加密(又称公钥加密)指的是需要一个私有密钥一个公开密钥，两个不同的密钥的
Android_ViewStub 阿尔萨斯 ViewStub
public final class ViewStub extends View java.lang.Object android.view.View android.view.ViewStub 类摘要： ViewStub 是一个隐藏的，不占用内存空间的视图对象，它可以在运行时延迟加载布局资源文件。当 ViewSt

【pytorch系列】优化器optimizer的使用与常用优化器

1 optimizer类实例

1.1 介绍

1.2 例子

2 常用优化器的计算

2.1 SGD

2.2 SGD+Momentum

2.3 NAG

2.4 AdaGrad

2.5 RMSProp算法 / Adadelta算法

2.6 Adam

你可能感兴趣的:(pytorch,深度学习,python)