~拾捌~

代码pytorch

model.train() 和 model.eval()

一般在模型训练和评价的时候会加上这两句，主要是针对由于model 在训练时和评价时 Batch Normalization 和 Dropout 方法模式不同：

model.eval()，不启用 BatchNormalization 和 Dropout。此时pytorch会自动把BN和DropOut固定住，不会取平均，而是用训练好的值。不然的话，一旦test的batch_size过小，很容易就会因BN层导致模型performance损失较大；
model.train() ：启用 BatchNormalization 和 Dropout。在模型测试阶段使用model.train() 让model变成训练模式，此时 dropout和batch normalization的操作在训练q起到防止网络过拟合的问题。
因此，在使用PyTorch进行训练和测试时一定要记得把实例化的model指定train/eval。

super().init()

简单的说super().init()，就是继承父类的init方法，同样可以使用super()去继承其他方法

DataFrame

DataFrame是Python中Pandas库中的一种数据结构，它类似excel，是一种二维表。或许说它可能有点像matlab的矩阵，但是matlab的矩阵只能放数值型值（当然matlab也可以用cell存放多类型数据）

DataFrame的单元格可以存放数值、字符串等，这和excel表很像。

同时DataFrame可以设置列名columns与行名index，可以通过像matlab一样通过位置获取数据也可以通过列名和行名定位

unit8

unit8是无符号8位整型，范围[0,255]

2**16(2^16)

thermal

thermal = cv2.imread(thermal_path, cv2.IMREAD_ANYDEPTH)
#cv2.IMREAD_ANYDEPTH:当输入具有相应深度的时候，返回16/32位的图像，否则将其转换为8位
# 在0,2**16(2^16)范围内-->裁剪到相关范围（20800，27000）
thermal[thermal < self.ir_minval] = self.ir_minval
thermal[thermal > self.ir_maxval] = self.ir_maxval

rgb

rgb = cv2.imread(rgb_path)  # 读取图片，读进来的是BGR格式，默认为unit8格式
rgb = cv2.cvtColor(rgb, cv2.COLOR_BGR2RGB)  # 将BGR格式转换成RGB格式
rgb = rgb[:, self.crop_left:self.crop_right, :]  # 截取图片self.crop_left:self.crop_right的部分

depth

# 由于磁盘限制，只启用jpg，而不是实际的深度文件
depth = cv2.imread(depth_path)
# 3通道
depth = depth[:, self.crop_left:self.crop_right, :]

load_state_dict

我们在构造好了一个模型后，可能要加载一些训练好的模型参数。举例子如下：

假设 trained.pth 是一个训练好的网络的模型参数存储model = Net()是我们刚刚生成的一个新模型，我们希望model将trained.pth中的参数加载加载进来，但是model中多了一些trained.pth中不存在的参数，如果使用下面的命令：

state_dict = torch.load('trained.pth')
model.load_state_dict(state_dict)

会报错，说key对应不上，因为model你强人所难，我堂堂trained.pth没有你的那些个零碎玩意，你非要向我索取，我上哪给你弄去。

但是model不干，说既然你不能完全满足我的需要，那么你有什么我就拿什么吧，怎么办呢？下面的指令代码就行了。

model.load_state_dict(state_dict, strict=False)

src.utils.utils----602 line

state_dict = filter_model_dict(model, torch.load(path, map_location=map_location))

#torch.load加载字典， filter_model_dict函数用来过滤model中不必要的密钥，清除字典

model.load_state_dict(state_dict)  # 加载参数，即.pth文件中保存的模型参数

如果说我不清除字典会咋样，看看那个热的教师模型会不会能正常加载

Scheduler 调度程序

torch的ReduceLROnPlateau类：当参考的评价指标停止改进时,降低学习率,factor为每次下降的比例,训练过程中,当指标连续patience次数还没有改进时,降低学习率

torch的StepLR类：动态调整学习率，每隔step_size步，学习率乘以gamma倍

class torch.optim.lr_scheduler.ReduceLROnPlateau(optimizer, mode='min', factor=0.1, patience=10, verbose=False, threshold=0.0001, threshold_mode='rel', cooldown=0, min_lr=0, eps=1e-08)

其中

optimer指的是网络的优化器
mode (str) ，可选择‘min’或者‘max’，min表示当监控量停止下降的时候，学习率将减小，max表示当监控量停止上升的时候，学习率将减小。默认值为‘min’
factor 学习率每次降低多少，new_lr = old_lr * factor
patience=10，容忍网路的性能不提升的次数，高于这个次数就降低学习率
verbose（bool） - 如果为True，则为每次更新向stdout输出一条消息。默认值：False
threshold（float） - 测量新最佳值的阈值，仅关注重大变化。默认值：1e-4
cooldown：减少lr后恢复正常操作之前要等待的时期数。默认值：0。
min_lr,学习率的下限
eps ，适用于lr的最小衰减。如果新旧lr之间的差异小于eps，则忽略更新。默认值：1e-8。

batch_size、epoch、iteration

batch_size、epoch、iteration是深度学习中常见的几个超参数：

（1）batchsize：每批数据量的大小。DL通常用SGD的优化算法进行训练，也就是一次（1 个iteration）一起训练batchsize个样本，计算它们的平均损失函数值，来更新参数。

（2）iteration：1个iteration即迭代一次，也就是用batchsize个样本训练一次。

（3）epoch：1个epoch指用训练集中的全部样本训练一次，此时相当于batchsize 等于训练集的样本数。

最初训练DNN采用一次对全体训练集中的样本进行训练（即使用1个epoch），并计算一次损失函数值，来更新一次权值。当时数据集较小，该方法尚可。后来随着数据集迅速增大，导致这种方法一次开销大进而占用内存过大，速度过慢。

后来产生了一次只训练一个样本的方法（batchsize=1）,称作在线学习。该方法根据每一个样本的情况更新一次权值，开销小速度快，但收到单个样本的巨大随机性，全局来看优化性能较差，收敛速度很慢，产生局部震荡，有限迭代次数内很可能无法收敛。

目前常用随机梯度下降SGD来训练，相当于上述两个“极端”方法的折中：将训练集分成多个mini_batch（即常说的batch）,一次迭代训练一个minibatch（即batchsize个样本），根据该batch数据的loss更新权值。这相比于全数据集训练，相当于是在寻找最优时人为增加了一些随机噪声，来修正由局部数据得到的梯度，尽量避免因batchsize过大陷入局部最优。

这种方法存在两对矛盾。由于一次只分析的一小部分数据，因此整体优化效果与batchsize有关：

batchsize越小，一个batch中的随机性越大，越不易收敛。然而batchsize越小，速度越快，权值更新越频繁；且具有随机性，对于非凸损失函数来讲，更便于寻找全局最优。从这个角度看，收敛更快，更容易达到全局最优。

batchsize越大，越能够表征全体数据的特征，其确定的梯度下降方向越准确，（因此收敛越快），且迭代次数少，总体速度更快。然而大的batchsize相对来讲缺乏随机性，容易使梯度始终向单一方向下降，陷入局部最优；而且当batchsize增大到一定程度，再增大batchsize，一次batch产生的权值更新（即梯度下降方向）基本不变。因此理论上存在一个最合适的batchsize值，使得训练能够收敛最快或者收敛效果最好（全局最优点）。

根据现有的调参经验，加入正则化项BN后，在内存容量允许的情况下，一般来说设置一个较大的batchsize值更好，通常从128开始调整。

当然，包括超参数对网络优化的影响在内的许多关于的DL理论尚不成熟，大多处在依靠实验尝试、观察、归纳总结的阶段。

batch_size可以理解为批处理参数，它的极限值为训练集样本总数，当数据量比较少时，可以将batch_size值设置为全数据集（Full batch cearning）。
实际上，在深度学习中所涉及到的数据都是比较多的，一般都采用小批量数据处理原则。

小批量训练网络的优点：

相对海量的的数据集和内存容量，小批量处理需要更少的内存就可以训练网络。
通常小批量训练网络速度更快，例如我们将一个大样本分成11小样本(每个样本100个数据)，采用小批量训练网络时，每次传播后更新权重，就传播了11批，在每批次后我们均更新了网络的（权重）参数；如果在传播过程中使用了一个大样本，我们只会对训练网络的权重参数进行1次更新。
全数据集确定的方向能够更好地代表样本总体，从而能够更准确地朝着极值所在的方向；但是不同权值的梯度值差别较大，因此选取一个全局的学习率很困难。

小批量训练网络的缺点：

批次越小，梯度的估值就越不准确，在下图中，我们可以看到，与完整批次渐变（蓝色）方向相比，小批量渐变（绿色）的方向波动更大。

极端特例batch_size = 1，也成为在线学习（online learning）；线性神经元在均方误差代价函数的错误面是一个抛物面，横截面是椭圆，对于多层神经元、非线性网络，在局部依然近似是抛物面，使用online learning，每次修正方向以各自样本的梯度方向修正，这就造成了波动较大，难以达到收敛效果。

设置batch大小是一种艺术，太小时可能会使学习过于随机，虽然训练速率很快，但会收敛到不可靠的模型；batch过小时，网络训练需要很长时间，更重要的是它不适合记忆。

如何选择合适的batch_size值：

采用批梯度下降法mini batch learning时，如果数据集足够充分，用一半（甚至少的多）的数据训练算出来的梯度与全数据集训练full batch learning出来的梯度几乎一样。

在合理的范围内，增大batch_size可以提高内存利用率，大矩阵乘法的并行化效率提高；跑完一次epoch（全数据集）所需的迭代次数减少，对于相同数据量的处理速度进一步加快；在适当的范围内，batch_size越大，其确定的下降方向越准，引起训练波动越小。注意，当batch_size增大到一定程度，其确定的下降方向基本不会变化。

batch_size值增大到超过合理范围时，和全数据训练full batch learning就会表现出相近的症候；内存容量占有率增加，跑完一次epoch所需的迭代次数减少（全数据集），达到相同的精度所耗损的时间增加，从而对参数的修正也就显得更加缓慢。

调节 Batch_Size 对训练效果影响到底如何？
以 LeNet 在 MNIST 数据集的效果为例：

batch_size 太小，算法在 200 epoches 内不收敛。
随着 batch_size 增大，处理相同数据量的速度越快。
随着 batch_size 增大，达到相同精度所需要的 epoch 数量越来越多。
由于上述两种因素的矛盾，batch_size 增大到某个时候，达到时间上的最优。
由于最终收敛精度会陷入不同的局部极值，因此batch_size 增大到某些时候，达到最终收敛精度上的最优。

stack()

官方解释：沿着一个新维度对输入张量序列进行连接。序列中所有的张量都应该为相同形状。
浅显说法：把多个2维的张量凑成一个3维的张量；多个3维的凑成一个4维的张量…以此类推，也就是在增加新的维度进行堆叠。
outputs = torch.stack(inputs, dim=?) → Tensor

参数
inputs : 待连接的张量序列。
注：python的序列数据只有list和tuple。
dim : 新的维度，必须在0到len(outputs)之间。
注：len(outputs)是生成数据的维度大小，也就是outputs的维度值。
重点
函数中的输入inputs只允许是序列；且序列内部的张量元素，必须shape相等
----举例：[tensor_1, tensor_2,…]或者(tensor_1, tensor_2,…)，且必须tensor_1.shape == tensor_2.shape
dim是选择生成的维度，必须满足0<=dim

torch.mul和torch.mm

torch.mul(a, b)是矩阵a和b对应位相乘，a和b的维度必须相等，比如a的维度是(1, 2)，b的维度是(1, 2)，返回的仍是(1, 2)的矩阵
torch.mm(a, b)是矩阵a和b矩阵相乘，比如a的维度是(1, 2)，b的维度是(2, 3)，返回的就是(1, 3)的矩阵

forward()函数

nn.Module中包含了__call__函数，在函数中调用了forward，由于继承关系，MTALoss等函数同样具备__call__函数的功能，因此只要传入参数，自动调用forward函数

tensorboard

write将loss信息写入tensorboard，查看函数：

tensorboard --logdir=MM-DistillNet/0

optimizer.step()

当调用optimizer.step()的时候应当是loss.backward()的时候（loss.backward()的具体运算过程可以参看Pytorch 入门），这也就是经常会碰到,如下情况：

total_loss.backward()
optimizer_G.step()

loss.backward()在前，然后跟一个step。

那么为什么optimizer.step()需要放在每一个batch训练中，而不是epoch训练中，这是因为现在的mini-batch训练模式是假定每一个训练集就只有mini-batch这样大，因此实际上可以将每一次mini-batch看做是一次训练，一次训练更新一次参数空间，因而optimizer.step()放在这里。

scheduler.step()

scheduler.step()：按照Pytorch的定义是用来更新优化器的学习率的，一般是按照epoch为单位进行更换，即多少个epoch后更换一次学习率，因而scheduler.step()放在epoch这个大循环下。

Varibale

torch.autograd.Variable是Autograd的核心类，它封装了Tensor，并整合了反向传播的相关实现

from .variable import Variable

Varibale包含三个属性：

data：存储了Tensor，是本体的数据
grad：保存了data的梯度，本事是个Variable而非Tensor，与data形状一致
grad_fn：指向Function对象，用于反向传播的梯度计算之用

Variable和tensor的区别和联系

Variable是篮子，而tensor是鸡蛋，鸡蛋应该放在篮子里才能方便拿走（定义variable时一个参数就是tensor）

Variable这个篮子里除了装了tensor外还有requires_grad参数，表示是否需要对其求导，默认为False

Variable这个篮子呢，自身有一些属性

比如grad，梯度variable.grad是d(y)/d(variable)保存的是变量y对variable变量的梯度值，如果requires_grad参数为False，所以variable.grad返回值为None，如果为True，返回值就为对variable的梯度值

比如grad_fn，对于用户自己创建的变量（Variable()）grad_fn是为none的，也就是不能调用backward函数，但对于由计算生成的变量，如果存在一个生成中间变量的requires_grad为true，那其的grad_fn不为none，反则为none

比如data，这个就很简单，这个属性就是装的鸡蛋（tensor）

rgb = Variable(
    rgb.to(device),
    requires_grad=True
).to(device)
# requires_grad=True 表示参与反向传播

Variable可以理解为盒子，盒子里包含了tensor及对它的操作，例如当tensor作为神经网络节点时计算它的梯度。Variable 存在于 torch.autograd库中

Variable作为盒子不仅可以封装数据，还可以封装对其的操作，在使用时直接由盒子中取相关的材料即可。

requires_grad=True，variable变量中封装了对tensor的操作，即自动求导操作。

在每次backward后，grad值是会累加的，所以利用BP算法，每次迭代都需要将grad清零。

optimizer.zero_grad()

loss.backward()
# 进行反向传播

**Variable**的定义在文件 torch/autograd/variable.py 中

import torch
from torch._six import with_metaclass

class VariableMeta(type):
    def __instancecheck__(cls, other):
        return isinstance(other, torch.Tensor)

class Variable(with_metaclass(VariableMeta, torch._C._LegacyVariableBase)):
    pass

from torch._C import _ImperativeEngine as ImperativeEngine
Variable._execution_engine = ImperativeEngine()

Variable._execution_engine.run_backward其实就是torch._C中的函数_ImperativeEngine。torch._C这个是调用的被编译之后的C++代码，Windows系统下可以在Python目录\Lib\site-packages\torch下找到_C.cp35-win_amd64.pyd这个文件，当然不同的Python版本名称也会略有不同，但是这个_C和.pyd是一样的。具体的函数实现代码我们可以从GitHub上pytorch/torch/csrc 这里找到。

device = torch.device(“cuda” if torch.cuda.is_available() else “cpu”)

将模型加载到指定设备上

device=torch.device(“cpu”)代表的使用cpu，而device=torch.device(“cuda”)则代表的使用GPU

model=model.to(device)，将模型加载到相应的设备中。

将由GPU保存的模型加载到GPU上。确保对输入的tensors调用input = input.to(device)方法

device = torch.device("cuda")
model = TheModelClass(*args, **kwargs)
model.load_state_dict(torch.load(PATH))
model.to(device)

map_location是将模型加载到GPU上，model.to(torch.device(‘cuda’))是将模型参数加载为CUDA的tensor。最后保证使用.to(torch.device(‘cuda’))方法将需要使用的参数放入CUDA。

torch.no_grad()

torch.no_grad() 是一个上下文管理器，被该语句 wrap 起来的部分将不会track 梯度。

例如：

a = torch.tensor([1.1], requires_grad=True)
b = a * 2
打印b可看到其 grad_fn 为 mulbackward 表示是做的乘法。
Out[63]: tensor([2.2000], grad_fn=)

b.add_(2)
Out[64]: tensor([4.2000], grad_fn=)

可以看到不被wrap的情况下，b.grad_fn 为 addbackward 表示这个add 操作被track了

with torch.no_grad():
b.mul_(2)

在被包裹的情况下可以看到 b.grad_fn 还是为 add，mul 操作没有被 track. 但是注意，乘法操作是被执行了的。(4.2 -> 8.4)
Out[66]: tensor([8.4000], grad_fn=)

所以如果有不想被track的计算部分可以通过这么一个上下文管理器包裹起来。这样可以执行计算，但该计算不会在反向传播中被记录。

同样还可以用 torch.set_grad_enabled()来实现不计算梯度。

def eval():
	torch.set_grad_enabled(False)
	...	# your test code
	torch.set_grad_enabled(True)

np.expand_dims

np.expand_dims:用于扩展数组的形状

axis=x表示在x位置添加数据

axis = -1 也就是相当于在最后插入

this_batch_labels[i] = np.expand_dims(this_batch_labels[i], axis=0)  # 表示在0位置添加数据

numpy.array.shape

numpy创建的数组都有一个shape属性，它是一个元组，返回各个维度的维数

shape[0]表示最外围的数组的维数，shape[1]表示次外围的数组的维数，数字不断增大，维数由外到内

>>> x  = np.array([[[1,2,3],[4,5,6]],[[7,8,9],[0,1,2]],[[3,4,5],[6,7,8]]])
>>> > print(x)
>>> > [[[1 2 3]
>>> > [4 5 6]]
 [[7 8 9]
  [0 1 2]]
 [[3 4 5]
  [6 7 8]]]
>>> print(x.shape)
>>> (3, 2, 3)
>>> print(x.shape[0])
>>> 3
>>> print(x.shape[1])
>>> 2
>>> print(x.shape[2])
>>> 3

梯度下降法以及随机梯度下降法 HKkuaidou 人工智能深度学习 python pytorch
梯度下降法就是在更新weight的时候，向函数值下降的最快方向进行更新，具体的原理我就不再写了，就是一个求偏导的过程，有高数基础的都能够很快的理解过程。我在我的github里面会一直更新自己学习pytorch的过程，地址为：https://github.com/00paning/Pytorch_Learning这里我直接展示一个简易实现的python代码，我们还是先看一下运行的效果图：相关pyth
pytorch实现cifar10多分类总结 L_pyu 人工智能 pytorch 分类
cifar-10简介：CIFAR-10是一个常用的图像分类数据集，每张图片都是3×32×32，3通道彩色图片，分辨率32×32。它包含了10个不同类别，每个类别有6000张图像，其中5000张用于训练，1000张用于测试。这10个类别分别为：飞机、汽车、鸟类、猫、鹿、狗、青蛙、马、船和卡车。CIFAR-10分类任务是将这些图像正确地分类到它们所属的类别中。对于这个任务，可以使用深度学习模型，如卷积
【PyTorch】torch.nn.functional.log_softmax() 函数：计算 log(softmax)，用于多分类任务彬彬侠 PyTorch基础 log_softmax 多分类交叉熵损失分类 pytorch python 深度学习
torch.nn.functional.log_softmaxtorch.nn.functional.log_softmax是PyTorch提供的用于计算log(softmax)的函数，通常用于多分类任务和计算交叉熵损失，可以提高数值稳定性并防止数值溢出。1.log_softmax的数学公式对于输入张量XXX，softmax计算如下：softmax(Xi)=eXi∑jeXj\text{softma
【PyTorch】torch.nn.functional.cross_entropy() 函数：分类任务的交叉熵损失函数彬彬侠 PyTorch基础 cross_entropy 交叉熵损失函数分类 pytorch python 深度学习
torch.nn.functional.cross_entropytorch.nn.functional.cross_entropy是PyTorch中用于分类任务的交叉熵损失函数，用于衡量预测概率分布与真实类别分布之间的差异，常用于多分类任务（multi-classclassification）。1.交叉熵损失的数学公式对于单个样本，交叉熵损失的计算公式为：L=−∑i=1Cyilog⁡(yi^)\
每天五分钟玩转深度学习PyTorch：基于GoogLeNet完成CAFIR10分类每天五分钟玩转人工智能深度学习框架pytorch 深度学习 pytorch 分类 GoogLeNet 人工智能 CAFIR10
本文重点前面我们终于使用pytorch搭建了GoogLeNet，本文我们使用该网络模型解决一个实际问题，也就是使用它完成CAFIR10分类，其实就这些任务而言，我们只要搭建好模型，然后把数据喂进去就行了，其它的地方都是一样的，就是网络模型不一样。代码
深度学习项目--基于DenseNet网络的“乳腺癌图像识别”，准确率90%+，pytorch复现羊小猪~~ 深度学习网络 pytorch 人工智能 python 机器学习分类
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊前言如果说最经典的神经网络，ResNet肯定是一个，从ResNet发布后，很多人做了修改，denseNet网络无疑是最成功的一个，它采用密集型连接，将通道数连接在一起；本文是基于上一篇复现DenseNet121模型，做一个乳腺癌图像识别，效果还行，准确率0.9+;CNN经典网络之“DenseNet”简介，源码研究与复现(pytorch)：
PyTorch 深度学习实战（13）：Proximal Policy Optimization (PPO) 算法进取星辰 PyTorch 深度学习实战深度学习 pytorch 算法
在上一篇文章中，我们介绍了Actor-Critic算法，并使用它解决了CartPole问题。本文将深入探讨ProximalPolicyOptimization(PPO)算法，这是一种更稳定、更高效的策略优化方法。我们将使用PyTorch实现PPO算法，并应用于经典的CartPole问题。一、PPO算法基础PPO是OpenAI提出的一种强化学习算法，旨在解决策略梯度方法中的训练不稳定问题。PPO通过
机器学习(二) 本文(2.5万字) | KNN算法原理及Python复现 | 小酒馆燃着灯机器学习算法 k近邻算法
文章目录一KNN算法原理二KNN三要素三机器学习中标准化四KNN分类预测规则五KNN回归预测规则六KNN算法实现方式七KDTree7.1构造KDtree7.2KDtree查找最近邻八KNN特点九KNN算法实现案例一案例二1.机器学习2.深度学习与目标检测3.YOLOv54.YOLOv5改进5.YOLOv8及其改进6.Python与PyTorch7.工具8.小知识点9.杂记一KNN算法原理K近邻分类
【大模型LLM面试合集】分布式训练_总结 X.AI666 大模型LLM面试合集面试分布式人工智能语言模型
9.总结1.数据并行数据并行，由于其原理相对比较简单，是目前使用最广泛的分布式并行技术。数据并行不仅仅指对训练的数据并行操作，还可以对网络模型梯度、权重参数、优化器状态等数据进行并行。我们首先以PyTorch数据并行的发展（DataParallel、DistributedDataParallel、FullyShardedDataParallel）为主线进行讲述了数据并行的技术原理。同时，也简述了D
【vLLM 学习】使用 TPU 安装 HyperAI超神经 vLLM 学习人工智能 vLLM 深度学习 TPU 机器学习教程
vLLM是一款专为大语言模型推理加速而设计的框架，实现了KV缓存内存几乎零浪费，解决了内存管理瓶颈问题。更多vLLM中文文档及教程可访问→https://vllm.hyper.ai/vLLM使用PyTorchXLA支持GoogleCloudTPU。依赖环境GoogleCloudTPUVM（单主机和多主机）TPU版本:v5e、v5p、v4Python:3.10安装选项：href=“https://v
在windows下运行ollama用5600XT (其实旧的a卡应该都可以）步骤同时用ComfyUI + RX 5600 XT + DirectML 安装与配置 Zalo2 AI deepseek windows llama stable diffusion linux AI作画
Linux部分5600XT这个卡是gfx1010的核心，这个是rand1架构，这是被amd放弃的老古董包裹其他的rand1或者rand2都是。没钱也要玩AI(自能简单运用，不能训练，微调等)这张卡只有6g远远不够ai使用所以我发现好像是能和cpu一起混用的。#警告这张卡不要在linux下尝试安装rocm版本进行pytorch编译，然后进行模型微调，反正我是浪费时间了，根本行不通，因为amd根本就没
PyTorch 和 Python关系一只积极向上的小咸鱼 python pytorch 人工智能
1PyTorch和Python关系PyTorch和Python是两个不同但相互关联的工具，主要用于机器学习和深度学习领域。以下是它们之间的关系和各自的作用：Python编程语言:Python是一种高级编程语言，以其简洁易读的语法而闻名。广泛使用:Python在数据科学、人工智能、Web开发、自动化等多个领域有着广泛的应用。库和生态系统丰富:Python拥有丰富的第三方库和工具，如NumPy、pan
python和pytorch关系_PyTorch：Python优先的深度学习框架 weixin_39877182
最近，Torch7团队开源了PyTorch。据该项目官网介绍，PyTorch是一个Python优先的深度学习框架，能够在强大的GPU加速基础上实现张量和动态神经网络。PyTorch是一个Python软件包，其提供了两种高层面的功能：使用强大的GPU加速的Tensor计算（类似numpy）构建于基于tape的autograd系统的深度神经网络如有需要，你也可以复用你最喜欢的Python软件包（如nu
点云空洞的边界识别提取 pso-bp 神经网络的模型来修复点云空洞附python代码点云-激光雷达-Slam-三维牙齿激光雷达点云 c++为主神经网络人工智能深度学习点云 python
代码是一个Python程序，用于处理3D点云数据，特别是检测和修复点云中的孔洞区域。1.**导入库**：-`numpy`：用于数学运算。-`open3d`：用于处理3D数据和可视化。-`torch`：PyTorch库，用于深度学习。-`torch.nn`和`torch.optim`：PyTorch的神经网络和优化器模块。-`mpl_toolkits.mplot3d`和`matplotlib.pyp
OSError: We couldn‘t connect to ‘https://huggingface.co‘ to load this file, 小李飞刀李寻欢 Notebook huggingface bert 分类大模型
场景：训练bert-base-chinese下游任务：分类。在一个服务器可以用，但GPU只有一个卡，只能换一个服务器，换个服务器又要重装环境，但后者下载模型有问题，手动用git-lfs下载后指定位置报错：Traceback(mostrecentcalllast):/examples/pytorch/text-classification/run_glue.py",line622,inmain()/
Python深度学习033：Python、PyTorch、CUDA和显卡驱动之间的关系若北辰 Python深度学习 python 深度学习 pytorch
Python、PyTorch、CUDA和显卡驱动之间的关系相当紧密，它们共同构成了一个能够执行深度学习模型的高效计算环境。下面是它们之间关系的简要概述：PythonPython是一种编程语言，广泛用于科学计算、数据分析和机器学习。它是开发和运行PyTorch代码的基础环境。PyTorchPyTorch是一个开源的机器学习库，用于应用如自然语言处理和计算机视觉的深度学习模型。它提供了丰富的API，使
PyTorch深度学习框架进阶学习计划 - 第21天：自然语言处理基础凡人的AI工具箱深度学习 pytorch 学习人工智能 AI编程 AIGC 自然语言处理
PyTorch深度学习框架进阶学习计划-第21天自然语言处理基础今天我们将深入学习自然语言处理(NLP)的基础概念，重点关注词嵌入技术、序列建模原理以及主流模型之间的区别和优缺点。通过理解这些基础知识，你将能够更好地应用PyTorch构建NLP应用。1.词嵌入原理与实现词嵌入(WordEmbeddings)是NLP中的核心概念，它将单词映射到连续向量空间，使得语义相似的词在向量空间中距离较近。为什
PyTorch深度学习框架60天进阶学习计划 - 第19天：时间序列预测凡人的AI工具箱深度学习 pytorch 学习人工智能 AI编程迁移学习 python
PyTorch深度学习框架60天进阶学习计划-第19天：时间序列预测目录时间序列预测概述滑动窗口数据构造方法归一化策略对比：MinMaxvsZ-ScoreLSTM基础原理Attention机制与LSTM结合LSTM-Attention模型实现TeacherForcing技术与应用Prophet基准模型对比多步预测的滚动验证方法综合实战：股票价格预测1.时间序列预测概述时间序列预测是机器学习中的一个
PyTorch深度学习框架60天进阶学习计划 - 第18天：模型压缩技术凡人的AI工具箱深度学习 pytorch 学习 python 人工智能
PyTorch深度学习框架60天进阶学习计划-第18天：模型压缩技术目录模型压缩技术概述知识蒸馏详解软标签生成策略KL散度损失推导温度参数调节结构化剪枝技术通道剪枝评估准则L1-norm剪枝算法APoZ剪枝算法量化训练基础量化类型与精度PyTorch量化API剪枝与量化协同优化Torch.fx动态计算图修改自动化模型压缩流程实现实战案例：ResNet模型压缩性能评估与分析进阶挑战与思考1.模型压缩
五分钟快速掌握windows深度学习环境配置：Anaconda、PyCharm、Pytorch、jupyter notebook 芝帕先生深度学习 windows pycharm python conda pip 人工智能
目录前言下载并安装Anaconda下载途径安装步骤下载并安装PyCharm安装pytorch安装jupyternotebook前言新手五分钟掌握windows深度学习环境配置：Anaconda、PyCharm、Pytorch配置的时候遇到了很多问题，总结了一下，可以按这个流程无脑配置。通过本流程下载的版本Anaconda2023.03PyCharmCommunity2023.1.3Pytorch2
python,pycharm,pytorch，向量数据库，环境搭建记录 dept123 python pycharm pytorch 向量数据库
修改ubuntu上的pycharm镜像源，详细步骤-腾讯云开发者社区-腾讯云【超详细教程】2024最新Pytorch安装教程（同时讲解安装CPU和GPU版本）-CSDN博客https://zhuanlan.zhihu.com/p/667447891Quickstart|MilvusDocumentation
【图像去噪】论文复现：TPAMI 2025！全面提升单图像去噪泛化性！像素级零样本去噪方法Pixel2Pixel的Pytorch源码复现，跑通源码，修改各种报错，框架详解，注释详细！十小大 pytorch 人工智能 python 深度学习计算机视觉图像处理图像去噪
请先看【专栏介绍文章】：【图像去噪（ImageDenoising）】关于【图像去噪】专栏的相关说明，包含适配人群、专栏简介、专栏亮点、阅读方法、定价理由、品质承诺、关于更新、去噪概述、文章目录、资料汇总、问题汇总（更新中）完整代码和训练好的模型权重文件下载链接见本文底部，订阅专栏免费获取！本文亮点：跑通Pixel2Pixel全部源码，包含数据集准备、制作像素库(PixelBank)、训练和推理等，
(4-8)基于DeepSeekMoE架构的DeepSeek-V3：测试模型码农三叔训练 RAG 多模态)架构 transformer deekseek 人工智能大模型
4.8测试模型DeepSeek-V3是一款基于PyTorch的深度学习模型，主要用于文本生成任务。在加载模型时，首先需要从指定路径加载模型的配置文件和预训练权重。加载完成后，模型被设置为评估模式，并移动到GPU上以加速推理过程。在生成文本时，用户可以输入提示文本，模型会根据这些提示生成相应的文本输出。生成过程支持交互式输入和批量处理两种模式，用户可以根据需要选择适合的方式进行文本生成。此外，模型的
一个基于LSTM的字符级文本生成模型的训练+使用(pytorch) 一只小铁柱 lstm pytorch 人工智能
一、代码实现1.配置文件config.pyimporttorch#设备配置DEVICE=torch.device('cuda'iftorch.cuda.is_available()else'cpu')#超参数和配置SEQ_LENGTH=100#输入序列长度BATCH_SIZE=64#批大小EMBEDDING_DIM=256#嵌入层维度HIDDEN_SIZE=512#LSTM隐藏层大小NUM_LAY
PyTorch安装与环境配置终极指南：从零搭建高效深度学习开发环境（一） WHCIS python pytorch 人工智能深度学习机器学习
一、环境搭建的核心意义与准备工作1.1深度学习环境的核心挑战深度学习开发环境涉及复杂的软件栈依赖关系：硬件兼容性：GPU型号（NVIDIA系列）与CUDA版本的匹配软件依赖链：Python版本→PyTorch版本→CUDA驱动→cuDNN加速库环境隔离需求：不同项目可能依赖冲突的库版本1.2硬件准备清单硬件类型最低要求推荐配置CPU4核8核以上内存8GB32GB+GPU支持CUDANVIDIART
RNN 实战指南：用 PyTorch 从零实现文本分类吴师兄大模型 PyTorch pytorch python 人工智能 RNN 循环神经网络文本分类开发语言
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
Pytorch实现之利用普通GAN的人脸修复这张生成的图像能检测吗优质GAN模型训练自己的数据集 GAN系列 pytorch 生成对抗网络人工智能神经网络深度学习计算机视觉 python
简介简介：利用遮挡真实样本的部分面貌，输入给生成器，让生成器输出未被遮挡的面貌，以达到修复人脸的效果。论文题目：FACERESTORATIONVIAGENERATIVEADVERSARIALNETWORKS（基于生成对抗网络的人脸恢复）会议：2023ThirdInternationalConferenceonSecureCyberComputingandCommunication(ICSCCC)摘
训练大模型LLM选择哪种开发语言最好大0马浓人工智能训练 python
训练大型语言模型（LLM）时，选择合适的编程语言主要取决于效率、生态支持、开发便利性以及特定需求（如性能优化或硬件适配）。以下是常见语言的分析和推荐：---1.Python（首选语言）优势：-生态系统丰富：主流深度学习框架（PyTorch、TensorFlow、JAX）均以Python为主要接口，提供完整的工具链（数据处理、模型训练、评估部署）。-开发效率高：语法简洁，适合快速实验和原型开发，社区
PyTorch分布式训练阳光明媚大男孩 pytorch 分布式人工智能
本文结构：分布式训练概述环境设置数据并行（DDP）模型并行启动训练性能优化建议示例代码参考资料和相关问题以下是为您整理的PyTorch分布式训练教程指南：一、PyTorch分布式训练核心概念数据并行：通过分割数据集实现多GPU并行训练，主流方法包括：DistributedDataParallel(DDP)：官方推荐的分布式训练接口DataParallel(DP)：单机多卡方案（已逐步被DDP取代）
基于yolov11的瓶盖缺陷检测系统python源码+pytorch模型+评估指标曲线+精美GUI界面 FL1623863129 深度学习 YOLO pytorch 人工智能
【算法介绍】基于YOLOv11的瓶盖缺陷检测系统在现代制造业中，瓶盖的质量直接影响到产品的封装效果和消费者的使用体验。因此，对瓶盖进行快速、准确的缺陷检测至关重要。基于YOLOv11（YouOnlyLookOnceversion11）的瓶盖缺陷检测系统应运而生，为瓶盖质量监控提供了一种高效、智能的解决方案。该系统采用YOLOv11作为核心检测算法，这一算法融合了先进的深度学习技术和创新的网络架构，
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S