不牌不改

Pytorch学习笔记（五）

讲解以下内容：（基础）

class torch.nn.parameter.Parameter

参数注册

class torch.nn.Module

.add_module()

.children()

.named_children()

.modules()

.named_modules()

.zero_grad()

.parameters()

.named_parameters()

.state_dict()

load_state_dict()

class torch.nn.Sequential

.add_module()

class torch.nn.ModuleList
class torch.nn.ModuleDict
class torch.nn.ParameterList
class torch.nn.ParameterDict

.clear()

.items()

.keys()

.pop()

.update()

.values()

torch.nn.parameter.Parameter

可以理解为与torch.nn.Parameter一样。

（点开nn.parameter源码和nn.parameter.Parameter源码会发现二者源码不同，文件名相同但后缀不同。点开nn.parameter.Parameter源码和nn.Parameter源码会发现二者是同一个文件。即nn.Parameter等于nn.parameter.Parameter，nn.parameter不等于nn.Parameter。因此不区分nn.parameter.Parameter和nn.Parameter。至于原理可见博客：pyi与py的区别）

用法：torch.nn.parameter.Parameter(data=None, requires_grad=True)。这两个参数都比较熟悉了，不再解释。

torch.nn.parameter.Parameter是Tensor的子类，和Tensor不同的是如果一个Tensor是Parameter，那么它会自动被添加到模型的参数列表里，来看下面这个例子。

class MyModel(nn.Module):
    def __init__(self, **kwargs):
        super(MyModel, self).__init__(**kwargs)
        self.weight1 = nn.Parameter(torch.rand(20, 20)) # Parameter
        self.weight2 = torch.rand(20, 20)				# tensor
    def forward(self, x):
        pass

n = MyModel()
for name, param in n.named_parameters():
    print(name)
"""
weight1
"""

上面的代码中weight1在参数列表中但是weight2却没在参数列表中。我们也称weight1被注册了，而weight2未被注册。

有关参数注册的问题

如果参数属于某个模型了，那么说明参数被注册了。可以通过上面讲到的model.parameters()和model.named_parameters()来查看注册到网络上的参数。

有关注册的问题一般出现在网络迁移到GPU上训练时。当参数注册到这个网络上时，它会随着你在外部调用model.cuda()后自动迁移到GPU上，而没有注册的参数则不会随着网络迁到GPU上，这就可能导致输入在GPU上而参数不在GPU上，从而出现错误，为了说明这个现象。举个例子。

import torch
import torch.nn as nn
import torch.nn.functional as F

class Net(nn.Module):
	def __init__(self):
		super(Net,self).__init__()
		self.weight = torch.rand((3,4)) 
	
	def forward(self,x):
		return F.linear(x,self.weight)

if __name__ == "__main__":
	batch_size = 10
	dummy = torch.rand((batch_size,4))
	net = Net()
	print(net(dummy))

上面的代码可以成功运行，因为所有的数值都是放在CPU上的，但是，一旦我们要把模型移到GPU上时

import torch
import torch.nn as nn
import torch.nn.functional as F

class Net(nn.Module):
	def __init__(self):
		super(Net,self).__init__()
		self.weight = torch.rand((3,4))
	
	def forward(self,x):
		return F.linear(x,self.weight)

if __name__ == "__main__":
	batch_size = 10
	dummy = torch.rand((batch_size,4)).cuda()
	net = Net().cuda()
	print(net(dummy))

运行后会出现RuntimeError: Expected object of backend CUDA but got backend CPU for argument #2 'mat2'

这就是因为self.weight没有随着模型一起移到GPU上的原因，此时我们查看模型的参数，会发现并没有self.weight：

import torch
import torch.nn as nn
import torch.nn.functional as F

class Net(nn.Module):
	def __init__(self):
		super(Net,self).__init__()
		self.weight = torch.rand((3,4))
	
	def forward(self,x):
		return F.linear(x,self.weight)

if __name__ == "__main__":
	net = Net()
	for parameter in net.parameters():
		print(parameter)

上面的代码没有输出，因为net根本没有参数。

那么为了让net有参数，我们需要手动地将self.weight注册到网络上。

import torch
import torch.nn as nn
import torch.nn.functional as F

class Net(nn.Module):
	def __init__(self):
		super(Net,self).__init__()
		self.weight = nn.Parameter(torch.rand((3,4))) # 被注册的参数必须是nn.Parameter类型
			
	def forward(self,x):
		return F.linear(x,self.weight)

if __name__ == "__main__":
	net = Net()
	for parameter in net.parameters():
		print(parameter)

	batch_size = 10
	net = net.cuda()
	dummy = torch.rand((batch_size,4)).cuda()
	print(net(dummy))

此时网络的参数就有了输出，同时会随着一起迁到GPU上，输出就类似这样

Parameter containing:
tensor([...])
tensor([...])

类似的，模型注册也是这个道理。

因为Parameter是Tensor，即Tensor拥有的属性它都有，比如可以根据data来访问参数数值，用grad来访问参数梯度。可以自己尝试输出一下。

下面将讲解一些Containers，与torch.nn.parameter.Parameter属于同的类别吧。

torch.nn.Sequential

先不说torch.nn.Module，先说说这个。

Sequential类是继承自Module类的。其实，pytorch里面一切自定义操作基本上都是继承nn.Module类来实现的。

由Sequential创建的我们认为有序，所以可以通过索引获取Sequential中包含的每一层，因此我们称之为序贯模型。

Sequential类的三种不同实现

最简单的序贯模型

import torch.nn as nn
model = nn.Sequential(
                  nn.Conv2d(1,20,5),
                  nn.ReLU(),
                  nn.Conv2d(20,64,5),
                  nn.ReLU()
                )
 
print(model)
print(model[2]) # 通过索引获取第几个层
'''
Sequential(
  (0): Conv2d(1, 20, kernel_size=(5, 5), stride=(1, 1))
  (1): ReLU()
  (2): Conv2d(20, 64, kernel_size=(5, 5), stride=(1, 1))
  (3): ReLU()
)
Conv2d(20, 64, kernel_size=(5, 5), stride=(1, 1))
'''

从输出中，我们可以看出每个层前面都对应着索引，我们可以根据索引取出对应的层。

为每一层添加名称

import torch.nn as nn
from collections import OrderedDict  # 注意是有序字典，属于Python中的用法

model = nn.Sequential(OrderedDict([
    ('conv1', nn.Conv2d(1, 20, 5)),
    ('relu1', nn.ReLU()),
    ('conv2', nn.Conv2d(20, 64, 5)),
    ('relu2', nn.ReLU())
]))

print(model)
print(model[2])     # 通过索引获取第几个层
print(model.conv2)  # 通过.名字的方式获取某一层
'''
Sequential(
  (conv1): Conv2d(1, 20, kernel_size=(5, 5), stride=(1, 1))
  (relu1): ReLU()
  (conv2): Conv2d(20, 64, kernel_size=(5, 5), stride=(1, 1))
  (relu2): ReLU()
)
Conv2d(20, 64, kernel_size=(5, 5), stride=(1, 1))
Conv2d(20, 64, kernel_size=(5, 5), stride=(1, 1))
'''

再观察输出，前面的索引换成了我们定义的名字，但我们并不能通过名字进行索引从而获取对应的层，还是只能通过索引值进行获取，因为Sequential只支持索引值访问。但是可以通过.名字的方式获取某一层，这与通过索引获取的结果完全一样。

即

model[0]		# √
model['conv1'] 	# ×
model.conv1		# √

一层一层地添加进序列模型

import torch.nn as nn

model = nn.Sequential()
model.add_module("conv1", nn.Conv2d(1, 20, 5))
model.add_module('relu1', nn.ReLU())
model.add_module('conv2', nn.Conv2d(20, 64, 5))
model.add_module('relu2', nn.ReLU())

print(model)
print(model[2])  # 通过索引获取第几个层
print(model.conv2)

有点像Java可视化的感觉。

add_module()方法是在Module类中定义的，Sequential只是继承了。支持的访问方式与上面相同。

torch.nn.Module

前面几篇笔记只是去模仿着使用Module构建网络，接下来该详细说说怎么用了。

torch.nn.Module是所有网络的基类。我们创建的任何模型都应该继承这个类。

构建模型

前面已经提过了。

基本形式如下：

class myModel(nn.Module):
    def __init__(self):
        # 继承父类构造函数
        super(myModel, self).__init__()
        # 这里我们定义一些层次实例。
        self.my_conv_layer = nn.Linear()

    def forward(self, x):
        # 这里我们调用在__init__中定义好的层次实例。
        y_hat = my_conv_layer(x)
        return y_hat

添加子模型

上面也说了“add_module()方法是在Module类中定义的，Sequential只是继承了”，自然，Module中也可以该方法添加层。

self.add_module("name", torch.nn.XXX(arguements))

import torch
import torch.nn as nn

class Model(nn.Module):
    def __init__(self):
        super(Model, self).__init__()

        self.add_module("conv1", nn.Conv2d(1, 20, 5))
        self.add_module('relu1', nn.ReLU()),
        self.add_module('conv2', nn.Conv2d(20, 64, 5)),
        self.add_module('relu2', nn.ReLU())

model = Model()

print(model)
print(model.conv2)  # 通过.名字的方式获取某一层
"""
Model(
  (conv1): Conv2d(1, 20, kernel_size=(5, 5), stride=(1, 1))
  (relu1): ReLU()
  (conv2): Conv2d(20, 64, kernel_size=(5, 5), stride=(1, 1))
  (relu2): ReLU()
)
Conv2d(1, 20, kernel_size=(5, 5), stride=(1, 1))
"""

由于Module不是序列模型了，所以不支持索引访问，只能通过.名字的方式获取某一层。（忽略没有实现forward函数）

使用Sequential来包装

当我们的网络层次非常多的时候，在__init__中定义了很多层次后，如果要在forward函数中进行调用需要一个个嵌套，代码量将非常大，比如“笔记四”中的“简单手写数字识别”的代码。如下：

class SimpleCNN(nn.Module):
    def __init__(self):
        #继承父类构造函数
        super(SimpleCNN, self).__init__()
        # 这里我们定义一些层次实例。
        # 比如：
        # 先卷积，再relu，再池化
        self.myconv1 = nn.Conv2d(in_channels=3, out_channels=32, kernel_size=(3, 3), padding=1, stride=1, bias=True)
        self.myrelu1 = nn.ReLU(inplace=True)
        self.mymaxpooling1 = nn.MaxPool2d(kernel_size=(2, 2), stride=1)

        # 先卷积，再relu，再池化
        self.myconv2 = nn.Conv2d(in_channels=32, out_channels=64, kernel_size=(3, 3), padding=1, stride=1, bias=True)
        self.myrelu2 = nn.ReLU(inplace=True)
        self.mymaxpooling2 = nn.MaxPool2d(kernel_size=(2, 2), stride=1)

        # 先卷积，再relu，再池化
        self.myconv3 = nn.Conv2d(in_channels=64, out_channels=128, kernel_size=(3, 3), padding=1, stride=1, bias=True)
        self.myrelu3 = nn.ReLU(inplace=True)
        self.mymaxpooling3 = nn.MaxPool2d(kernel_size=(2, 2), stride=1)

        # 开始全连接 2048 -> 512 -> 64 -> 10
        self.myfullconnected1 = nn.Linear(in_features=2048, out_features=512)
        self.myrelu4 = nn.ReLU(inplace=True)
        self.myfullconnected2 = nn.Linear(in_features=512, out_features=64)
        self.myrelu5 = nn.ReLU(inplace=True)
        self.myfullconnected3 = nn.Linear(in_features=64, out_features=10)

    def forward(self, x):
        # 这里我们调用在__init__中定义好的层次实例。
        conv1 = self.myconv1(x)
        relu1 = self.myrelu1(conv1)
        maxpooling1 = self.mymaxpooling1(relu1)

        conv2 = self.myconv2(maxpooling1)
        relu2 = self.myrelu2(conv2)
        maxpooling2 = self.mymaxpooling2(relu2)

        conv3 = self.myconv3(maxpooling2)
        relu3 = self.myrelu3(conv3)
        maxpooling3 = self.mymaxpooling3(relu3)

        output = maxpooling3.view(maxpooling3.size(0), -1) # 不要忘记Linear函数的输入必须是二维的！

        fullconnected1 = self.myfullconnected1(output)
        relu4 = self.myrelu4(fullconnected1)

        fullconnected2 = self.myfullconnected2(relu4)
        relu5 = self.myrelu5(fullconnected2)

        y_hat = self.myfullconnected3(relu5)

        return y_hat

为了解决这一问题，我们可以在定义层次时，将若干个有联系的层次封装到一个Sequential中，多个独立的层次封装到不同Sequential中，这样给人的直观感受就是这个网络由多个Sequential构成。在forward中就可以只调用在__init__中定义的Sequential即可，这样不就变得容易多了嘛。

用Sequential封装一下上面的代码。
（可以采用上面讲到的Sequential封装层次的任何一种方式进行）

import torch.nn as nn

class SimpleCNN(nn.Module):
    def __init__(self):
        super(SimpleCNN, self).__init__()

        # 第一次：卷积 -> relu -> 池化
        self.layer1 = nn.Sequential()
        self.layer1.add_module('conv1', nn.Conv2d(3, 32, (3, 3), (1, 1), padding=1))
        self.layer1.add_module('relu1', nn.ReLU(True))
        self.layer1.add_module('pool1', nn.MaxPool2d(2, 2))

        # 第二次：卷积 -> relu -> 池化
        self.layer2 = nn.Sequential()
        self.layer2.add_module('conv2', nn.Conv2d(32, 64, (3, 3), (1, 1), padding=1))
        self.layer2.add_module('relu2', nn.ReLU(True))
        self.layer2.add_module('pool2', nn.MaxPool2d(2, 2))

        # 第三次：卷积 -> relu -> 池化
        self.layer3 = nn.Sequential()
        self.layer3.add_module('conv3', nn.Conv2d(64, 128, (3, 3), (1, 1), padding=1))
        self.layer3.add_module('relu3', nn.ReLU(True))
        self.layer3.add_module('pool3', nn.MaxPool2d(2, 2))

        # 多个全连接层
        self.layer4 = nn.Sequential()
        self.layer4.add_module('fc1', nn.Linear(2048, 512))
        self.layer4.add_module('fc_relu1', nn.ReLU(True))
        self.layer4.add_module('fc2', nn.Linear(512, 64))
        self.layer4.add_module('fc_relu2', nn.ReLU(True))
        self.layer4.add_module('f3', nn.Linear(64, 10))

    def forward(self, x):
        conv1 = self.layer1(x)                      # 一句代码传播了三层
        conv2 = self.layer2(conv1)
        conv3 = self.layer3(conv2)
        input = conv3.view(conv3.size(0), -1)    # 转换到2维
        output = self.layer4(input)
        return output

model = SimpleCNN()
print(model)
"""
SimpleCNN(
  (layer1): Sequential(
    (conv1): Conv2d(3, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (relu1): ReLU(inplace=True)
    (pool1): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
  )
  (layer2): Sequential(
    (conv2): Conv2d(32, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (relu2): ReLU(inplace=True)
    (pool2): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
  )
  (layer3): Sequential(
    (conv3): Conv2d(64, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (relu3): ReLU(inplace=True)
    (pool3): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
  )
  (layer4): Sequential(
    (fc1): Linear(in_features=2048, out_features=512, bias=True)
    (fc_relu1): ReLU(inplace=True)
    (fc2): Linear(in_features=512, out_features=64, bias=True)
    (fc_relu2): ReLU(inplace=True)
    (f3): Linear(in_features=64, out_features=10, bias=True)
  )
)
"""

我们将卷积、relu和池化封装成独立的一层，这样就存在了三个三个卷积层，最后再将全连接层封装成一层，总共四层，在forward中调用时就更加简单了，而且还更容易理解了，岂不美哉。

当然也可以采用OrderedDict来构建Sequential，只不过我不喜欢。

获取子模型

上面提到了只能通过.名字获取子模型，不能使用索引。如果想要获取全部子模型可以采用下面的方法。

model.children()方法

还是上面那段手写数字识别的代码，如果我将输出改为：（降低文章冗余）

for m in model.children() :
    print(m)
    print(type(m))
    print()

输出为：

"""
Sequential(
  (conv1): Conv2d(3, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
  (relu1): ReLU(inplace=True)
  (pool1): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
)


Sequential(
  (conv2): Conv2d(32, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
  (relu2): ReLU(inplace=True)
  (pool2): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
)


Sequential(
  (conv3): Conv2d(64, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
  (relu3): ReLU(inplace=True)
  (pool3): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
)


Sequential(
  (fc1): Linear(in_features=2048, out_features=512, bias=True)
  (fc_relu1): ReLU(inplace=True)
  (fc2): Linear(in_features=512, out_features=64, bias=True)
  (fc_relu2): ReLU(inplace=True)
  (f3): Linear(in_features=64, out_features=10, bias=True)
)

"""

总共四个直接子模型，所以输出四个，每个都是Sequential类型。

model.named_children()方法

输出改为：

for m in model.named_children() :
    print(m)
    print(type(m))
    print()

输出为：

('layer1', Sequential(
  (conv1): Conv2d(3, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
  (relu1): ReLU(inplace=True)
  (pool1): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
))
<class 'tuple'>

('layer2', Sequential(
  (conv2): Conv2d(32, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
  (relu2): ReLU(inplace=True)
  (pool2): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
))
<class 'tuple'>

('layer3', Sequential(
  (conv3): Conv2d(64, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
  (relu3): ReLU(inplace=True)
  (pool3): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
))
<class 'tuple'>

('layer4', Sequential(
  (fc1): Linear(in_features=2048, out_features=512, bias=True)
  (fc_relu1): ReLU(inplace=True)
  (fc2): Linear(in_features=512, out_features=64, bias=True)
  (fc_relu2): ReLU(inplace=True)
  (f3): Linear(in_features=64, out_features=10, bias=True)
))
<class 'tuple'>

输出的是元组了，总共四个元组，每个元组由两个元素构成，第一个是子模型名称，第二个是子模型，也就是.children()方法的输出。

因为是元组，所以改写for语句，直接分别获取名称和模型：

for name, m in model.named_children() :
    print(name)
    print(m)
    print()

model.modules()方法

将输出改为：

for m in model.modules() :
    print(m)
    print()

输出：

"""
SimpleCNN(
  (layer1): Sequential(
    (conv1): Conv2d(3, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (relu1): ReLU(inplace=True)
    (pool1): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
  )
  (layer2): Sequential(
    (conv2): Conv2d(32, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (relu2): ReLU(inplace=True)
    (pool2): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
  )
  (layer3): Sequential(
    (conv3): Conv2d(64, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (relu3): ReLU(inplace=True)
    (pool3): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
  )
  (layer4): Sequential(
    (fc1): Linear(in_features=2048, out_features=512, bias=True)
    (fc_relu1): ReLU(inplace=True)
    (fc2): Linear(in_features=512, out_features=64, bias=True)
    (fc_relu2): ReLU(inplace=True)
    (f3): Linear(in_features=64, out_features=10, bias=True)
  )
)

Sequential(
  (conv1): Conv2d(3, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
  (relu1): ReLU(inplace=True)
  (pool1): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
)

Conv2d(3, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))

ReLU(inplace=True)

MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)

Sequential(
  (conv2): Conv2d(32, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
  (relu2): ReLU(inplace=True)
  (pool2): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
)

Conv2d(32, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))

ReLU(inplace=True)

MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)

Sequential(
  (conv3): Conv2d(64, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
  (relu3): ReLU(inplace=True)
  (pool3): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
)

Conv2d(64, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))

ReLU(inplace=True)

MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)

Sequential(
  (fc1): Linear(in_features=2048, out_features=512, bias=True)
  (fc_relu1): ReLU(inplace=True)
  (fc2): Linear(in_features=512, out_features=64, bias=True)
  (fc_relu2): ReLU(inplace=True)
  (f3): Linear(in_features=64, out_features=10, bias=True)
)

Linear(in_features=2048, out_features=512, bias=True)

ReLU(inplace=True)

Linear(in_features=512, out_features=64, bias=True)

ReLU(inplace=True)

Linear(in_features=64, out_features=10, bias=True)
"""

扫一眼就能看出来，不过是在children方法的基础上递归地将Sequential中的子模型输出了而已。

model.named_modules()方法

不用多说了吧，光看名字也知道咋输出了。就是model.named_children()和model.modules()特点的结合。

模型参数梯度清零

将module中的所有模型参数的梯度设置为0。

model.zero_grad()

模型参数的迭代器

model.parameters()：返回一个包含模型所有参数的迭代器。**一般用来当作optimizer的参数。**例如：optimizer = torch.optim.Adam(model.parameters(), lr=1e-5)

迭代器输出：for param in model.parameters()

import torch.nn as nn

class Model(nn.Module):
    def __init__(self):
        super(Model, self).__init__()
        # w11 * x1 + w12 * x2 + w13 * x3 + w14 * x4 + b1 = y1
        # w21 * x1 + w22 * x2 + w23 * x3 + w24 * x4 + b2 = y2
        self.linear = nn.Linear(in_features=4, out_features=2, bias=True)

model = Model()

print(model.parameters())
for i in model.parameters() :
    print(i)
"""

Parameter containing:
tensor([[ 0.4989, -0.3205,  0.1430,  0.4302],
        [ 0.0959, -0.1399,  0.4538,  0.3097]], requires_grad=True)
Parameter containing:
tensor([-0.1364,  0.4204], requires_grad=True)
"""

模型参数的键值对迭代器

model.named_parameters()：每次迭代得到的是一个元组，元组的第一个元素是字符串，即参数名，第二个元素是张量，即参数值。

用法：for name, paras in model.named_parameters()

模型参数的键值对字典

model.state_dict()：返回字典，由参数名作为键，由参数值作为值构成的键值对。一般多见于模型的保存。 例如：torch.save(model.state_dict(), 'best_model.pth')

保存和加载模型参数

load_state_dict(state_dict, strict=True)：state_dict保存的模型参数；当strict=True,要求预训练权重层数的键值与新构建的模型中的权重层数名称完全吻合；如果新构建的模型在层数上进行了部分微调，则上述代码就会报错：说key对应不上。此时，如果我们采用strict=False 就能够完美的解决这个问题。也即，与训练权重中与新构建网络中匹配层的键值就进行使用，没有的就默认初始化。strict默认是True。

保存用法举例：torch.save(model.state_dict(), PATH)

加载用法举例：model.load_state_dict(torch.load(PATH))

（推荐的文件后缀名是pt或pth）

import torch.nn as nn

class Model(nn.Module):
    def __init__(self):
        super(Model, self).__init__()
        # w11 * x1 + w12 * x2 + w13 * x3 + w14 * x4 + b1 = y1
        # w21 * x1 + w22 * x2 + w23 * x3 + w24 * x4 + b2 = y2
        self.linear = nn.Linear(in_features=4, out_features=2, bias=True)

model = Model()

print(model.state_dict())
"""
OrderedDict([('linear.weight', tensor([[-0.2771,  0.4257, -0.3358, -0.2229],
        [ 0.0083,  0.0629, -0.1918,  0.2075]])), ('linear.bias', tensor([0.0448, 0.2053]))])
"""

保存和加载整个模型

保存：torch.save(model, PATH)

加载：model = torch.load(PATH)

GPU与CPU之间的模型保存与读取

Save on GPU, Load on CPU

save：

torch.save(model.state_dict(), PATH)

Load：

device = torch.device('cpu')
model = TheModelClass(*args, **kwargs)
model.load_state_dict(torch.load(PATH, map_location=device))

Save on GPU, Load on GPU

Save：

torch.save(model.state_dict(), PATH)

Load：

device = torch.device("cuda")
model = TheModelClass(*args, **kwargs)
model.load_state_dict(torch.load(PATH))
model.to(device)
# Make sure to call input = input.to(device) on any input tensors that you feed to the model

Save on CPU, Load on GPU

Save：

torch.save(model.state_dict(), PATH)

Load：

device = torch.device("cuda")
model = TheModelClass(*args, **kwargs)
model.load_state_dict(torch.load(PATH, map_location="cuda:0"))  # Choose whatever GPU device number you want
model.to(device)
# Make sure to call input = input.to(device) on any input tensors that you feed to the model

torch.nn.ModuleList

将子模型保存在一个list中。

ModuleList可以像一般的Python list一样被索引。而且ModuleList中包含的modules已经被正确的注册，对所有的module method可见。

创建ModuleList

import torch
from torch.autograd import Variable
import torch.nn as nn

# 创建一个model
class MyModule(nn.Module):
    def __init__(self):
        super(MyModule, self).__init__()
        # 构建一个moduleList,里面连续放10个linear字Module
        self.linears = nn.ModuleList([nn.Linear(10, 10) for i in range(10)])
        
    def forward(self, x):
        # 可以这样取出来
        for i, l in enumerate(self.linears):
            x = l(x)
        return x
    
# 创建一个model
class MyModule2(nn.Module):
    def __init__(self):
        super(MyModule, self).__init__()
        # 构建一个moduleList,里面连续放10个linear字Module
        self.linears = nn.ModuleList([nn.Linear(10, 10) for i in range(10)])
        
    def forward(self, x):
        for i, l in enumerate(self.linears):
            # 也可以根据索引来取
            x = self.linears[i // 2](x)
        return x
    
model = MyModule()
print(model)
"""
MyModule(
  (linears): ModuleList(
    (0): Linear(in_features=10, out_features=10, bias=True)
    (1): Linear(in_features=10, out_features=10, bias=True)
    (2): Linear(in_features=10, out_features=10, bias=True)
    (3): Linear(in_features=10, out_features=10, bias=True)
    (4): Linear(in_features=10, out_features=10, bias=True)
    (5): Linear(in_features=10, out_features=10, bias=True)
    (6): Linear(in_features=10, out_features=10, bias=True)
    (7): Linear(in_features=10, out_features=10, bias=True)
    (8): Linear(in_features=10, out_features=10, bias=True)
    (9): Linear(in_features=10, out_features=10, bias=True)
  )
)
"""

由于是list类型，所以可以使用append和extend实现扩充子模型。

既然Sequential和ModuleList都可以进行列表化构造网络，那二者区别是什么呢。

ModuleList仅仅是一个储存各种模块的列表，这些模块之间没有联系也没有顺序（所以不用保证相邻层的输入输出维度匹配），而且没有实现forward功能需要自己实现，所以直接执行net(x)会报NotImplementedError；而Sequential内的模块需要按照顺序排列，要保证相邻层的输入输出大小相匹配，内部forward功能已经实现。

另外，ModuleList不同于一般的Python的list，加入到ModuleList里面的所有模块的参数会被自动添加到整个网络中（被注册），下面看一个例子对比一下。

class Module_ModuleList(nn.Module):
    def __init__(self):
        super(Module_ModuleList, self).__init__()
        self.linears = nn.ModuleList([nn.Linear(10, 10)])

class Module_List(nn.Module):
    def __init__(self):
        super(Module_List, self).__init__()
        self.linears = [nn.Linear(10, 10)]

net1 = Module_ModuleList()
net2 = Module_List()

print("net1:")
for p in net1.parameters():
    print(p.size())

print("net2:")
for p in net2.parameters():
    print(p)

输出

net1:
torch.Size([10, 10])
torch.Size([10])
net2:

torch.nn.ModuleDict

将子模型保存在一个Dict中。

创建ModuleDict

ModuleDict接收一个子模块的字典作为输入，然后也可以类似字典那样进行添加访问操作：

net = nn.ModuleDict({
    'linear': nn.Linear(784, 256),
    'act': nn.ReLU(),
})
net['output'] = nn.Linear(256, 10) # 添加
print(net['linear']) # 访问
print(net.output)
print(net)
# net(torch.zeros(1, 784)) # 会报NotImplementedError

输出：

Linear(in_features=784, out_features=256, bias=True)
Linear(in_features=256, out_features=10, bias=True)
ModuleDict(
  (act): ReLU()
  (linear): Linear(in_features=784, out_features=256, bias=True)
  (output): Linear(in_features=256, out_features=10, bias=True)
)

和ModuleList一样，ModuleDict实例仅仅是存放了一些模块的字典，并没有定义forward函数需要自己定义。同样，ModuleDict也与Python的Dict有所不同，ModuleDict里的所有模块的参数会被自动添加到整个网络中。

torch.nn.ParameterList

与torch.nn.ModuleList类似，该函数可以一次性生成一组参数。与普通的list不同的是，如此定义的参数被注册了，可以使用模型方法对参数操作。要求ParameterList必须由nn.Parameter组成。

import torch
import torch.nn as nn

class MyModel(nn.Module):
    def __init__(self, **kwargs):
        super(MyModel, self).__init__(**kwargs)
        self.weight1 = nn.ParameterList([nn.Parameter(torch.randn(10, 10)) for i in range(10)])
        self.weight2 = list([nn.Parameter(torch.randn(10, 10)) for i in range(10)])

    def forward(self, x):
        pass

n = MyModel()
for name, param in n.named_parameters():
    print(name, param.size())

输出如下：

weight1.0 torch.Size([10, 10])
weight1.1 torch.Size([10, 10])
weight1.2 torch.Size([10, 10])
weight1.3 torch.Size([10, 10])
weight1.4 torch.Size([10, 10])
weight1.5 torch.Size([10, 10])
weight1.6 torch.Size([10, 10])
weight1.7 torch.Size([10, 10])
weight1.8 torch.Size([10, 10])
weight1.9 torch.Size([10, 10])

可以看到weight2没有被注册。

但是self.weight2 = nn.Parameter(torch.randn(10, 10))就可以。

nn.ParameterList对象也可以使用append和extend方法。

需要注意的是，虽然直接放在python list中的参数不会自动注册，但如果只是暂时放在list里，随后又调用了nn.Sequential把整个list整合起来，参数仍然是会自动注册的。
另外一点要注意的是ModuleList和ModuleDict里面只能放Module的子类，也就是nn.Conv,nn.Linear这样的，但不能放nn.Parameter，如果要放nn.Parameter，用nn.ParameterList即可，用法和nn.ModuleList一样。

torch.nn.ParameterDict

创建ParameterDict

torch.nn.ParameterDict(parameters=None)：传入一个字典，键为字符串表示名字，值为nn.Parameter类型参数。

import torch
import torch.nn as nn

class MyDictDense(nn.Module):
    def __init__(self):
        super(MyDictDense, self).__init__()
        self.params = nn.ParameterDict({
                'linear1': nn.Parameter(torch.randn(4, 4)),
                'linear2': nn.Parameter(torch.randn(4, 1))
        })
            
    def forward(self, x):
        pass
        
net = MyDictDense()
print(net)
"""
MyDictDense(
  (params): ParameterDict(
      (linear1): Parameter containing: [torch.FloatTensor of size 4x4]
      (linear2): Parameter containing: [torch.FloatTensor of size 4x1]
  )
)
"""

update()

update(parameters)：传入一个字典，键为字符串表示名字，值为nn.Parameter类型参数。如果名字已经存在，则更新原来的参数为新传入的参数；如果名字不存在，则相当于添加一个新的参数。

import torch
import torch.nn as nn

class MyDictDense(nn.Module):
    def __init__(self):
        super(MyDictDense, self).__init__()
        self.params = nn.ParameterDict({
                'linear1': nn.Parameter(torch.randn(4, 4)),
                'linear2': nn.Parameter(torch.randn(4, 1))
        })

        self.params.update({'linear3': nn.Parameter(torch.ones(4, 2))}) # 新增
		self.params.update({'linear2': nn.Parameter(torch.zeros(4, 2))}) # 修改
		
    def forward(self, x):
        pass
        
net = MyDictDense()
print(net)
"""
MyDictDense(
  (params): ParameterDict(
      (linear1): Parameter containing: [torch.FloatTensor of size 4x4]
      (linear2): Parameter containing: [torch.FloatTensor of size 4x2]
      (linear3): Parameter containing: [torch.FloatTensor of size 4x2]
  )
)
"""

根据上面输出的参数个数和参数size，可以看出新增和修改。

clear()

clear()：将调用该方法的nn.ParameterDict对象中的参数全部清除。

import torch
import torch.nn as nn

class MyDictDense(nn.Module):
    def __init__(self):
        super(MyDictDense, self).__init__()
        self.params = nn.ParameterDict({
                'linear1': nn.Parameter(torch.randn(4, 4)),
                'linear2': nn.Parameter(torch.randn(4, 1))
        })

        self.params.update({'linear3': nn.Parameter(torch.ones(4, 2))}) # 新增
        self.params.update({'linear2': nn.Parameter(torch.zeros(4, 2))}) # 修改

        self.params.clear() # 移除全部的参数

    def forward(self, x):
        pass
        
net = MyDictDense()
print(net)
"""
MyDictDense(
  (params): ParameterDict()
)
"""

items()

items()：返回一个迭代器，迭代器每次返回一个元组，元组的第一个元素是键（参数名），第二个元素是值（参数张量）

import torch
import torch.nn as nn

class MyDictDense(nn.Module):
    def __init__(self):
        super(MyDictDense, self).__init__()
        self.params = nn.ParameterDict({
                'linear1': nn.Parameter(torch.randn(4, 4)),
                'linear2': nn.Parameter(torch.randn(4, 1))
        })

        self.params.update({'linear3': nn.Parameter(torch.ones(4, 2))}) # 新增
        self.params.update({'linear2': nn.Parameter(torch.zeros(4, 2))}) # 修改

        for key, value in self.params.items() :
            print(f'name is {key}')
            print(value)
            print(id(value) == id(self.params[key])) # 可以通过参数名作为索引，直接访问参数值
            print()

    def forward(self, x):
        pass
        
net = MyDictDense()
"""
name is linear1
Parameter containing:
tensor([[-0.6649,  0.2069,  0.1977, -0.6041],
        [ 0.3809, -1.9162,  0.6687, -0.4399],
        [-0.5952,  0.3620,  1.0929, -0.4170],
        [ 0.2388,  0.0443,  1.6960, -0.0550]], requires_grad=True)
True

name is linear2
Parameter containing:
tensor([[0., 0.],
        [0., 0.],
        [0., 0.],
        [0., 0.]], requires_grad=True)
True

name is linear3
Parameter containing:
tensor([[1., 1.],
        [1., 1.],
        [1., 1.],
        [1., 1.]], requires_grad=True)
True
"""

pop()

pop(key)：从调用该方法的参数字典中弹出（删除）键（参数名）为key的参数，并返回其值。

import torch
import torch.nn as nn

class MyDictDense(nn.Module):
    def __init__(self):
        super(MyDictDense, self).__init__()
        self.params = nn.ParameterDict({
                'linear1': nn.Parameter(torch.randn(4, 4)),
                'linear2': nn.Parameter(torch.randn(4, 1))
        })

        self.params.update({'linear3': nn.Parameter(torch.ones(4, 2))}) # 新增
        self.params.update({'linear2': nn.Parameter(torch.zeros(4, 2))}) # 修改

        print(self.params.pop('linear3'))
        # print(self.params['linear3']) # 报错

    def forward(self, x):
        pass
net = MyDictDense()
"""
Parameter containing:
tensor([[1., 1.],
        [1., 1.],
        [1., 1.],
        [1., 1.]], requires_grad=True)
"""

keys() & values()

keys()和values()均返回迭代器，前者返回键（参数名）的迭代器，后者返回值（参数值）的迭代器。

import torch
import torch.nn as nn

class MyDictDense(nn.Module):
    def __init__(self):
        super(MyDictDense, self).__init__()
        self.params = nn.ParameterDict({
                'linear1': nn.Parameter(torch.randn(4, 4)),
                'linear2': nn.Parameter(torch.randn(4, 1))
        })

        self.params.update({'linear3': nn.Parameter(torch.ones(4, 2))}) # 新增
        self.params.update({'linear2': nn.Parameter(torch.zeros(4, 2))}) # 修改

        for key, value in zip(self.params.keys(), self.params.values()) :
            print(f'name is {key}')
            print(value)
            print(id(value) == id(self.params[key]))
            print()


    def forward(self, x):
        pass
net = MyDictDense()
"""
name is linear1
Parameter containing:
tensor([[ 0.7863, -1.0259, -0.9842, -0.3811],
        [ 1.2082, -0.1945,  0.5558, -1.0744],
        [ 1.0119, -1.3584, -0.5845, -0.2084],
        [ 0.3565,  0.9772, -1.6793,  0.6265]], requires_grad=True)
True

name is linear2
Parameter containing:
tensor([[0., 0.],
        [0., 0.],
        [0., 0.],
        [0., 0.]], requires_grad=True)
True

name is linear3
Parameter containing:
tensor([[1., 1.],
        [1., 1.],
        [1., 1.],
        [1., 1.]], requires_grad=True)
True
"""

发现，for key, value in zip(self.params.keys(), self.params.values()) :和for key, value in self.params.items() :是等价的。

REF

[1] pytorch教程之nn.Sequential类详解——使用Sequential类来自定义顺序连接模型 - CSDN博客

[2] 卷积神经网络中nn.Conv2d()和nn.MaxPool2d()以及卷积神经网络实现minist数据集分类 - 博客园

[3] Pytorch第五课：package-torch.nn详解（1）之Containers（容器） - CSDN博客

[4] 理解 Python 装饰器看这一篇就够了 - FooFish

[5] torch.load_state_dict()函数的用法总结 - CSDN博客

[6] 4.1 模型构造 - Dive-into-DL-PyTorch

[7] Pytorch参数注册问题和nn.ModuleList nn.ModuleDict - CSDN博客

[8] 4.5 读取和存储 - Dive-into-DL-PyTorch

你可能感兴趣的:(【Pytorch学习】,pytorch,深度学习,机器学习)

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
vllm本地部署bge-reranker-v2-m3模型API服务实战教程雷电法王大模型部署 linux python vscode language model
文章目录一、说明二、配置环境2.1安装虚拟环境2.2安装vllm2.3对应版本的pytorch安装2.4安装flash_attn2.5下载模型三、运行代码3.1启动服务3.2调用代码验证一、说明本文主要介绍vllm本地部署BAAI/bge-reranker-v2-m3模型API服务实战教程本文是在Ubuntu24.04+CUDA12.8+Python3.12环境下复现成功的二、配置环境2.1安装虚
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
【机器学习笔记Ⅰ】9 特征缩放巴伦是只猫机器学习机器学习笔记人工智能
特征缩放（FeatureScaling）详解特征缩放是机器学习数据预处理的关键步骤，旨在将不同特征的数值范围统一到相近的尺度，从而加速模型训练、提升性能并避免某些特征主导模型。1.为什么需要特征缩放？(1)问题背景量纲不一致：例如：特征1：年龄（范围0-100）特征2：收入（范围0-1,000,000）梯度下降的困境：量纲大的特征（如收入）会导致梯度更新方向偏离最优路径，收敛缓慢。量纲小的特征（如
pycharm无法识别conda环境（已解决） Reborker pycharm conda ide
文章目录前言研究过程解决办法前言好久不用pycharm了，打开后提示更新，更新到了2023.1版本。安装conda后在新建了一个虚拟环境pytorch，但是无论是基础环境还是虚拟环境，pycharm都识别不出conda里的python.exe(如图)。如果不想看啰嗦直接看后面的解决办法，比较闲的话可以看看我的研究过程。研究过程看了很多博客，尝试了以下解决办法：加载conda.bat文件，虽然出现了
jetson agx orin 刷机、cuda、pytorch配置指南【亲测有效】
jetsonagxorin刷机指南注意事项刷机具体指南cuda环境配置指南Anconda、Pytorch配置注意事项1.使用设备自带usbtoc的传输线时，注意c口插到orin左侧的口，右侧的口不支持数据传输；2.刷机时需准备ubuntu系统，可以是虚拟机，注意安装SDKManager刷机时，JetPack版本要选对，JetPack6.0的对应ubuntu22，cuda12版本，对应pytorch
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
Yolov5-obb(旋转目标poly_nms_cuda.cu编译bug记录及解决方案)
关于在执行pythonsetup.pydevelop#or"pipinstall-v-e."时poly_nms_cuda.cu报错问题。前面步骤严格按照install.md环境1.pytorch版本较低时（我的是1.10）：poly_nms_cuda.cu文件添加”#defineeps1e-8“，删除“constdoubleeps=1E-8;”这句2.pytorch版本较高时（我用的是1.27）h
Python OpenCV教程从入门到精通的全面指南【文末送书】一键难忘 python opencv 开发语言
文章目录PythonOpenCV从入门到精通1.安装OpenCV2.基本操作2.1读取和显示图像2.2图像基本操作3.图像处理3.1图像转换3.2图像阈值处理3.3图像平滑4.边缘检测和轮廓4.1Canny边缘检测4.2轮廓检测5.高级操作5.1特征检测5.2目标跟踪5.3深度学习与OpenCVPythonOpenCV从入门到精通【文末送书】PythonOpenCV从入门到精通OpenCV(Ope
第八周 tensorflow实现猫狗识别降花绘 365天深度学习 tensorflow系列 tensorflow 深度学习人工智能
本文为365天深度学习训练营内部限免文章（版权归K同学啊所有）**参考文章地址：[TensorFlow入门实战｜365天深度学习训练营-第8周：猫狗识别（训练营内部成员可读）]**作者：K同学啊文章目录一、本周学习内容:1、自己搭建VGG16网络2、了解model.train_on_batch（）3、了解tqdm，并使用tqdm实现可视化进度条二、前言三、电脑环境四、前期准备1、导入相关依赖项2、
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路一、医疗领域：AI驱动的精准诊疗与效率提升1.医学影像诊断AI算法通过深度学习技术，已实现对X光、CT、MRI等影像的快速分析，辅助医生检测癌症、骨折等疾病。例如，GoogleDeepMind的AI系统在乳腺癌筛查中，误检率比人类专家低9.4%；中国的推想医疗AI系统可在20秒内完成肺部CT扫描分析，为急诊救治争取黄金时间。2.药物研发传统药
专题：2025云计算与AI技术研究趋势报告|附200+份报告PDF、原数据表汇总下载
原文链接：https://tecdat.cn/?p=42935关键词：2025,云计算，AI技术，市场趋势，深度学习，公有云，研究报告云计算和AI技术正以肉眼可见的速度重塑商业世界。过去十年，全球云服务收入激增8倍，中国云计算市场规模突破6000亿元，而深度学习算法的应用量更是暴涨400倍。这些数字背后，是企业从“自建机房”到“云原生开发”的转型，是AI从“实验室”走向“产业级应用”的跨越。本报告
【大模型与机器学习解惑】什么是A/B测试，为何进行A/B测试？
以下内容将围绕机器学习中的A/B测试展开，从概念与背景到实施细节、示例代码、优化思路和未来建议，并在最后给出一个整体的“输出目录”供参考。目录什么是机器学习的A/B测试为何要进行A/B测试A/B测试的实施流程示例代码与详细解释优化方向与未来建议结语1.什么是机器学习的A/B测试A/B测试（也常被称作对照试验、SplitTest）最早多用于互联网产品的功能或界面迭代中，指的是将用户或样本随机分为两组
【深度学习解惑】在实践中如何发现和修正RNN训练过程中的数值不稳定？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 人工智能 tensorflow pytorch 神经网络机器学习
在实践中发现和修正RNN训练过程中的数值不稳定目录引言与背景介绍原理解释代码说明与实现应用场景与案例分析实验设计与结果分析性能分析与技术对比常见问题与解决方案创新性与差异性说明局限性与挑战未来建议和进一步研究扩展阅读与资源推荐图示与交互性内容语言风格与通俗化表达互动交流1.引言与背景介绍循环神经网络(RNN)在处理序列数据时表现出色，但训练过程中常面临梯度消失和梯度爆炸问题，导致数值不稳定。当网络
【深度学习实战】当前三个最佳图像分类模型的代码详解云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习人工智能分类模型机器学习 Transformer EfficientNet ConvNeXt
下面给出三个在当前图像分类任务中精度表现突出的模型示例，分别基于SwinTransformer、EfficientNet与ConvNeXt。每个模型均包含：训练代码（使用PyTorch）从预训练权重开始微调（也可注释掉预训练选项，从头训练）数据集目录结构：└──dataset_root├──buy#第一类图像└──nobuy#第二类图像随机拆分：80%训练，20%验证每个Epoch输出一次loss
第35周—————糖尿病预测模型优化探索
目录目录前言1.检查GPU2.查看数据编辑3.划分数据集4.创建模型与编译训练5.编译及训练模型6.结果可视化7.总结前言本文为365天深度学习训练营中的学习记录博客原作者：K同学啊1.检查GPUimporttorch.nnasnnimporttorch.nn.functionalasFimporttorchvision,torch#设置硬件设备，如果有GPU则使用，没有则使用cpudevice=
详解LLMOps，将DevOps用于大语言模型开发
大家好，在机器学习领域，随着技术的不断发展，将大型语言模型（LLMs）集成到商业产品中已成为一种趋势，同时也带来了许多挑战。为了有效应对这些挑战，数据科学家们转向了一种新型的DevOps实践LLM-OPS，专为大型语言模型的开发和维护而设计。本文将介绍LLM-OPS的核心思想，并分析这一策略如何帮助数据科学家更高效地运用DevOps的优秀实践，从而在语言模型的开发和部署过程中，提升工作效率和成果的
搜广推校招面经九十一
美团机器学习/数据挖掘算法工程师_二面一、介绍一下ESMM模型，是否有进行过函数推导传统的转化率建模方式：只用发生点击（click=1）的样本来训练CVR模型。CVR定义如下：CVR=P(y=1∣x,z=1)CVR=P(y=1|x,z=1)CVR=P(y=1∣x,z=1)y=1表示用户发生了转化（如购买）z=1表示用户点击了广告这样做的问题：样本选择偏差（SampleSelectionBias,S
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23