pytorch是一个非常好用的模型,值得花时间去理解去搞一搞。
torch.save
:将对象序列化到硬盘上,该对象可以是 Models, tensors和 dictionaries 等。实际上是使用了python的 pickle方法。
torch.load
:将硬盘上序列化的对象加载设备中。实际是使用了pickle的解包方法。
torch.nn.Module.load_state_dict
:通过反序列化state_dict加载模型参数字典。
在pytorch中torch.nn.Module模型的参数存放在模型的parameters中(model.parameters()),而state_dict是参数tensor的字典。仅当该层有可学习的参数才会有属性state_dict。torch.optim也有state_dict属性,其中包含的是优化器的参数,即网络所使用的超参数。
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
class TheModelClass(nn.Module):
def __init__(self):
super(TheModelClass, self).__init__()
self.conv1 = nn.Conv2d(3, 6, 5)
self.pool = nn.MaxPool2d(2, 2)
self.conv2 = nn.Conv2d(6, 16, 5)
self.fc1 = nn.Linear(16 * 5 * 5, 120)
self.fc2 = nn.Linear(120, 84)
self.fc3 = nn.Linear(84, 10)
def forward(self, x):
x = self.pool(F.relu(self.conv1(x)))
x = self.pool(F.relu(self.conv2(x)))
x = x.view(-1, 16 * 5 * 5)
x = F.relu(self.fc1(x))
x = F.relu(self.fc2(x))
x = self.fc3(x)
return x
# 初始化模型
model = TheModelClass()
# 初始化优化器
optimizer = optim.SGD(model.parameters(), lr=0.001, momentum=0.9)
# 打印模型参数
print("Model's state_dict:")
for param_tensor in model.state_dict():
print(param_tensor, "\t", model.state_dict()[param_tensor].size())
# 打印优化器参数
print("Optimizer's state_dict:")
for var_name in optimizer.state_dict():
print(var_name, "\t", optimizer.state_dict()[var_name])
保存的文件结尾一般使用.pt或.pth。最后的model.eval()
表示将drop和batch nromalization层设置为测试模式。可通过mode.train()
转化为训练模式。
model.eval(),pytorch会自动把BN和DropOut固定住,不会取平均,而是用训练好的值。不然的话,一旦test的batch_size过小,很容易就会被BN层导致生成图片颜色失真极大;在模型测试阶段使用model.train() 让model变成训练模式,此时 dropout和batch normalization的操作在训练过程中起到防止网络过拟合的问题
总结: model.train() 和 model.eval() 一般在模型训练和评价的时候会加上这两句,主要是针对由于model 在训练时和评价时 Batch Normalization 和 Dropout 方法模式不同;因此,在使用PyTorch进行训练和测试时一定注意要把实例化的model指定train/eval;model.eval() 和 model.train()这两句话的重要性就在这儿了
保存模型参数:
#保存模型参数
torch.save(model.state_dict(), PATH)
#加载模型参数
model = TheModelClass(*args, **kwargs)
model.load_state_dict(torch.load(PATH))
model.eval()
保存模型:
#保存模型
torch.save(model, PATH)
#加载模型
model = torch.load(PATH)
model.eval()
加载不同的模型:
在很多时候,我们加载的是已经训练好的模型,而训练好的模型可能与我们定义的模型不完全一样,而我们只想使用一样的那些层的参数。这个时候其实finetune里面常常需要用的技巧。
model_ft = models.resnet18(pretrained=use_pretrained)
self.conv1 = model_ft.conv1
self.bn = model_ft.bn
... ...
#第一种方法:
mymodelB = TheModelBClass(*args, **kwargs)
# strict=False,设置为false,只保留键值相同的参数
mymodelB.load_state_dict(model_zoo.load_url(model_urls['resnet18']), strict=False)
#第二种方法:
# 加载模型
model_pretrained = models.resnet18(pretrained=use_pretrained)
# mymodel's state_dict,
# 如: conv1.weight
# conv1.bias
mymodelB_dict = mymodelB.state_dict()
# 将model_pretrained的建与自定义模型的建进行比较,剔除不同的
pretrained_dict = {k: v for k, v in model_pretrained.items() if k in mymodelB_dict}
# 更新现有的model_dict
mymodelB_dict.update(pretrained_dict)
# 加载我们真正需要的state_dict
mymodelB.load_state_dict(mymodelB_dict)
加载不同设备的模型
将由GPU保存的模型加载到CPU上。
将torch.load()函数中的map_location参数设置为torch.device(‘cpu’);博客中说可以使用如下方法,感觉是比较冗长的语句。我这边直接:torch.load("modle_weights",map_location='cpu')
device = torch.device('cpu')
model = TheModelClass(*args, **kwargs)
model.load_state_dict(torch.load(PATH, map_location=device))
将由GPU保存的模型加载到GPU上。确保对输入的tensors调用input = input.to(device)方法。。map_location是将模型加载到GPU上,model.to(torch.device(‘cuda’))是将模型参数加载为CUDA的tensor。最后保证使用.to(torch.device(‘cuda’))方法将需要使用的参数放入CUDA。
device = torch.device("cuda")
model = TheModelClass(*args, **kwargs)
model.load_state_dict(torch.load(PATH))
model.to(device)
将CPU传递的模型传输入指定的GPU模块,然后进行使用。
device = torch.device("cuda")
model = TheModelClass(*args, **kwargs)
model.load_state_dict(torch.load(PATH, map_location="cuda:0")) # Choose selected GPU device number you want
model.to(device)
也是在Finetune工程中总结的相关技巧,FInetune技巧集中在参数的冻结与学习率的改变上,目前微调的原网络模型较小,因此没有用到渐变式的学习率,但是确实用到了参数冻结技巧,在此进行总结。
如果你的模型不是nn.sequential,即你使用的是nn.module方法。此时你可以直接在模型定义部分,想要冻结的参数后加上对梯度求解参数的定义。
for p in self.parameters():
p.requires_grad = False
在文件中的使用可能是如下形态:
class RESNET_MF(nn.Module):
def __init__(self, model, pretrained):
super(RESNET_MF, self).__init__()
self.resnet = model(pretrained)
for p in self.parameters():
p.requires_grad = False #预训练模型加载进来后全部设置为不更新参数,然后再后面加层
self.f = SpectralNorm(nn.Conv2d(2048, 512, 1))
self.g = SpectralNorm(nn.Conv2d(2048, 512, 1))
self.h = SpectralNorm(nn.Conv2d(2048, 2048, 1))
同时在优化器中添加:filter(lambda p: p.requires_grad, model.parameters())
optimizer = optim.Adam(filter(lambda p: p.requires_grad, model.parameters()), lr=0.001, \
betas=(0.9, 0.999), eps=1e-08, weight_decay=1e-5)
以上方法针对的是非sequential定义的方式,如果是使用nn.sequential句式定义的网络结构,这个时候是无法插入上一方法关于requires_grad 的定义的。此时可以使用字典循环查找,赋值的方式来进行参数冻结。
在load完model之后,可以查看模型参数,并对想要冻结的网络层进行设定。
最要同样需要在优化器定义部分加上filter实现对参数的屏蔽。
for i,p in enumerate(net.parameters()):
print(i,p)
if i < 5:
p.requires_grad = False