1.最简单情况:
optimizer = SGD(net.parameters(), lr=0.1, weight_decay=0.05, momentum=0.9)
查看一下optimizer参数具体情况:print(len(opt.param_groups))
会发现长度只有1,是一个只有一个元素的数组,因此,查看一下这个数组第一个元素的情况:
for i in opt.param_groups[0].keys(): print(i)
会显示:
params lr momentum dampening weight_decay nesterov
这就是opt.param_groups[0]中参数,以键值对的形式存放的,若要更改学习率,可以直接:
opt.param_groups[0]['lr'] = 给定新值
2.既然opt.param_groups列表的长度只有1,那为什么还要用列表的形式存放呢?那是因为列表的长度可以不止1:
opt = optim.Adam([{'params':model1.parameters(),'lr':0.01}, {'params':model2.parameters(),'lr':0.1}, ])
一个优化器可以同时优化多个网络参数,如上所示,此时opt.param_groups列表的长度为2
3.同理,可以对同一个网络的不同层分别以不同学习率来优化
optimizer = optim.Adam([{'params':model.conv1.parameters(),'lr':0.2}, {'params':model.conv2.parameters(),'lr':0.2}, {'params':prelu_params,'lr':0.02}, {'params':rest_params,'lr':0.3} ])
4.训练时还可以固定某些层不训练(参考:https://blog.csdn.net/qq_34914551/article/details/87699317):
model = Net() for name, p in model.named_parameters(): if name.startswith('conv1'): p.requires_grad = False import torch.optim as optim optimizer = optim.Adam(filter(lambda x: x.requires_grad is not False ,model.parameters()),lr= 0.2)