解释①:如果在整个梯度下降过程中,保持learning rate不变,如果learning rate设置小了,会导致梯度下降过慢,如果设置大了,对于mini-batch来说最后就很难收敛,一直在最小值附近盘旋。所以动态改变learning rate很重要,在开始的时候,设置较大的learning rate,可以保证梯度下降的速度,慢慢减小,可以使最后的cost function在最小值非常小的范围内盘旋,得到一个比较满意的值。
解释②:学习率过大,在算法优化的前期会加速学习,使得模型更容易接近局部或全局最优解。但是在后期会有较大波动,甚至出现损失函数的值围绕最小值徘徊,波动很大,始终难以达到最优,如下图蓝色曲线所示。所以引入学习率衰减的概念,直白点说,就是在模型训练初期,会使用较大的学习率进行模型优化,随着迭代次数增加,学习率会逐渐进行减小,保证模型在训练后期不会有太大的波动,从而更加接近最优解,如下图中上面一条绿色曲线所示。
当学习率过大,以J(X)=X^2为例,学习率始终为1,梯度下降算法的运行过程:
可以看到无论进行多少轮迭代,参数始终在5和-5之间摇摆,而不是收敛到一个极小值。
optimizer通过param_group来管理参数组.param_group中保存了参数组及其对应的学习率,动量等等.所以我们可以通过更改param_group[‘lr’]的值来更改对应参数组的学习率。
param_group
即,len(optim.param_groups)==2optim.SGD([
{'params': model.base.parameters()},
{'params': model.classifier.parameters(), 'lr': 1e-3}
], lr=1e-2, momentum=0.9)
上面第一个例子中,我们分别为 model.base 和 model.classifier 的参数设置了不同的学习率,即此时 optimizer.param_grops 中有两个不同的param_group:
每一个param_group都是一个字典,它们共同构成了param_groups,所以此时len(optimizer.param_grops)==2,
optim.SGD(model.parameters(), lr=1e-2, momentum=.9)
手动调整学习率,通常可以定义如下函数:
def adjust_learning_rate(optimizer, epoch):
"""Sets the learning rate to the initial LR decayed by 10 every 30 epochs"""
lr = args.lr * (0.1 ** (epoch // 30))
for param_group in optimizer.param_groups:
param_group['lr'] = lr
adjust_learning_rate() 函数就是通过for循环遍历取出每一个param_group,然后修改其中的键 ‘lr’ 的值,称之为手动调整学习率。
学习率衰减的类型有很多种,大致可以分为两类:
在tensorflow中指数型衰减通过调用tf.train.exponential_decay(learning_rate, global_step, decay_steps, decay_rate, staircase=False, name=None)实现。这里介绍一下decay_steps,若decay_steps=100,即表示100轮迭代后进行一次衰减,staircase=True时,global_step/decay_steps会被转化为整数,这使得学习率呈阶梯型下降(如下图黑色),若staircase=False,下图灰色为连续型衰减学习率。
Pytorch学习率调整策略通过 torch.optim.lr_sheduler
接口实现。pytorch提供的学习率调整策略分为三大类,分别是:
在每个epoch的训练中,使用 scheduler.step() 语句进行学习率更新,此方法类似于optimizer.step()更新模型参数,即一次epoch对应一次scheduler.step()。但在mini-batch训练中,每个mini-bitch对应一个optimizer.step()。即用法如下:
optimizer = torch.optim.SGD(model.parameters(), lr=0.1)
scheduler = torch.optim.lr_scheduler.StepLR(optimizer, step_size=30, gamma=0.1)
def train(...):
for i, data in enumerate(train_loader):
......
y_ = model(x)
loss = criterion(y_,y)
loss.backward()
optimizer.step()
......
for epoch in range(epochs):
train(...)
test(...)
scheduler.step()
torch.optim.lr_scheduler.StepLR(optimizer, step_size, gamma=0.1, last_epoch=-1)
每训练step_size个epoch,学习率调整为lr=lr*gamma.
以下内容中都将epoch和step对等,因为每个epoch中只进行一次scheduler.step(),实则该step指scheduler.step()中的step, 即step_size指scheduler.step()进行的次数。
参数:
等间隔调整学习率:step_size=30, gamma=0.1
跟(1)类似,但学习率调整的间隔并不是相等的,如epoch=10时调整一次,epoch=30时调整一次,epoch=80时调整一次…
torch.optim.lr_sheduler.MultiStepLR(optimizer, milestones, gamma=0.1, last_epoch=-1)
参数:
多间隔调整学习率:milestones=[10, 30, 80], gamma=0.1
学习率呈指数型衰减,每训练一个epoch, l r = l r g a m m a ∗ e p o c h lr=lrgamma*epoch lr=lrgamma∗epoch,即 l r × g a m m a e p o c h lr×gamma^{epoch} lr×gammaepoch
torch.optim.lr_sheduler.ExponentialLR(optimizer, gamma, last_epoch)
参数:
学习率呈余弦函数型衰减,并以 2 ∗ T m a x 2*T_{max} 2∗Tmax 为余弦函数周期,epoch=0对应余弦型学习率调整曲线的 x = 0 x=0 x=0, y m a x = l r y_{max}=lr ymax=lr, e p o c h = T m a x epoch=T_max epoch=Tmax 对应余弦型学习率调整曲线的 x = π x=\pi x=π, y m i n = e t a m i n y_{min}=eta_min ymin=etamin 处,随着 e p o c h > T m a x epoch>T_{max} epoch>Tmax,学习率随epoch增加逐渐上升,整个走势同cos(x)。
torch.optim.lr_sheduler.CosineAnnealingLR(optimizer, T_max, eta_min=0, last_epoch=-1)
参数:
当某指标(loss或accuracy)在最近几个epoch中都没有变化(下降或升高超过给定阈值)时,调整学习率。
如当验证集的loss不再下降是,调整学习率;或监察验证集的accuracy不再升高时,调整学习率。
torch.optim.lr_sheduler.ReduceLROnPlateau(optimizer, mode='min', factor=0.1, patience=10,
verbose=False, threshold=0.0001, threshold_mode='rel',
cooldown=0, min_lr=0, eps=1e-08)
参数:
optimizer = torch.optim.SGD(model.parameters(), args.lr,
momentum=args.momentum, weight_decay=args.weight_decay)
scheduler = ReducelROnPlateau(optimizer,'min')
for epoch in range( args.start epoch, args.epochs ):
train(train_loader , model, criterion, optimizer, epoch )
result_avg, loss_val = validate(val_loader, model, criterion, epoch)
# Note that step should be called after validate()
scheduler.step(loss_val )
为不同参数组设定不同学习率调整策略。调整规则为:
lr = base_lr * lambda(self.last_epoch)
在fine-tune中特别有用,我们不仅可以为不同层设置不同的学习率,还可以为不同层设置不同的学习率调整策略。
torch.optim.lr_scheduler.LambdaLR(optimizer, lr_lambda, last_epoch=-1)
参数:
例:
import torch.optim as optim
ignored_params = list(map(id, net.fc3.parameters()))
base_params = filter(lambda p: id(p) not in ignored_params, net.parameters())
optimizer = optim.SGD([
{'params': base_params},
{'params': net.fc3.parameters(), 'lr': 0.001 * 100}
], lr=0.001, momentum=0.9, weight_decay=1e-4)
# Assuming optimizer has two groups.
lambda1 = lambda epoch: epoch // 3
lambda2 = lambda epoch: 0.95 ** epoch
scheduler = LambdaLR(optimizer, lr_lambda=[lambda1, lambda2])
for i in range(100):
train(...)
validate(...)
scheduler.step()
print('epoch: ', i, 'lr: ', scheduler.get_lr())
输出:
epoch: 0 lr: [0.0, 0.1]
epoch: 1 lr: [0.0, 0.095]
epoch: 2 lr: [0.0, 0.09025]
epoch: 3 lr: [0.001, 0.0857375]
epoch: 4 lr: [0.001, 0.081450625]
epoch: 5 lr: [0.001, 0.07737809374999999]
epoch: 6 lr: [0.002, 0.07350918906249998]
epoch: 7 lr: [0.002, 0.06983372960937498]
epoch: 8 lr: [0.002, 0.06634204312890622]
epoch: 9 lr: [0.003, 0.0630249409724609]
为什么第一个参数组的学习率会是 0 呢? 来看看学习率是如何计算的。
第一个参数组的初始学习率设置为 0.001,
lambda1 = lambda epoch: epoch // 3,
第 1 个 epoch 时,由 lr = base_lr * lmbda(self.last_epoch),
可知道 lr = 0.001 (0//3) ,又因为 1//3 等于 0,所以导致学习率为 0。
第二个参数组的学习率变化,就很容易看啦,初始为 0.1, lr = 0.1 * 0.95^epoch ,当
epoch 为 0 时, lr=0.1 , epoch 为 1 时, lr=0.10.95。
附:给出画上述学习率变化图的程序:
# -*- coding:utf-8 -*-
'''本文件用于测试pytorch学习率调整策略'''
__author__ = 'puxitong from UESTC'
import torch
import torch.optim as optim
from torch.optim import lr_scheduler
from torchvision.models import AlexNet
import matplotlib.pyplot as plt
model = AlexNet(num_classes=2)
optimizer = optim.SGD(params=model.parameters(), lr=0.1)
# 等间隔调整学习率,每训练step_size个epoch,lr*gamma
# scheduler = lr_scheduler.StepLR(optimizer, step_size=30, gamma=0.1)
# 多间隔调整学习率,每训练至milestones中的epoch,lr*gamma
# scheduler = lr_scheduler.MultiStepLR(optimizer, milestones=[10, 30, 80], gamma=0.1)
# 指数学习率衰减,lr*gamma**epoch
# scheduler = lr_scheduler.ExponentialLR(optimizer, gamma=0.9)
# 余弦退火学习率衰减,T_max表示半个周期,lr的初始值作为余弦函数0处的极大值逐渐开始下降,
# 在epoch=T_max时lr降至最小值,即pi/2处,然后进入后半个周期,lr增大
# scheduler = lr_scheduler.CosineAnnealingLR(optimizer, T_max=100, eta_min=0)
plt.figure()
x = list(range(100))
y = []
for epoch in range(100):
scheduler.step()
y.append(scheduler.get_lr()[0])
plt.plot(x, y)
plt.show()
手动调整学习率,通常可以定义如下函数:
def adjust_learning_rate(optimizer, epoch):
"""Sets the learning rate to the initial LR decayed by 10 every 30 epochs"""
lr = args.lr * (0.1 ** (epoch // 30))
for param_group in optimizer.param_groups:
param_group['lr'] = lr
adjust_learning_rate() 函数就是通过for循环遍历取出每一个param_group,然后修改其中的键 ‘lr’ 的值,称之为手动调整学习率。
又如:
def adjust_learning_rate(epoch, lr):
if epoch <= 81: # 32k iterations
return lr
elif epoch <= 122: # 48k iterations
return lr/10
else:
return lr/100
该函数通过修改每个epoch下,各参数组中的lr来进行学习率手动调整,用法如下:
for epoch in range(epochs):
lr = adjust_learning_rate(optimizer, epoch) # 调整学习率
optimizer = optim.SGD(net.parameters(), lr=lr, momentum=0.9, weight_decay=5e-4)
......
optimizer.step() # 采用新的学习率进行参数更新
如果想要每次迭代都实时打印学习率,这样可以每次step都能知道更新的最新学习率,可以使用
scheduler.get_lr()
它返回一个学习率列表,由参数组中的不同学习率组成,可通过列表索引来得到不同参数组中的学习率。
参考资料:
权重衰减(weight decay)与学习率衰减(learning rate decay)
CNN训练分类任务的优化策略(tricks)
学习率衰减
神经网络学习率(learning rate)的衰减
Pytorch中的学习率衰减及其用法
Pytorch中的学习率衰减及其用法
pytorch必须掌握的的4种学习率衰减策略
学习率衰减方法
学习率衰减(Learning rate decay)
深度学习优化方式
学习率优化方式