pytorch中既自带了学习率函数,我们也可以自定义学习率调整函数。调整函数通常随epoch的变化而变化。首先实现自定义学习率调整:
以SGDR余弦学习率调整为例:
论文地址:https://arxiv.org/abs/1608.03983
使用 T 0 , T m u l t T_{0},T_{mult} T0,Tmult的策略,初始为 T 0 T_{0} T0个epoch为一个学习率调整周期,之后的周期是前一个周期epoch的 T m u l t T_{mult} Tmult倍。对于一个学习率周期 i i i,假设有 T i T_{i} Ti个epoch,当前所处的位置为第 T c u r T_{cur} Tcur个epoch,则当前epoch的学习率为:
η t = η m i n + 1 2 ( η m a x − η m i n ) ( 1 + cos ( T c u r T i π ) ) \eta_{t}=\eta_{min}+\frac{1}{2}(\eta_{max}-\eta_{min})(1+\cos(\frac{T_{cur}}{T_{i}}\pi)) ηt=ηmin+21(ηmax−ηmin)(1+cos(TiTcurπ))
对于 T 0 = 10 , T m u l t = 2 T_{0}=10,T_{mult=2} T0=10,Tmult=2,设训练100个epoch,则对应的学习率变化曲线为:
在pytorch中的训练代码:
# 第epoch值进行计算并更新学习率
def adjust_lr(optimizer, epoch, T_0=10, eta_max=0.1, eta_min=0.):
if T_mul == 2:
i = np.log2(epoch / T_0 + 1).astype(np.int)
T_cur = epoch - T_0 * (T_mult ** (i) - 1)
T_i = (T_0 * T_mult ** i)
elif T_mul == 1:
T_cur = epoch % T_0
T_i = T_0
cur_lr = eta_min + 0.5 * (eta_max - eta_min) * (1 + np.cos(np.pi * T_cur / T_i))
for param_group in optimizer.param_groups:
param_group['lr'] = cur_lr
optimizer = optim.SGD(net.parameters(), lr=0.1, momentum=0.9, weight_decay=1e-4, nesterov=True)
for epoch in range(100):
adjust_lr(optimizer, epoch)
train()
Note: optimizer.param_groups保存为了优化器的参数信息,为一个列表,但是只有一个字典元素,字典里面具有参数信息。
pytorch的torch.optim.lr_scheduler模块提供了许多基于epoch 的学习率函数。以SGDR中的 T m u l t = 1 T_{mult}=1 Tmult=1余弦学习率调整函数为例进行讲解使用如何调用pytorch中的学习率函数。Moreover,pytorch只提供了 T m u l t = 1 T_{mult}=1 Tmult=1情况下的SGDR的学习率调整,故在上文我们手工实现了更general的调整。
文档链接:https://pytorch.org/docs/stable/optim.html#torch.optim.lr_scheduler.CosineAnnealingLR
optimizer = optim.SGD(net.parameters(), lr=0.1, momentum=0.9, weight_decay=1e-4, nesterov=True)
lr_schduler = optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=300, eta_min=0)
for epoch in range(100):
lr_schduler.step(epoch)
train()
常用的学习率调整策略还有:
(1)torch.optim.lr_scheduler.StepLR(optimizer, step_size, gamma=0.1, las
t_epoch=-1)
(2)torch.optim.lr_scheduler.MultiStepLR(optimizer, milestones, gamma
=0.1, last_epoch=-1)