机器学习,几种学习速率衰减模式总结

    在机器学习中,通常需要不断的通过优化器,优化以减小损失。在优化过程中,最经常用到的就是学习速率,也就是在通过梯度决定模型训练走向的时候所使用的一个总要参数。

    在经过多次优化之后,会出现疑惑度不会降低, 此时主要是因为,学习速率过大导致模型不能够很好的进行收敛。这个时候需要做的就是,减小学习速率,促使模型收敛。也就是标题中提到的学习速率衰减。

常见的学习速率衰减的几种模式:

  • luong234
  • luong5
  • luong10
  • noam

这几个模式主要是在开源模型中提到的,如果出现其他衰减模式,另做补充。

前三种衰减模式主要是:总步数,起始学习速率 有关

luong234 衰减方式,是通过在 总步数三分之二 之后开始衰减,接下来的平均衰减四次,每次衰减为上一次的二分之一

luong5 : 是指在总步数二分之一以后开始衰减,以后平均衰减五次,每次二分之一。

luong10: 和上面同理

noam: 与上面不同,主要和四个参数相关,当前步数(S), 预热步数(W_S), 网络层大小(L_S),原始学习速率(O_S)

每一步速率:

这样在每次优化的时候都会重新设置 学习速率。

学习速率衰减模式需要根据具体的情况进行选择。

你可能感兴趣的:(机器学习)