加快学习算法的一个办法就是随时间慢慢减少学习率,我们将之称为学习率衰减(learning rate decay)

假设你要使用mini-batch梯度下降法,mini-batch数量不大,大概64或者128个样本,但是在迭代过程中会有噪音,下降朝向这里的最小值,但是不会精确的收敛,所以你的算法最后在附近摆动.,并不会真正的收敛.因为你使用的是固定的α,在不同的mini-batch中有杂音,致使其不能精确的收敛。

固定步长的学习路线

但如果能慢慢减少学习率的话,在初期的时候,你的学习率还比较大,能够学习的很快,但是随着α变小,你的步伐也会变慢变小.所以最后的曲线在最小值附近的一小块区域里摆动.所以慢慢减少 α的本质在于在学习初期,你能承受较大的步伐, 但当开始收敛的时候,小一些的学习率能让你的步伐小一些。

衰减学习率的学习路线

衰减学习率

decayed_learning_rate=learning_rate*decay_rate ^ (global_step/decay_steps)

tensorflow自适应衰减学习率代码

# 初始的学习速率是0.1，总的迭代次数是1000次，如果staircase=True，那就表明每decay_steps次计算学习速率变化，更新原始学习速率，
# 如果是False，那就是每一步都更新学习速率。红色表示False，蓝色表示True。
import tensorflow as tf
import numpy as np
import matplotlib.pyplot as plt

learning_rate = 0.1  # 初始学习速率时0.1
decay_rate = 0.96  # 衰减率
global_steps = 1000  # 总的迭代次数
decay_steps = 100  # 衰减次数

global_ = tf.Variable(tf.constant(0))
c = tf.train.exponential_decay(learning_rate, global_, decay_steps, decay_rate, staircase=True)
d = tf.train.exponential_decay(learning_rate, global_, decay_steps, decay_rate, staircase=False)

T_C = []
F_D = []

with tf.Session() as sess:
   for i in range(global_steps):
       T_c = sess.run(c, feed_dict={global_: i})
       T_C.append(T_c)
       F_d = sess.run(d, feed_dict={global_: i})
       F_D.append(F_d)

plt.figure(1)
plt.plot(range(global_steps), F_D, ‘r-‘)# "-"表示折线图,r表示红色,b表示蓝色
plt.plot(range(global_steps), T_C, ‘b-‘)
# 关于函数的值的计算0.96^(3/1000)=0.998
plt.show()

image.png

更多学习率更新方法请点击

TensorFlow衰减学习率tf.train.exponential_decay

衰减学习率

tensorflow自适应衰减学习率代码

你可能感兴趣的:(TensorFlow衰减学习率tf.train.exponential_decay)