Tensorflow学习笔记(二)

激活函数

  • relu
  • sigmoid
  • tanh

NN复杂度

多用NN层数和NN参数的个数来表示

损失函数

1. 均方误差(mean square error)

loss_mse = tf.reduce_mean(tf.square(y_-y))

MSE计算公式

2. 自定义损失函数

举例:大于正确值损失cost,小于正确值损失profit
loss = tf.reduce_sum(tf.where(tf.greater(y_,y), (y_ - y)*cost, (y - y_)*profit))

3. 交叉熵

两个概率分布之间的距离

ce = tf.nn.sparse_softmax_cross_entropy_with_logits(logits=y,labels=tf.argmax(y_, 1))
cem = tf.reduce_mean(ce)

学习率

参数每次更新的幅度

  • 学习率过大
    震荡不收敛
  • 学习率过小
    收敛速率过慢

指数衰减学习率

动态更新的学习率,在迭代初期得到较高的下降速度,可以在较小的训练轮数下取得更有收敛度
源代码(opt4_4的复现)

  1 #coding:utf-8
  2 import tensorflow as tf
  3 
  4 w = tf.Variable(tf.constant(5, dtype = tf.float32))
  5 
  6 loss = tf.square(w+1)
  7 
  8 train_step = tf.train.GradientDescentOptimizer(0.01).minimize(loss)
  9 
 10 with tf.Session() as sess:
 11     init_op = tf.global_variables_initializer()
 12     sess.run(init_op)
 13     for i in range(40):
 14         sess.run(train_step)
 15         w_val = sess.run(w)
 16         loss_val = sess.run(loss)
 17         if i % 10==0:
 18             print("After %d training steps,the loss is %f,w is  %f") % (i,loss_val,w_val)

经过优化后的学习率

核心代码:

LEARNING_RATE_BASE = 0.1 #最初学习率
LEARNING_RATE_DECAY = 0.99 #学习率衰减率
LEARNING_RATE_STEP = 1 #喂入多少轮BATCH_SIZE后,更新一次学习率,一般设为:总样本数/BATCH_SIZE

运行了几轮BATCH_SIZE的计数器,初值给0, 设为不被训练
global_step = tf.Variable(0, trainable=False)

定义指数下降学习率
learning_rate = tf.train.exponential_decay(LEARNING_RATE_BASE, global_step, LEARNING_RATE_STEP, LEARNING_RATE_DECAY, staircase=True)
#staircase为True时,学习率变化曲线为梯形,为False时,学习率变化曲线为光滑曲线

定义反向传播方法
train_step = tf.train.GradientDescentOptimizer(learning_rate).minimize(loss, global_step=global_step)

滑动平均(影子值)

记录每一个参数一段时间内过往值的平均,增加模型的泛化性
针对所有参数
给参数加上影子,当参数变化时,影子慢慢追随
计算公式:
影子 = 影子 * 衰减率 + 参数 * (1 - 衰减率)
影子初值 = 参数初值
衰减率=min{MOVING_AVERAGE_DECAY,(1+轮数)/(10+轮数) }

你可能感兴趣的:(Tensorflow学习笔记(二))