激活函数

relu
sigmoid
tanh

NN复杂度

多用NN层数和NN参数的个数来表示

损失函数

1. 均方误差（mean square error）

loss_mse = tf.reduce_mean(tf.square(y_-y))

MSE计算公式

2. 自定义损失函数

举例：大于正确值损失cost，小于正确值损失profit
loss = tf.reduce_sum(tf.where(tf.greater(y_,y), (y_ - y)*cost, (y - y_)*profit))

3. 交叉熵

两个概率分布之间的距离

ce = tf.nn.sparse_softmax_cross_entropy_with_logits(logits=y,labels=tf.argmax(y_, 1))
cem = tf.reduce_mean(ce)

学习率

参数每次更新的幅度

学习率过大
震荡不收敛
学习率过小
收敛速率过慢

指数衰减学习率

动态更新的学习率，在迭代初期得到较高的下降速度，可以在较小的训练轮数下取得更有收敛度
源代码（opt4_4的复现）

  1 #coding:utf-8
  2 import tensorflow as tf
  3 
  4 w = tf.Variable(tf.constant(5, dtype = tf.float32))
  5 
  6 loss = tf.square(w+1)
  7 
  8 train_step = tf.train.GradientDescentOptimizer(0.01).minimize(loss)
  9 
 10 with tf.Session() as sess:
 11     init_op = tf.global_variables_initializer()
 12     sess.run(init_op)
 13     for i in range(40):
 14         sess.run(train_step)
 15         w_val = sess.run(w)
 16         loss_val = sess.run(loss)
 17         if i % 10==0:
 18             print("After %d training steps,the loss is %f,w is  %f") % (i,loss_val,w_val)

经过优化后的学习率

核心代码：

LEARNING_RATE_BASE = 0.1 #最初学习率
LEARNING_RATE_DECAY = 0.99 #学习率衰减率
LEARNING_RATE_STEP = 1 #喂入多少轮BATCH_SIZE后，更新一次学习率，一般设为：总样本数/BATCH_SIZE

运行了几轮BATCH_SIZE的计数器，初值给0, 设为不被训练
global_step = tf.Variable(0, trainable=False)

定义指数下降学习率
learning_rate = tf.train.exponential_decay(LEARNING_RATE_BASE, global_step, LEARNING_RATE_STEP, LEARNING_RATE_DECAY, staircase=True)
#staircase为True时，学习率变化曲线为梯形，为False时，学习率变化曲线为光滑曲线

定义反向传播方法
train_step = tf.train.GradientDescentOptimizer(learning_rate).minimize(loss, global_step=global_step)

滑动平均（影子值）

记录每一个参数一段时间内过往值的平均，增加模型的泛化性
针对所有参数
给参数加上影子，当参数变化时，影子慢慢追随
计算公式：
影子 = 影子 * 衰减率 + 参数 * （1 - 衰减率）
影子初值 = 参数初值
衰减率=min{MOVING_AVERAGE_DECAY，(1+轮数)/(10+轮数) }

Tensorflow学习笔记（二）