TensoFlow解决过拟合问题:正则化、滑动平均模型、衰减率

对多层神经网络过拟合的总结

  1. 激活函数解决非线性问题

      神经网络解决非线性问题的方法是使用激活函数,TensorFlow中常用的激活函数有:tf.nn.relutf.sigmoidtf.tanh
      使用激活函数的前向传播算法:a = tf.nn.relu(tf.matmul(x, w1) + biases1
      

  2. 反向传播算法

       反向传播算法是训练神经网络的核心算法。它可以根据定义好的损失函数优化神经网络中参数的取值。

       (1)、学习率。TensorFlow提供了指数衰减法,tf.train.exponential_decay()函数实现指数衰减学习率。可以随着迭代的步骤,逐步减小学习率。
       (2)、正则化。为了避免过拟合问题,一个常用的方法是正则化。正则化的思想是在损失函数中加入正则项刻画模型。loss = tf.reduce_mean(tf.square(y_ - y)) + tf.contrib.layers.l2_regularizer(lambda)(w)。
       (3)、滑动平均模型。滑动平均模型是另外一个可以使模型在测试数据上更健壮的方法。TensorFlow中提供了tf.train.ExponentialMovingAverage来实现滑动平均模型。在初始化ExponentialMovingAverage时,需要提供一个衰减率(decay)。ExponentialMovingAverage会对每一个变量会维护一个影子变量(shadow_variable),这个影子变量的初始值就是相应变量的初始值,每次运行变量更新的时候,影子变量的值会被更新为:shadow_variable = decay * shadow_variable + (1 - decay) * variable.
       其中shadow_variable为影子变量,variable为待更新的变量,decay为衰减率。从公式中可以看到,decay决定了模型更新的速度,decay越大模型越趋近于稳定。在实际应用中,decay一般设定为非常接近1的数。为了使得模型在训练前期可以更新的更快,ExponentialMovingAverage初始化时,提供了num_updates参数,那么每次使用的衰减率将是:min{decay, (1 + num_updates)/(10 + num_updates)}

  总结一下的话,以上三个优化方法,都可以对神经网络的过拟合问题,产生效果。其中,滑动平均模型和学习率衰减率可以认为在一定程度上都是限制神经网络中参数更新的速度。在模型复杂的情况下会有更明显的效果;正则化项,对过拟合问题比以上二者更有针对性,更有效。

你可能感兴趣的:(tensorflow)