TensorFlow(3)- 防止过拟合之dropout

1、理解dropout

在机器学习的模型中,如果模型的参数太多,而训练样本又太少(或者相对少),训练出来的模型很容易产生过拟合的现象。在训练神经网络的时候经常会遇到过拟合的问题,过拟合具体表现在:模型在训练数据上损失函数较小,预测准确率较高;但是在测试数据上损失函数比较大,预测准确率较低。

过拟合是很多机器学习模型的通病。如果模型过拟合,那么得到的模型几乎不能用。为了解决过拟合问题,一般会采用模型集成的方法,即训练多个模型进行组合。此时,训练模型费时就成为一个很大的问题,不仅训练多个模型费时,测试多个模型也是很费时。而dropout可以比较有效的缓解过拟合的发生,在一定程度上达到正则化的效果。

定义:dropout是指在深度学习网络的训练过程中,对于神经网络单元,按照一定的概率将其暂时从网络中丢弃。注意是暂时,对于随机梯度下降来说,由于是随机丢弃,故而每一个mini-batch都在训练不同的网络。

原因:dropout为何有效这一点众说纷纭。具体的细节可以参考博客:http://blog.csdn.net/stdcoutzyx/article/details/49022443,这篇写的挺好的,大家可以深入研究一下。

2、实现dropout(使用tensorflow)

tensorflow中的drop-out非常容易实现,使用下面的语法:

Wx_plus_b = tf.nn.dropout(Wx_plus_b, keep_prob)

此时我们需要定义一个keep_prob的placeholder

keep_prob = tf.placeholder(tf.float32)

当然不要忘记在feed_dict里面加入keep_prob

sess.run(train_step,feed_dict={xs:trainx,ys:trainy,keep_prob:0.5})

3、完整代码

import tensorflow as tf
from sklearn.preprocessing import LabelBinarizer
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_digits

digits = load_digits()
X = digits.data
Y = digits.target
Y = LabelBinarizer().fit_transform(Y)
print(Y.shape)
trainx,testx,trainy,testy = train_test_split(X,Y,test_size=0.3)

def add_layer(input,input_size,output_size,layer_name,activation_function=None):
    Weights = tf.Variable(tf.random_normal([input_size,output_size]))
    biases = tf.Variable(tf.zeros([1,output_size])+0,1)
    Wx_plus_bias = tf.add(tf.matmul(input,Weights),biases)
    Wx_plus_bias = tf.nn.dropout(Wx_plus_bias,keep_prob)
    if activation_function == None:
        outputs = Wx_plus_bias
    else:
        outputs = activation_function(Wx_plus_bias)
    #这里的output是一个二维的,所以每一步对应一个线(或者说小的矩形,颜色越深的地方表示这个地方的数越多,可以认为纵向上表示train到这一步的时候的一个数据分布
    tf.summary.histogram(layer_name+'/outputs',outputs)
    return outputs

xs = tf.placeholder(tf.float32,[None,64])
ys = tf.placeholder(tf.float32,[None,10])
keep_prob = tf.placeholder(tf.float32)

l1 = add_layer(xs,64,50,"l1",activation_function=tf.nn.tanh)
prediction = add_layer(l1,50,10,"l2",activation_function=tf.nn.softmax)

cross_entropy = tf.reduce_mean(-tf.reduce_sum(ys * tf.log(prediction),reduction_indices=[1]))
#因为cross_entropy是一个标量,所以定义tf.summary.scalar
tf.summary.scalar("loss",cross_entropy)

train_step = tf.train.GradientDescentOptimizer(0.5).minimize(cross_entropy)

init = tf.global_variables_initializer()

with tf.Session() as sess:
    #合并所有的summary
    merged = tf.summary.merge_all()
    #得到summary的FileWriter
    train_writer = tf.summary.FileWriter('logs/train/',sess.graph)
    test_writer = tf.summary.FileWriter('logs/test/',sess.graph)
    sess.run(init)
    for i in range(1000):
        sess.run(train_step,feed_dict={xs:trainx,ys:trainy,keep_prob:0.5})
        if i % 50 == 0:
            #print(sess.run(cross_entropy,feed_dict={xs:trainx,ys:trainy}))
            #这里要运行merged
            train_loss = sess.run(merged,feed_dict = {xs:trainx,ys:trainy,keep_prob:0.5})
            test_loss = sess.run(merged,feed_dict={xs:testx,ys:testy,keep_prob:0.5})
            #将loss写入FileWriter中
            train_writer.add_summary(train_loss,i)
            test_writer.add_summary(test_loss,i)

你可能感兴趣的:(TensorFlow(3)- 防止过拟合之dropout)