还有一些其他的方法对于更好的训练网络可能有用

降低过拟合
在之前的讨论中,我们经常聊起过拟合的问题,我们一般判断训练的网络什么情况下算作训练完成,查看其精度和损失时,也都看的是其过拟合之前的数据,避免过拟合的一种方法是用 dropout 方法,随机清零的方式去实现,但是在循环神经网络中,这个问题就有点复杂了。

人们在大量的实验中早已经发现,在循环层前进行 dropout 对于降低过拟合没什么帮助,甚至可能会影响网络的正常训练,在循环层中如何 dropout 是在 2015 年的一篇论文中提出来的,具体的方式是:在每一个时间步中,使用相同的 dropout 掩码,并且将这个不随时间步变化的 dropout 掩码应用于层的内部循环激活,这样就可以将其学习的误差传递下去,如果在 Keras 中使用 LSTM、GRU 等循环神经网络都可以通过设置 dropout(输入单元 dropout) 和 recurrent_out (循环单元 dropout)来降低过拟合,一般情况下,最佳情况不会有大的下降,但会稳定更多,是调优网络的一个思路。用的方法是:

model.add(layers.GRU(32, dropout=0.2, recurrent_dropout=0.2, input_shape=(None, float_data.shape[-1])))
循环层堆叠
我们训练网络一般的过程都是构建一个网络,在未出现严重过拟合前我们都会尽可能大的增加网络容量(让特征点更多),这有助于让网络模型更好的抓住数据的特征,对于循环神经网络,也是类似的思路,进行循环层的堆叠,且一般情况下,都会让数据变得更好,这是最常用其有效(使数据变好,具体提高程度视情况而不同)的调优方法网址你懂我意思吧,Google 产品中有挺多类似的做法。用的方法是:

model.add(layers.GRU(32, dropout=0.1, recurrent_dropout=0.5, return_sequences=True, input_shape=(None, float_data.shape[-1])))
model.add(layers.GRU(64, activation='relu', dropout=0.1, recurrent_dropout=0.5))
使用双向 RNN
针对这个问题,我一直觉得是一个玄学。双向 RNN,顾名思义,就是这个循环网络中包含两个方向相反的普通 RN,一个正向处理数据,一个反向处理数据,因为我们知道 RNN 是对顺序敏感的前一项处理出的数据值,会作用到下一项数据上,因此数据的不同不同方向的处理会获取到数据的不同特征,或者说反向的 RN 会识别出被正向 RN 忽略的特征,进而补充正向 RN 的不足,如此一来,可能使得整个 RNN 效果更好,略有玄学特征但是也可以理解吧,总之这也是一个有效的办法。用的方法是:

model.add(layers.Bidirectional(layers.LSTM(32)))
对于神经网络来说,具体哪一种调优的方法真的有效效果更好,其实根据实际问题实际的数据有比较大的差别,不能一概而论,因此这也是一项需要经验和耐心的工作,也许你还会发出这样的疑问:“我去,为什么这样不行?我去,为什么这样还不行?我去,为什么这样行了?”

当然,还有一些其他的方法对于更好的训练网络可能有用,比如调节激活函数、调节优化器学习率等,用点耐心会训练出你满意的网络的。

循环神经网络就暂时先讨论这些吧,还有很多细节但是很重要的问题还没有详细介绍,日后有机会继续讨论。

愿世界和平!

你可能感兴趣的:(还有一些其他的方法对于更好的训练网络可能有用)