深度学习参数总结

目录

一 深度学习中batch_size和learning_rate的关系

二 网络训练时train loss与test loss的结果分析

三 出现loss不下降的问题时检查

四 训练时损失出现nan的问题,可能导致梯度出现nan的三个原因

参考博客


一 深度学习中batch_size和learning_rate的关系

一般来说,batch_size 大一些,则 learning_rate 也要大一些,并且有一个数学关系。

那么,当我们改变 batch_size 的时候,可能遵循下面的规律:

newlearningrate = oldlearningrate *\sqrt{ newbatchsize/oldbatchsize}

举例来说,原先别人的batch size 为128, learning rate为0.0005, 那么当我们把batch size改为1024时,则新的学习率有这样的推荐值:

0.0005*\sqrt{ 1024/128} = 0.005 * \sqrt{ 8} = 0.001412

 

二 网络训练时train loss与test loss的结果分析

1.train_loss不断下降,test_loss不断下降

  • 可能发生的原因:网络还在学习中,loss在稳步下降。

2.train_loss不断下降,test_loss趋于不变

  • 可能发生的原因:网络出现过拟合的现象,因此在训练集上表现为网络仍在学习,但是test_loss趋于不变说明网络泛化能力差。

3.train_loss趋于不变,test_loss不断下降

  • 可能发生的原因:数据集 100% 是有问题的。

4.train_loss趋于不变,test_loss趋于不变

  • 可能发生的原因:loss开始在某一直附近不断振荡,说明网络学习遇到瓶颈,此时应该减小学习率或者减小batchsize的大小。或者是数据集有问题(数据集标注错误数据比较多)

5.train_loss不断上升,test_loss不断上升

  • 可能发生的原因:网络结构的设计有问题;训练时超参数的设置有问题;数据集没有经过清洗。

 

三 出现loss不下降的问题时检查

(1)数据

  •  数据本身以及label是否有异常。
  •  数据是否过于脏乱,没有经过清洗。
  • 数据输入是否有问题,比如图片与label是否一致。
  • 数据经过预处理后,是否丢失特征或者因预处理而出现别的问题。
  •  数据量是否过少,网络出现过拟合的现象。

(2)超参数的设置

  •  学习率的设置是否有问题: 学习率过小可能会导致loss下降缓慢,学习率过大可能会导致loss振荡不下降。
  •  batch size设置是否有问题: batch size如果设置过小,在数据不太好的情况下也会出现loss振荡的现象。

 

四 训练时损失出现nan的问题,可能导致梯度出现nan的三个原因

1.梯度爆炸。梯度数值超出范围变成nan. 通常可以调小学习率、加BN层或者做梯度裁剪来试试看有没有解决。

2.损失函数或者网络设计。比方说,出现了除0,或者出现一些边界情况导致函数不可导,比方说log(0)、sqrt(0)。

3.脏数据。可以事先对输入数据进行判断看看是否存在nan。

 

参考博客

https://www.cnblogs.com/wlhr62/p/10620269.html

https://www.cnblogs.com/llfctt/p/10862155.html

 

你可能感兴趣的:(深度学习)