神经网络模型的设计和训练十分复杂,initialization, activation, normalization,优化器,学习率 等等无不是四两拨千斤,这篇文章主要是总结一些炼丹技巧,讨论下关于如何初始化、选择激活函数、正则化的方式和优化器的选择等。
知乎上有一个系列文章总结的非常好,我强烈推荐!
一个框架看懂优化算法之异同 SGD/AdaGrad/Adam
Adam那么棒,为什么还对SGD念念不忘 (2)—— Adam的两宗罪
Adam那么棒,为什么还对SGD念念不忘 (3)—— 优化算法的选择与使用策略
BN与IN的比较
详解深度学习中的Normalization,BN/LN/WN
BatchNormalization、LayerNormalization、InstanceNorm、GroupNorm、SwitchableNorm总结(附代码实现)
Bag of Tricks for Image Classification with Convolutional Neural Networks
深度学习之—batchsize与lr rate之间的关系以及批处理梯度下降法
目标检测任务的优化策略tricks