深度学习的优化:理论和算法《Optimization for deep learning: theory and algorithms》论文阅读笔记-4.训练神经网络的通用算法
5.训练神经网络的通用算法前面讨论了一些神经网络的特定tricks,这些小技巧需要结合最优化方法,如SGD。通常我们希望得到一个快速且表现好的方法。然而更快的方法通常表现不是最好的,因此我们设定一个可以接受的速度值,在满足这个速度值的情况下,尽可能的提高模型表现。5.1SGD和学习率的计划当前,最流行的方法是SGD和他的变种,SGD每次选择一个样本更新权重。在每个EPOCH开始时,进行shuffl