pytorch之优化器学习笔记

1.各种优化器的基础了解https://blog.csdn.net/weixin_40170902/article/details/80092628
梯度下降法:
1.标准梯度下降法:GD
每个样本都下降一次,参考当前位置的最陡方向迈进容易得到局部最优,且训练速度慢
2.批量下降法:BGD
不再是一次输入样本调整一次,而是一批量数据后进行调整,模型参数的调整更新与全部输入样本的代价函数的和有关,即下山前掌握附近地势,选择最优方向。
3.随机梯度下降法SGD
在一批数据里随机选取一个样本。如盲人下山,并与用走一次计算一次梯度,总能到山底。但引入的噪声可能使得权值更新放下错误。,没法单独克服局部最优解。
动量优化法
标准动量优化momentum
当前权值的改变会受到上一次权值改变得影响。类似小球下滚得时候带上惯性,加快滚动速度。
NAG牛顿加速梯度
施加当前速度后 ,往标准动量中添加一个校正因子。momentun小球盲目跟从梯度,但nag小球指走到坡底时速度慢下来,知道下一位置大致在哪,来更新当前位置参数。
自适应学习率优化算法
学习率对模型性能有显著影响。
AdaGrad算法
独立地适应所有模型参数地学习率。缩放每个参数反比于所有梯度历史平均值总和地平方根,具有代价函数最大梯度地参数相应地有个快速下降的学习率。小梯度的在学习率上相对较小学习率。
RMSProp
加权平均,避免学习率越来越低问题,而且能自适应地调节学习率。
AdaDelta
Adam
2.代码学习https://blog.csdn.net/github_39611196/article/details/82465166

你可能感兴趣的:(pytorch学习)