caffe中的decay_mult怎么理解呢?

在知乎找到答案:

为了防止模型参数太复杂导致过拟合,一般在目标函数计算的时候加入了正则项,所谓的weight_decay其实就是正则项前面的那个权值,设置偏大可以令模型在学习过程中约束参数的复杂程度。

而在caffe当中,除了全局设置的学习率lr和权重衰减项也就是weight_decay,每一个需要学习参数的layer都还有局部的加权值,分别是lr_mult和decay_mult,而对于卷积层的话,w和b都属于可以学习的参数,所以在学习更新中他们都有属于自己的lr_mult和decay_mult。



作者:卢毅
链接:https://www.zhihu.com/question/278989982/answer/403817128
来源:知乎
 

你可能感兴趣的:(caffe中的decay_mult怎么理解呢?)