Pytorch优化器的权重衰减(weight_decay)

L2正则化:

L = E e + λ ∑ w i 2 L=E_e + \lambda\sum w_i^2 L=Ee+λwi2
E e E_e Ee:是训练数据个标签之间的误差
w i w_i wi:表示权重值

在反向传播计算梯度时,对每个权重点来说,就是在原本计算的 E e E_e Ee梯度上,再加上 2 ∗ λ ∗ w i 2*\lambda*w_i 2λwi, 2和 λ \lambda λ可一起看做常数项系数.

Pytorch里实现的权重衰减:

再看看Pytorch里实现的权重衰减方式:
从源代码来看.pytorch中对self.weight和self.bias参数都进行了L2正则化,weight_decay是衰减系数.
Pytorch优化器的权重衰减(weight_decay)_第1张图片

你可能感兴趣的:(PyTorch)