《SWALP:Stochastic Weight Averaging in Low-Precision Training》

摘要:这种方式可以使得所有数字均量化至8-bit,同时表示为SWALP任意收敛于二次目标的最优解,在强凸条件下使噪声球渐近小于低精度SGD。

SWALP的处理将梯度累加模块也变为8-bit

 

(Stochastic Weight Averaging)SWA的介绍:

https://blog.csdn.net/leviopku/article/details/84037946

多次求平均值,SWA的方式可以采用高学习率以及忽略噪声。对比对象:全精度SGD

 

做出以下贡献:

1.一种方法对包括梯度累加部分在内的所有数均采用量化的方式。

2.证明了SWALP低精度收敛比低精度SGD小

3.在VGG16和PreResNet-164上对CIFAR-10和CIFAR100做结果证明

 

量化方法:

《SWALP:Stochastic Weight Averaging in Low-Precision Training》_第1张图片

还是传统的BFP的格式

算法:

《SWALP:Stochastic Weight Averaging in Low-Precision Training》_第2张图片

上述只是对梯度累加做量化,下面对所有参与的数都做量化。

《SWALP:Stochastic Weight Averaging in Low-Precision Training》_第3张图片

你可能感兴趣的:(论文阅读)