混合精度训练

MIXED PRECISION TRAINING

https://arxiv.org/pdf/1710.03740.pdf

论文概述

nvidia的Pascal和Volta系列显卡除了支持标准的单精度计算外,也支持了低精度的计算,比如最新的Tesla V100硬件支持了FP16的计算加速,P4和P40支持INT8的计算加速,而且低精度计算的峰值要远高于单精浮点的计算峰值。

混合精度训练_第1张图片

为了加速训练过程以及减少显存开销,baidu Research和nvidia在这篇论文中合作提出了一种FP16和FP32混合精度训练的方法,并且在CNN分类和检测、语音识别和语言模型任务上进行了验证,实验过程中使用的GPU就是Tesla V100。

训练过程中每层的权重都存成FP32格式(Mater-Weights),每次训练时都会将FP32的权重降精度至FP16( a master copy),前向输出和后向梯度都使用FP16进行计算,更新时将FP16的梯度累加到FP32的Mater-Weight上。

混合精度训练_第2张图片

混合精度的必要性

由于FP16所能表示的subnormal最小正数是2−242−24 ≈ 5.96×10−85.96×10−8(Half-precision floating-point format),也就是说在区间(−2−24,2−24−2−24,2−24)的数(或者说指数位小于-24的数)使用FP16表示时都会变成0。在一个普通话识别的模型训练中,有将近5%的权重梯度的指数位小于-24,如果更新时也用FP16计算,那么这些数在乘以学习率后都将变成0,从而对最终模型效果产生负面影响,使用混合精度训练的方式可以避免这种问题。

Loss scaling

混合精度训练可以解决权重更新量很小的问题,但无法解决梯度本身很小的问题。在一些网络中(比如SSD),梯度大部分都在FP16的表示范围之外,因此需要将梯度平移到FP16的表示范围内 。

混合精度训练_第3张图片

平移实际上就是对梯度值乘以一个系数(等于2n2n,nn为平移的位数),但另一种简单高效的方法是直接在前向时就将loss乘以scale,这样在后向传导时所有的梯度都会被乘以相同的scale。权重更新时需要将移位后的梯度除以scale后,再更新到权重上。

论文中提到他们在实验过程中使用的scale是8~32K,最终取得了与FP32一致的收敛结果。对于scale的选择,论文没有统一的方法,只是提到scale并没有下界,只要选择的scale不会在后向计算时导致溢出就行。

实验结果

  • 图像分类

混合精度训练_第4张图片

  • 物体检测

混合精度训练_第5张图片

  • 语音识别

混合精度训练_第6张图片

  • 机器翻译

混合精度训练_第7张图片

  • 语言模型

混合精度训练_第8张图片

​https://hjchen2.github.io/2018/02/03/%E6%B7%B7%E5%90%88%E7%B2%BE%E5%BA%A6%E8%AE%AD%E7%BB%83/

你可能感兴趣的:(机器学习,深度学习)