pytorch模型加速

一个关键的原则:”仅仅在权重更新的时候使用fp32,耗时的前向和后向运算都使用fp16.",其中的一个技巧是,在反向计算开始前,将dloss乘上一个scale,人为变大,权重更新前,除去scale,恢复正常值。目的是为了减小激活gradient下溢出的风险。

fp16:半精度

如何在pytorch中使用fp16混合精度训练呢?

nn.Module中的half()方法将模型中的float32转化为float16,实现的原理是遍历所有tensor,而float32和float16都是tensor的属性,也就是说,一行代码解决,如下

model.half()

总结:

1、深度学习训练使用16bit表示/运算正逐渐成为主流。

2、低精度带来了性能、功耗优势,但需要解决量化误差(溢出,舍入)

3、常见的避免量化误差的方法:为权重保持高精度fp32备份,损失放大,避免梯度的下溢出,一些特殊层(如batchnorm)仍使用fp32运算。

 

你可能感兴趣的:(pytorch模型加速)