神经网络模型量化(Quantization)

模型部署系列文章目录

##模型优化系列文章

模型量化
模型压缩

提示:根据作者认知及理解加深,博文会迭代更新,目前贴出来的难免有纰漏,希望能够与读者互动改进

文章目录

  • 模型部署系列文章目录
    • ` 提示:根据作者认知及理解加深,博文会迭代更新,目前贴出来的难免有纰漏,希望能够与读者互动改进`
  • 前言
  • 一、模型量化(Quantization)概念
  • 二、模型量化方法
    • 1. 训练后量化(PTQ/Post Traning Quantization)
      • 1.1 静态量化
        • 1.1.1 per Tensor量化
        • 1.1.2 per layer量化
        • 1.1.3 per channel量化
      • 1.2 动态量化
    • 2. 量化感知训练(QAT/Quantization Aware Training)
    • 3. 外部量化(External Quantization)
    • 4. 混合精度(Mixed precision)
  • 三、模型量化精度损失
    • 1. 量化精度损失方法确认
    • 2. 量化精度损失调优
      • 2.1 模型校准 (calibration)
    • https://zhuanlan.zhihu.com/p/101766505
  • 总结
  • 参考资料


前言

提示:这里可以添加本文要记录的大概内容:


提示:以下是本篇文章正文内容,下面案例可供参考

一、模型量化(Quantization)概念

模型量化能够减少模型的大小,进而优化内存的使用,及访问速度。

二、模型量化方法

1. 训练后量化(PTQ/Post Traning Quantization)

1.1 静态量化

1.1.1 per Tensor量化

1.1.2 per layer量化

1.1.3 per channel量化

1.2 动态量化

动态量化是权重被提前量化,而activation在推理过程中动态量化。
应用场景:模型执行时间主要由从内存中加载权重而不是计算矩阵乘法来决定。

2. 量化感知训练(QAT/Quantization Aware Training)

3. 外部量化(External Quantization)

4. 混合精度(Mixed precision)

三、模型量化精度损失

1. 量化精度损失方法确认

2. 量化精度损失调优

2.1 模型校准 (calibration)

https://zhuanlan.zhihu.com/p/101766505

总结

提示:这里对文章进行总结:


参考资料

你可能感兴趣的:(神经网络,模型优化部署,计算机视觉,人工智能,深度学习,神经网络,cnn)