模型压缩(Model compression)

随着深度学习的发展,模型变得越来越复杂,随之而来的模型参数也越来越多,对于需要训练的模型硬件要求也越来越高。模型压缩技术就是为了解决模型使用成本的问题。通过提高推理速度,降低模型参数量和运算量。

模型压缩的方法:

  • 网络剪枝(Network Pruning)
  • 量化(Quantization)
  • 低秩分解(Low-rank factorization)
  • 知识蒸馏(Knowledge distillation)

1. Network Pruning

  • 研究的核心问题就是:如何有效地裁剪模型参数且最小化精度的损失
  • 网络剪枝可以分为 结构化剪枝(Structured pruning) 和 非结构化剪枝(Unstructured pruning) 两类。

1.1 概念

结构化剪枝(Unstructured pruning): 它裁剪的粒度为单个神经元。如果对kernel进行非结构化剪枝,则得到的kernel是稀疏的,即中间有很多元素为0的矩阵。除非下层的硬件和计算库对其有比较好的支持,pruning后版本很难获得实质的性能提升。稀疏矩阵无法利用现有成熟的BLAS库获得额外性能收益。

结构化剪枝(Struct

你可能感兴趣的:(深度学习,深度学习,人工智能,神经网络)