模型的动态量化

模型压缩:
模型压缩是一种针对大型模型(参数量巨大)在使用过程中进行优化的一种常用措施。它往往能够使模型体积缩小,简化计算,增快推断速度,满足模型在特定场合(如: 移动端)的需求。目前,模型压缩可以从多方面考虑,如剪枝方法(简化模型架构),参数量化方法(简化模型参数),知识蒸馏等

模型参数量化:
在机器学习(深度学习)领域,模型量化一般是指将模型参数由类型FP32转换为INT8/FP16的过程,如果转换为INT8,转换之后的模型大小被压缩为原来的¼,所需内存和带宽减小4倍,同时,计算量减小约为2-4倍。模型又可分为动态量化和静态量化

模型动态量化:
操作最简单也是压缩效果最好的量化方式,量化过程发生在模型训练后,针对模型权重采取量化,之后会在模型预测过程中,再决定是否针对激活值采取量化,因此称作动态量化(在预测时可能发生量化)

模型静态量化:
考虑到动态量化这种“一刀切”的量化方式有时会带来模型预测效果的大幅度下降,因此引入静态量化,它同样发生在模型训练后,为了判断哪些权重或激活值应该被量化,哪些应该保留或小幅度量化,在预测过程开始前,在模型中节点插入“观测者”(衡量节点使用情况的一些计算方法),他们将在一些实验数据中评估节点使用情况,来决定是否将其权重或激活值进行量化,因为在预测过程中,这些节点是否被量化已经确定,因此称作静态量化。

你可能感兴趣的:(NLP,自然语言处理,数据挖掘,深度学习)