模型压缩与加速技术 | 描述 |
参数剪枝(A) | 设计关于参数重要性的评价准则,基于该准则判断网络参数的重要程度,删除冗余参数 |
参数量化(A) | 将网络参数从 32 位全精度浮点数量化到更低位数 |
低秩分解(A) | 将高维参数向量降维分解为稀疏的低维向量 |
参数共享(A) | 利用结构化矩阵或聚类方法映射网络内部参数 |
紧凑网络(B) | 从卷积核、特殊层和网络结构3个级别设计新型轻量网络 |
知识蒸馏(B) | 将较大的教师模型的信息提炼到较小的学生模型 |
混合方式(A+B) | 前几种方法的结合 |
A:压缩参数 B:压缩结构
参数量化是指用较低位宽表示 32 位浮点网络参数,网络参数包括权重、激活值、梯度和误差等等,可以使用统一的位宽(如16-bit、8-bit、2-bit 和 1-bit 等),也可以根据经验或一定策略自由组合不同的位宽
二值化是指限制网络参数取值为 1 或-1,极大地降低了模型对存储空间和内存空间的需求,并且将原来的乘法操作转化成加法或者移位操作,显著提高了运算速度,但同时也带来训练难度和精度下降的问题。
三值化是指在二值化的基础上引入 0 作为第 3 阈值,减少量化误差。
Gong 等人[70]最早提出将 k-means 聚类用于量化全连接层参数,如图所示,对原始权重聚类形成码本,为权值分配码本中的索引,所以只需存储码本和索引,无需存储原始权重信息。
Wu 等人[71]将 k-means 聚类拓展到卷积层,将权值矩阵划分成很多块,再通过聚类获得码本,并提出一种有效的训练方案抑制量化后的多层累积误差。
Choi 等人[72]分析了量化误差与 loss 的定量关系,确定海森加权失真测度是量化优化的局部正确目标函数,提出了基于海森加权 k-means 聚类的量化方法。
Xu 等人[73]提出了分别针对不同位宽的 Single-level network quantization(SLQ) 和 Multi-level network quantization(MLQ) 两种方法,SLQ 方法针对高位宽,利用 k-means 聚类将权重分为几簇,依据量化 loss,将簇分为待量化组和再训练组,待量化组的每个簇用簇内中心作为共享权重,剩下的参数再训练。而 MLQ 方法针对低位宽,不同于 SLQ 方法一次量化所有层,MLQ 方法采用逐层量化的方式。
方法 | W | A | G | E | 特点 |
[79] | 16 | 32 | 32 | 32 | 引入随机舍入技术 |
[81] | 32 | 8 | 8 | 32 | 加速数据传输,提高并行训练的性能 |
[82] | 8 | 8 | 32 | 32 | 仅测试时使用整数运算 |
[83] | 8 | 8 | 8 | 32 | 计算梯度的最后一个步骤保留更高精度 |
[84] | 2 | 8 | 8 | 8 | 离散训练和推理 |
