- 模型加速与压缩 | 剪枝乱炖
- 闲话模型压缩之网络剪枝(Network Pruning)篇
- 2019-04-30-神经网络压缩综述
这类方法通常是提出一个判断神经元是否重要的度量标准,依据这个标准计算出衡量神经元重要性的值,将不重要的神经元剪掉。在神经网络中可以用于度量的值主要分为:Weight / Activation / Gradient / Error
include Weight and Gradient
feature map; using the evolutionary particle fifiltering approach
方法的主要思想是定 义显著性变量并进行贪婪剪枝,提出核内定步长粒 度将细粒度剪枝转化为粗粒度剪枝如通道剪枝或卷 积核剪枝.
The lottery ticket hypothesis [5] sets the weights below a threshold to zero, rewinds the rest of the weights to their initial confifiguration, and then retrains the network from this confifiguration.
提出The Lottery Ticket Hypothesis,即一个随机初始化,密集的网络包含一个子网络,这个子网络如果沿用原网络的权重初始化,在至多同样迭代次数训练后就可以比肩原网络的测试精度。同时它还给出了找这种子网络结构的方法。文章认为这个子结构和它的初始值对训练的有效性至关重要,它们被称为『winning logttery tickets』。
提出Learning和Compression两步交替优化的pruning方法,在Compression操作中,通过将原参数向约束表示的可行集投影来自动找到每层的最优sparsity ratio。因为此类方法不需要计算量较大的sensitivity analysis,也减少了超参数的引入。
include Activation and Error
pre-training --> keep the most important filters weights --> fine-tuning
Rethinking the Value of Network Pruning [ICLR '19]
the structure of the pruned model is more important than the inherited “important” weights
另外,在文献[13]中作者指出,裁剪之后仍能保 持模型性能并不是归功于所选择的特定裁剪标准, 而是由于深层神经网络的固有可塑性,这种可塑性 使得网络在精调后能够恢复裁剪造成的精度损失, 因此随机裁剪也可以达到在保证精度的同时极大地 压缩网络的目标。
包括但不局限于:Meta-learning 、NAS 、
