论文笔记-精读-8.22-Manifold Regularized Dynamic Network Pruning

目录

    • 总结
      • 要解决的问题&解决的情况
        • 问题
      • 方法的优缺点
        • 优点
        • 缺点
      • 实验结果如何
      • 有哪些可以提升
    • 正文
      • 概要
      • 先验知识
      • 流型动态剪枝-Maniprune
        • 复杂性
        • 相似性

总结

关于本篇文所解决问题的总结写在前面,方便一些朋友阅读,也方便自己从具体的方法中跳脱出来,高屋建瓴、理清思路。

要解决的问题&解决的情况

问题

主要是:

  1. static prune达不到高的剪枝率,文章这是因为他们没有充分发掘输入中的信息;

方法的优缺点

直觉上,这个基于交叉熵的复杂度评估必须要等到接近收敛才能有比较好的近似,否则一开始,所有实例都拟合得不好,得到的复杂度信息肯定是没有实用价值的。

优点

  1. 开始我认为方法上存疑的一点是:有没有考虑过同一个mini-batch的不同实例对子网络的影响会相互抵消。思考后顿悟,哦,这是动态剪枝,所有的参数都会保留,对每一个实例保留显著性向量也就是相当于对每一个实例都生成了一个子网络,这是很高明的集成学习啊,与Dropout有异曲同工之妙,然而又更有输入针对性;

缺点

  1. 引入 λ ′ \lambda^{'} λ C C C两个超参数;

实验结果如何

有哪些可以提升

正文

概要

本文从复杂性相似性发掘了样本空间的流型信息,并使用了一个自适应的惩罚来使得的样本复杂度和网络复杂度相匹配。

本文首先引入了一种判断输入图像复杂度并且适宜地调整filters稀疏的惩罚程度的机制,其次,在剪枝结果中保存了样本间的相似性。

本文实现的结果是:ResNet-34在ImageNet上实现了55.3%的FLOPs减少,代价是0.57%的top-1 accu损失。

本文所谓的为不同的输入实例生成不同的子网络,具体是指什么?难道对1000个类,能够自动生成1000种网络结构?

不同实例对子网络自动调节的图示如上。

先验知识

filter稀疏的优化形式:
论文笔记-精读-8.22-Manifold Regularized Dynamic Network Pruning_第1张图片
其中,Manifoldf2

常用挤压激活模块作为 G l \mathcal{G}^{l} Gl来根据上一层的输出 F l − 1 ( x i ) F^{l-1}(x_{i}) Fl1(xi)判断channels显著性,通式即:
π l ( x i , W ) = G l ( F l − 1 ( x i ) ) ∈ R c l \pi^{l}(x_{i}, \mathcal{W})=\mathcal{G^{l}}(F^{l-1}(x_{i})) \in \mathbb{R}^{c^{l}} πl(xi,W)=Gl(Fl1(xi))Rcl

采用显著性度量 π l \pi^{l} πl后的优化目标如下:
论文笔记-精读-8.22-Manifold Regularized Dynamic Network Pruning_第2张图片

流型动态剪枝-Maniprune

复杂性

对于输入图像,高的交叉熵损失暗示着当前实例拟合的不好,因此说明其complexity更高,需要一个特征表示能力更加强大的网络来提取其特征。

感觉这段稍有一点扯淡,loss高只代表目前权重所处的位置不好,不能完全归咎于任务本身的复杂程度吧

对于网络 π l ( x i ) \pi^{l}(x_{i}) πl(xi)的稀疏性即可代表网络的复杂程度,越稀疏则网络越简单。

结合以上两者,本文的思想是,对于well fitted的实例,应当基于很大压力使网络稀疏;反之极端情况,对于那些非常unfitted的实例,就不要给稀疏惩罚。

这由一个可学习的二进制变量来表示:
Manifoldf3
那么这个复杂度匹配的优化问题可以表述如下:
论文笔记-精读-8.22-Manifold Regularized Dynamic Network Pruning_第3张图片
这是一个min-max问题,其中C是交叉熵损失的一个阈值,对大于这个阈值的所有实例不需要施加稀疏约束。

分析易得 β \beta β(受约束于01二值)有闭式解:
Manifold5
此处的思想值得借鉴:拟合的不好的实例,就是因为当前拟合得不好,所以本例就不该给参数施加惩罚,否则将更难拟合此类实例。这构成一种天然的负反馈机制,如下:
论文笔记-精读-8.22-Manifold Regularized Dynamic Network Pruning_第4张图片

相似性

一个重要的假设是:
论文笔记-精读-8.22-Manifold Regularized Dynamic Network Pruning_第5张图片
假设采用经典的余弦相似性(其实就是两向量夹角的推广),两实例的对不同channels的显著向量 π l \pi^{l} πl相似程度可以表述如下:
论文笔记-精读-8.22-Manifold Regularized Dynamic Network Pruning_第6张图片
(第l层)输入特征本身的相似度可以表述如下:
论文笔记-精读-8.22-Manifold Regularized Dynamic Network Pruning_第7张图片
而相似性学习的目标即减小两者的差异,即:特征上越相似的实例,我们使之的显著性向量也趋于相似。下式dis的一个典型取值是 ∣ ∣ T l − R l ∣ ∣ F ||T^{l}-R^{l}||^{F} TlRlF,F是Frobenius范数。
论文笔记-精读-8.22-Manifold Regularized Dynamic Network Pruning_第8张图片
综合以上两个指标,优化目标如下:
论文笔记-精读-8.22-Manifold Regularized Dynamic Network Pruning_第9张图片

你可能感兴趣的:(神经网络,论文阅读,剪枝,深度学习,剪枝)