[2019ICLR W](模型压缩_剪枝_彩票理论)The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks

本篇是ICLR2019的两篇Best Paper之一。另一篇:ORDERED NEURONS: INTEGRATING TREE STRUCTURES INTO RECURRENT NEURAL NETWORKS

文章目录

    • @[toc]
  • 引言
    • 剪枝过程
    • 剪枝类型
  • 问题
  • 解决方式
  • 结果
  • 应用
  • 参考资料

The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks
《彩票假设:寻找稀疏的、可训练的神经网络》

作者:Jonathan Frankle, Michael Carbin

作者机构:MIT CSAIL

论文地址:https://openreview.net/forum?id=rJl-b3RcF7

关键词: 神经网络,稀疏性,剪枝,压缩,性能,架构搜索

引言

剪枝过程

剪枝分为one-shot和iteration剪枝

  1. one-shot剪枝过程:训练模型–> 评估神经元(或者kernel、layer)的重要性–>去掉最不重要的神经元–> fine-tuning–>停止剪枝。

  2. iteration剪枝过程:训练模型–> 评估神经元(或者kernel、layer)的重要性–>去掉最不重要的神经元–> fine-tuning–>判断是不是要继续剪枝,如果是回到第二步(评估神经元的重要性),否则停止剪枝。

剪枝类型

剪枝还分为结构化剪枝和非结构化剪枝

结构化剪枝:直接去掉整个kernel的结构化信息;
非结构化剪枝:考虑每个kernel的每个元素,删除kernel中不重要的参数;也称为稀疏剪枝。此为权重级别的

问题

  剪枝技术可将网络参数量减少 90%,进而在不牺牲准确率的前提下减少存储需求、提升推断的计算性能。然而现有经验表明,剪枝生成的解析架构从一开始就很难训练,尽管解析架构同样可以提升训练性能。
  我们发现,标准的剪枝技术会自然地发现子网络,这些子网络经过初始化后能够有效进行训练

解决方式

提出一个算法来确定中奖彩票

「彩票假设」(lottery ticket hypothesis):将一个复杂网络的所有参数当作一个奖池,奖池中存在一组子参数所对应的子网络(代表中奖号码,文中的 wining ticket),单独训练该子网络,可以达到原始网络的测试精度。

那么怎样找到中奖彩票呢?

确定中奖彩票:通过训练一个网络并修剪它的最小量级权重来确定中奖彩票。其余未修剪的连接构成了中奖彩票的架构。
具体来说,有以下 4 步:

[2019ICLR W](模型压缩_剪枝_彩票理论)The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks_第1张图片

结果

一句话概括:可以在训练后剪枝权重的前馈神经网络,也可以在训练前剪枝相同的权重。

本文证明了,iteration剪枝能达到跟原网络差不多的性能,而且最后的size比one-shot的要小。始终存在较小的子网络,它们从一开始就进行训练,学习速度至少与较大的子网络一样快,同时能达到类似的测试精度。

[2019ICLR W](模型压缩_剪枝_彩票理论)The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks_第2张图片
图 1:早期停止发生的迭代 (左边) 和用于 MNIST 的 Lenet 架构以及用于 CIFAR10 的conv2、conv4 和 conv6 架构的迭代 (右边) 的测试精度。虚线是随机抽样的稀疏网络。实线是中奖彩票。

图 1 中的实线显示了我们找到的网络,即 winning tickets。

[2019ICLR W](模型压缩_剪枝_彩票理论)The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks_第3张图片
  图2:本文测试的架构

  • 我们证明剪枝可以揭示可训练的子网络,这些子网络达到了与原始网络相当的测试精度;

  • 我们证明剪枝发现的中奖彩票比原始网络学习更快,同时具有更高的测试精度和更好的泛化能力。

  • 我们提出 “彩票假设”,作为神经网络组成的新视角,可以解释这些发现。

应用

我们已经证明了中奖彩票的存在,我们希望利用这一知识:

  • 提高训练性能。
    由于中奖彩票可以从一开始就单独进行训练,我们希望能够设计出能够搜索中奖彩票并尽早进行修剪的训练方案。

  • 设计更好的网络。
    中奖彩票揭示了稀疏架构和特别擅长学习的初始化的组合。我们可以从中获得灵感,设计有助于学习的新架构和初始化方案。我们甚至可以把为一项任务发现的中奖彩票迁移到更多其他任务。

  • 提高对神经网络的理论理解。
    我们可以研究为什么随机初始化的前馈网络似乎包含中奖彩票,以及增加对优化和泛化的理论理解。

参考资料

ICLR 2019最佳论文出炉:微软、MILA、MIT获奖
https://baijiahao.baidu.com/s?id=1632759297696610690&wfr=spider&for=pc

《彩票假设》ICLR 2019 best paper 阅读笔记 - 知乎
https://zhuanlan.zhihu.com/p/65161889

(1条消息)[ICLR19] THE LOTTERY TICKET HYPOTHESIS: FINDING SPARSE, TRAINABLE NEURAL NETWORKS - gdtop的个人笔记 - CSDN博客
https://blog.csdn.net/weixin_37993251/article/details/90109518

(指麻省理工学院 计算机科学与人工智能实验室(MIT’s Computer Science and Artificial Intelligence Laboratory )
Home Page | MIT CSAIL
https://www.csail.mit.edu/

你可能感兴趣的:(L_论文,M_模型压缩)