知识蒸馏(Knowledge Distillation)详细深入透彻理解重点

知识蒸馏(Knowledge Distillation)详细深入透彻理解重点_第1张图片
知识蒸馏是一种模型压缩方法,是一种基于“教师-学生网络思想”的训练方法,由于其简单,有效,在工业界被广泛应用。这一技术的理论来自于2015年Hinton发表的一篇神作:

论文链接

​chrome-extension://ibllepbpahcoppkjjllbabhnigcbffpi/content/web/viewer.html?file=https%3A%2F%2Farxiv.org%2Fpdf%2F1503.02531.pdf

arxiv.org
Knowledge Distillation,简称KD,顾名思义,就是将已经训练好的模型包含的知识(”Knowledge”),蒸馏(“Distill”)提取到另一个模型里面去。今天,我们就来简单读一下这篇论文,力求用简单的语言描述论文作者的主要思想。在本文中,我们将从背景和动机讲起,然后着重介绍“知识蒸馏”的方法,最后我会讨论“温度“这个名词:

温度: 我们都知道“蒸馏”需要在高温下进行,那么这个“蒸馏”的温度代表了什么,又是如何选取合适的温度?
知识蒸馏(Knowledge Distillation)详细深入透彻理解重点_第2张图片

知识蒸馏(Knowledge Distillation)详细深入透彻理解重点_第3张图片
知识蒸馏(Knowledge Distillation)详细深入透彻理解重点_第4张图片

知识蒸馏(Knowledge Distillation)详细深入透彻理解重点_第5张图片

知识蒸馏(Knowledge Distillation)详细深入透彻理解重点_第6张图片
知识蒸馏(Knowledge Distillation)详细深入透彻理解重点_第7张图片

知识蒸馏(Knowledge Distillation)详细深入透彻理解重点_第8张图片
知识蒸馏(Knowledge Distillation)详细深入透彻理解重点_第9张图片
知识蒸馏(Knowledge Distillation)详细深入透彻理解重点_第10张图片
MNIST任务

假设某个输入的“2”更加形似"3",softmax的输出值中"3"对应的概率为0.1,而其他负标签对应的值都很小,而另一个"2"更加形似"7","7"对应的概率为0.1。这两个"2"对应的hard target的值是相同的,但是它们的soft target却是不同的,由此我们可见soft target蕴含着比hard target多的信息。并且soft target分布的熵相对高时,其soft target蕴含的知识就更丰富。

知识蒸馏(Knowledge Distillation)详细深入透彻理解重点_第11张图片
这就解释了为什么通过蒸馏的方法训练出的Net-S相比使用完全相同的模型结构和训练数据只使用hard target的训练方法得到的模型,拥有更好的泛化能力。

知识蒸馏(Knowledge Distillation)详细深入透彻理解重点_第12张图片
知识蒸馏(Knowledge Distillation)详细深入透彻理解重点_第13张图片
知识蒸馏(Knowledge Distillation)详细深入透彻理解重点_第14张图片
知识蒸馏(Knowledge Distillation)详细深入透彻理解重点_第15张图片
知识蒸馏(Knowledge Distillation)详细深入透彻理解重点_第16张图片
知识蒸馏(Knowledge Distillation)详细深入透彻理解重点_第17张图片
知识蒸馏(Knowledge Distillation)详细深入透彻理解重点_第18张图片
知识蒸馏(Knowledge Distillation)详细深入透彻理解重点_第19张图片

知识蒸馏(Knowledge Distillation)详细深入透彻理解重点_第20张图片
TextBrewer
5. 参考
深度压缩之蒸馏模型 - 风雨兼程的文章 - 知乎 https://zhuanlan.zhihu.com/p/24337627
知识蒸馏Knowledge Distillation - 船长的文章 - 知乎 https://zhuanlan.zhihu.com/p/83456418
https://towardsdatascience.com/knowledge-distillation-simplified-dd4973dbc764
https://nervanasystems.github.io/distiller/knowledge_distillation.html

bert 本身就以市面上公布的小模型参数作为student 模型
知识蒸馏(Knowledge Distillation)详细深入透彻理解重点_第21张图片

知识蒸馏(Knowledge Distillation)详细深入透彻理解重点_第22张图片

你可能感兴趣的:(知识蒸馏(Knowledge Distillation)详细深入透彻理解重点)