深度学习-知识蒸馏

第一章 综述

深度学习-知识蒸馏_第1张图片

知识蒸馏的目的是将大模型变成小模型,将小模型部署到移动终端设备上。

深度学习-知识蒸馏_第2张图片

1.轻量化网络

深度学习-知识蒸馏_第3张图片

2.知识的表示与迁移

hard targets和soft targets:深度学习-知识蒸馏_第4张图片

显然, soft targets包含更多的“知识”和“信息”, 像谁, 不像谁, 有多像,有多不像, 特别是非正确类别概率的相对大小(驴和车)。

3.蒸馏温度T

深度学习-知识蒸馏_第5张图片

把比较硬的soft targets变得更软,信息暴漏的更明显

例如:

深度学习-知识蒸馏_第6张图片

第二章 知识蒸馏

1.过程

深度学习-知识蒸馏_第7张图片

教师网络进行预训练,生成soft labels,学生网络可能训练,也可能没有训练,生成了预测的soft predictions, 将教师网络的labels和学生的predictions做一个Loss, 同时学生网络也会生成一个hard prediction,它与真实标签的hard label做一个Loss(如上上图所示)。

深度学习-知识蒸馏_第8张图片

2.实验结果

深度学习-知识蒸馏_第9张图片

3.知识蒸馏的应用场景

模型压缩

优化训练,防止过拟合(潜在的正则化)

无限大、无监督数据集的数据挖掘

少样本、零样本学习

4.迁移学习和知识蒸馏

迁移学习指的是领域之间的迁移,例如将猫狗的识别迁移到医学图像的识别上去;知识蒸馏指的是模型之间的蒸馏。

第三章 知识蒸馏发展趋势

深度学习-知识蒸馏_第10张图片

你可能感兴趣的:(论文,深度学习)