Improved Knowledge Distillation via Teacher Assistant小陈读paper系列

Improved Knowledge Distillation via Teacher Assistant小陈读paper系列_第1张图片

 算是经典了吧哈哈

Improved Knowledge Distillation via Teacher Assistant小陈读paper系列_第2张图片1.他们发现了学生性能下降了,什么时候呢?就是老师模型和学生模型差的太多的时候有了很大gap(一个学生不能请一个维度跨越巨大的老师)(老师可以有效地将其知识转移到一定大小的学生,而不是更小的。)

2.为了缓解这个Gap,采用了多步的蒸馏框架

which employs an intermediate-sized network (teacher assistant) to bridge the gap between the student and the teacher. 

它请了中间大小的网络(教师助理)来弥合学生和教师之间的Gap

3.研究了教师助理大小的影响,并将该框架扩展到多步蒸馏。

...substantiate the effectiveness of our proposed approach.证实了我们方法的有效性

读到这里算是摘要读完啦

Improved Knowledge Distillation via Teacher Assistant小陈读paper系列_第3张图片额 ,这里分的有点不太一样

模型压缩,参数剪枝和共享 , 低阶因式分解, 知识蒸馏

 Improved Knowledge Distillation via Teacher Assistant小陈读paper系列_第4张图片

图挺好看的

 Improved Knowledge Distillation via Teacher Assistant小陈读paper系列_第5张图片

 被误认为是一个美丽的传递关系

 Improved Knowledge Distillation via Teacher Assistant小陈读paper系列_第6张图片

 架桥喽 这个感觉上去就很work

Improved Knowledge Distillation via Teacher Assistant小陈读paper系列_第7张图片

 算是读完了introduction (没感觉啊)

这个paper读的有点水啊

Improved Knowledge Distillation via Teacher Assistant小陈读paper系列_第8张图片

 明天仔细看看 晚上下班啦

Improved Knowledge Distillation via Teacher Assistant小陈读paper系列_第9张图片

你可能感兴趣的:(小陈读paper系列,知识蒸馏)