知识蒸馏
写这篇的目的是为了改进自己的bert训练出来的模型,对于QA这种需要实时响应的应用,非常考验一个模型带给用户的体验感,所以我觉得自己需要深入探索一下知识蒸馏这个领域。
本部分将会分为几个章节来完成,希望我能最后成功地把模型蒸馏出来
这两天我大概读了三篇论文,由于一开始不太懂这个领域,所以先去B站上看看其他人的视频,这里推荐同济子豪兄
,他讲解的很小白了,所以不明白或者更希望看视频的可以去学习学习!
因为我主要是为了改进bert模型,所以看的是跟bert更为紧密的论文。
Distill