BERT家族:DistillBERT

DistillBERT

论文:《DistilBERT, a distilled version of BERT: smaller,faster, cheaper and lighter》

论文地址:https://arxiv.org/pdf/1910.01108

作者/机构:Hugging face

年份:2019.10

DistillBert是在Bert的基础上用知识蒸馏技术训练出来的小型化bert,通过teacher model的soft target作为total loss的一部分,以诱导student model的训练,实现Bert模型的知识迁移。其主要做了以下三点改进:

(1)减小编码器层数

使用Bert-base作为teacher model,在bert-base的基础上将网络层数减半来构建student model,具体做法是在12层Transformer-encoder的基础上每2层中去掉一层,最终将12层减少到了6层,且每一层都是用teacher model对应层的参数来做初始化的。

(2)去掉了token type embedding和pooler。

(3)利用teacher model的soft target和teacher model的隐层参数来训练student mdoel。

这样做的目的是:在精度损失不大的情况下压缩模型大小提高其推理速度,更适应线上应用满足业务需求。

更多NLP相关技术干货,请关注我的微信公众号【NLP有品

你可能感兴趣的:(预训练语言模型,BERT)