Smaller, faster, cheaper, lighter: Introducing DistilBERT, a distilled version of BERT 翻译
paper:https://arxiv.org/pdf/1910.01108v2.pdfcode:https://github.com/huggingface/transformersTime:2019.10在过去的18个月中,在过去的18个月中,几乎所有的自然语言处理任务都从大型语言模型进行迁移学习这一方式达到了SOTA效果。通常基于Vaswani等人的Transformer体系结构,这些经过预