《DistilBERT,adistilledversionofBERT:smaller, faster,cheaperandlighter》阅读心得
该文主要采用“知识蒸馏”方法对BERT(预训练语言模型)精简、优化,将较大模型压缩成较小的模型,最终目的是:提高模型推理的效率,让运行在智能手机等硬件设备上的深度学习模型具有轻量级、响应快及能源利用率高等特性。在2019年的NLP领域预训练+微调的模型训练思路百家争鸣,ElMo、GPT、BERT、Mass、ULMFit等模型陆续登台成为当前领域最闪耀的星星,纵览全局能够真正快速用于产品化落地的mo