知识蒸馏之DistilBERT

文章目录

      • 题目
      • 知识
      • 知识蒸馏
        • DistilBERT

题目

知识蒸馏之DistilBERT

知识

这个概念很广,小到身边道理,大到天文地理,而这都不是今天的重点,我要学的是一个模型MODEL如何从“胖”变“瘦”,实现它的华丽变化!

大家都知道Bert模型是非常巨大的,因为要学好一门知识,谁都是不容易的,更何况是一个没有感情没有大脑的模型,它唯一能做的就是用它的大算力来解决问题,可能人一眼就分辨出一个句子的感情色彩,而机器就需要不断的试错改正才能达到和人类比较接近的效果。所以这也就为什么导致Bert模型的参数非常巨大,它的参数将近1亿的参数,简直是一个庞然大物,然而这在语言模型中还只是一个入门门槛的参数,所以我们难免需要为以后的应用而顾虑,“为了创造为创造是没有意义的,应该是为了应用而创造”,那么如何将这个庞大的模型给一个不太“聪明”的设备用呢?蒸馏!

知识蒸馏

知识蒸馏(Knowledge Distillation,KD)是一种常用的知识迁移方法,通常有两个

你可能感兴趣的:(知识蒸馏,python,nlp,知识蒸馏,DistilBERT,bert)