知识蒸馏之DistilBERT
这个概念很广,小到身边道理,大到天文地理,而这都不是今天的重点,我要学的是一个模型MODEL如何从“胖”变“瘦”,实现它的华丽变化!
大家都知道Bert模型是非常巨大的,因为要学好一门知识,谁都是不容易的,更何况是一个没有感情没有大脑的模型,它唯一能做的就是用它的大算力来解决问题,可能人一眼就分辨出一个句子的感情色彩,而机器就需要不断的试错改正才能达到和人类比较接近的效果。所以这也就为什么导致Bert模型的参数非常巨大,它的参数将近1亿的参数,简直是一个庞然大物,然而这在语言模型中还只是一个入门门槛的参数,所以我们难免需要为以后的应用而顾虑,“为了创造为创造是没有意义的,应该是为了应用而创造”,那么如何将这个庞大的模型给一个不太“聪明”的设备用呢?蒸馏!
知识蒸馏(Knowledge Distillation,KD)是一种常用的知识迁移方法,通常有两个