ReAugKD: Retrieval-Augmented Knowledge Distillation For Pre-trained Language Models

本文是LLM系列文章,针对《ReAugKD: Retrieval-Augmented Knowledge Distillation For Pre-trained
Language Models》的翻译。

ReAugKD:预训练语言模型的检索增强知识蒸馏

  • 摘要
  • 1 引言
  • 2 相关工作
  • 3 方法
  • 4 实验结果
  • 5 结论
  • 局限性

摘要

知识蒸馏(KD)是在低延迟环境中部署大规模预训练语言模型的最有效方法之一,通过将大规模模型中包含的知识转移到较小的学生模型中。以前的KD方法使用教师生成的软标签和中间激活来将知识单独转移到学生模型参数。在本文中,我们表明,以教师的软标签和预测的知识库形式访问非参数记忆可以进一步提高学生的能力,提高泛化能力。为了使学生能够有效地从知识库中检索,我们提出了一种新的具有损失函数的检索增强KD框架,该框架将教师和学生嵌入空间中的关系知识对齐。我们通过大量实验表明,我们的检索机制可以在GLUE基准上实现最先进的任务特定知识蒸馏性能。

1 引言

2 相关工作

3 方法

4 实验结果

5 结论

在本文中,我们提出了ReAugKD,这是一个具有检索机制的知识蒸馏框架,在GLUE基准测试上显示出最先进的性能。未来,我们计划利用教师提供的更多信息来扩展知识库,并将其扩展到其他任务中。

局限性

我们的方法依赖于访问教师嵌入和预测,这在黑匣子蒸馏设置中可能并不总是可能的。检索增强还需要维护一个内存密集型的知识库。检索过程的成本取决于训练语料库的大小,这在处理非常大的训练数据集时可能是一个限制。对训练语料库进行数据集蒸馏,以进一步降低内存成本和检索时间,是我们框架未来的重要步骤。

你可能感兴趣的:(LLM,语言模型,人工智能,机器学习)