Outperforming Larger Language Models with Less Training Data and Smal
中文译名:逐步蒸馏!以较少的训练数据和较小的模型规模超越较大的语言模型发布链接:http://arxiv.org/abs/2305.02301AcceptedtoFindingsofACL2023阅读原因:近期任务需要用到蒸馏操作,了解相关知识核心思想:改变视角。原来的视角:把LLMs视为噪声标签的来源。现在的视角:把LLMs视为能够推理的代理。方法好在哪?需要的数据量少,得到的结果好。文章的方法