Mixture-of-Experts Meets Instruction Tuning: A Winning Combination for Large Language Models

本文是LLM系列的文章,针对《Mixture-of-Experts Meets Instruction Tuning: A Winning Combination for Large Language Models》的翻译。

专家混合遇见指令调整:大型语言模型的制胜组合

  • 摘要
  • 1 引言
  • 2 方法
    • 2.1 模型架构
    • 2.2 指令微调配方
  • 3 实验
    • 3.1 设置
    • 3.2 跨规模的对比研究
    • 3.3 放大FLAN-MOE
  • 4 讨论
    • 4.1 微调策略
    • 4.2 附加分析
  • 5 相关工作
  • 6 结论

摘要

稀疏混合专家(MoE)是一种神经架构设计,可用于在不增加推理成本的情况下向大型语言模型(LLM)添加可学习参数。指令调整是一种训练LLM遵循指令的技术。我们主张将这两种方法结合起来,因为我们发现MoE模型比密集模型从指令调整中受益更多。特别是,我们在三个实验设置中进行了实证研究:(i)在没有指令调整的情况下对单个下游任务进行直接微调;(ii)指令调整,然后对下游任务进行上下文小样本或零样本泛化;以及(iii)指令调整,辅以对个别下游任务的进一步微调。在第一种情况下,MoE模型总体表现不如具有相同计算能力的密集模型。然而,随着指令调整(第二和第三场景)的引入,这种叙述发生了巨大变化,指令调整独立使用或与特定任务的微调结合使用。我们最强大的型号FLAN-MOE(32B)在四个基准任务上的性能超过了FLAN-PALM(62B),而只使用了三分之一的FLOP。FLAN-MOE所体现的进步启发了在任务不可知学习的框架下重新评估大规模、高性能语言模型的设计原则。

1 引言

近年来,在越来越大和复杂的深度学习模型的发展推动下,自然语言处理(NLP)领域取得了显著进步。在这些模型中,基于Transformer的语言模型已经成为一系列NLP任务的事实标准,因为它们在捕捉复杂的语言模式和在不同上下文中进行概括方面具有无与伦比的能力。训练这种模型的一个特别成功的范例是指令调整,它通过调整它们预先训练的表示来遵循自然语言指令,从而提高它们在特定任务上的表现。
尽管大型语言模型(LLM)的好处是无可争议的,但其快速增长的规模和计算需求在训练效率、内存占用和部署成本方面带来了重大挑战。因此,迫切需要开发可扩展的技术,这些技术可以利用这些模型的力量,而不会产生过高的计算开销。
另一方面,具有稀疏激活的专家混合(MoE)的模型显著降低了LLM的计算成本。MoE模型建立在这样一个观察的基础上,即语言模型可以分解为更小的、专门的子模型或“专家”,专注于输入数据的不同方面,从而实现更高效的计算和资源分配。然而,我们发现,传统的、特定任务的微调MoE模型会导致次优性能,通常甚至比具有相同计算成本的微调密集模型更差。其中一个可能的原因是一般预训练和特定任务微调之间的差异。
在本文中,我们阐明了在混合专家(MoE)模型的背景下,指令调整的关键作用,特别是在其对下游任务的成功可扩展性方面。我们通过双重分析证明了这一点:首先,我们扩展了指令调优对特定任务的下游微调的已知好处,说明了与密集等效模型相比,应用于MoE模型时其影响要大得多。其次,我们强调了MoE模型的指令调整阶段的必要性,以超越密集模型在下游和延期任务上的性能。我们独特的融合,FLAN-MOE,是建立在FLAN混合基础上的指令调优模型,它成功地利用了指令调优和稀疏MOE技术的优势。FLAN-MOE有效且高效地扩展语言模型,而无需增加计算资源或内存需求。
我们对我们的模型FLAN-MOE进行了一系列测试,包括自然语言理解、推理和问答。我们的评估框架由三个不同的设置组成:(i)对单个下游任务的模型进行直接微调;(ii)通过上下文内、少样本或零样本泛化下游任务成功进行指令调优;以及(iii)通过随后对单个下游任务的微调来增强指令调整。结果突出了FLAN-MOE在第二和第三种设置中相对于密集型对应物的显著优势。值得注意的是,这些进步在不需要增加计算资源或内存需求的情况下实现。事实上,我们的顶级模型成功地超越了FLAN-PALM等效模型的性能,在四个独立的基准上,每个token只需要三分之一的计算成本。
总之,我们的贡献如下:

  • 我们确定了指令调整在MoE模型功效中的关键作用:
    • 我们证明,在没有指令调整的情况下,与下游任务的密集模型相比,MoE模型的性能不足。
    • 我们强调,当辅以指令调整时,MoE模型在下游任务以及延迟零样本和小样本任务上的性能超过了密集模型。
  • 我们提供了一系列全面的实验,对不同MoE模型在指令调整下的性能进行了比较分析。

2 方法

2.1 模型架构

2.2 指令微调配方

3 实验

3.1 设置

3.2 跨规模的对比研究

3.3 放大FLAN-MOE

4 讨论

4.1 微调策略

4.2 附加分析

5 相关工作

6 结论

在这项工作中,我们引入了FLAN-MOE,这是一种创新的方法,通过使用稀疏专家混合(MOE)技术来增强指令调优语言模型的可扩展性。我们的策略融合了指令微调和MoE的优点,前者提高了特定任务的性能,后者提供了计算效率,同时减少了内存需求。
我们已经通过广泛的自然语言处理(NLP)任务(如自然语言理解、问答和推理)的综合实验证实了FLAN-MOE的有效性。我们的结果始终强调了FLAN-MOE相对于当前最先进方法的卓越性能,标志着在准确性和效率方面取得了实质性进步。值得注意的是,在训练和推理过程中,这些进步是在不需要增加计算资源或内存使用的情况下实现的,通常甚至减少了过程中的资源需求。

你可能感兴趣的:(instruction,Tuning,LLM,语言模型,人工智能,自然语言处理)