Giraffe: Adventures in Expanding Context Lengths in LLMs

本文是LLM系列文章,针对《Giraffe: Adventures in Expanding Context Lengths in LLMs》的翻译。

Giraffe:LLM中扩展上下文长度的冒险

  • 摘要
  • 1 引言
  • 2 相关工作
  • 3 评估长下文的外推性
  • 4 上下文长度外推技术
  • 5 结果与讨论
  • 6 结论与不足

摘要

依赖于注意力机制的现代大型语言模型(LLM)通常使用固定的上下文长度进行训练,这对它们在评估时可以处理的输入序列的长度施加了上限。要在长于训练时间上下文长度的序列上使用这些模型,可以使用不断增长的上下文长度外推方法家族中的技术,其中大多数方法侧重于修改注意力机制中使用的位置编码系统,以指示标记或激活在输入序列中的位置。我们对基于LLaMA或LLaMA2模型的现有上下文长度外推方法进行了广泛的调查,并介绍了我们自己的一些设计——特别是一种用于修改位置编码基础的新截断策略。
我们使用三个新的评估任务(FreeFormQA、AlteredNumericQA和LongChat Lines)以及困惑来测试这些方法,我们发现作为LLM的长上下文性能的衡量标准,困惑的细粒度较低。我们在HuggingFace上将这三项任务作为数据集公开发布。我们发现线性缩放是扩展上下文长度的最佳方法,并表明在评估时使用更长的缩放可以获得进一步的增益。我们还在截断基中发现了有前景的外推能力。为了支持这一领域的进一步研究,我们发布了三个新的13B参数长上下文模型,我们称之为长颈鹿:从LLaMA-13B基础训练的4k和16k上下文模型,以及从LLaMA2-13B基础训练的32k上下文模型。我们还发布了代码来复制我们的结果。

1 引言

2 相关工作

3 评估长下文的外推性

4 上下文长度外推技术

5 结果与讨论

6 结论与不足

在本文中,我们研究了多种方法来微调预训练的基础LLaMA和LLaMA2 LLM,它们具有有限的上下文长度,从而能够将零样本外推到新的更长的上下文长度。我们比较了使用困惑的方法,以及两个探索长上下文性能的自定义任务;我们发现,与困惑相比,自定义任务提供了对长上下文性能的更细粒度的理解。我们表明,线性插值方法在上下文长度外推方面表现最好,并在使用新基(我们称之为截断基)的潜力方面找到了一些希望。我们发布了三个我们称之为Giraffe的模型,它们使用线性插值的方法扩展了基本LLaMA和LLaMA2模型的上下文长度。
在本文工作的基础上还有很大的发展空间。我们注意到,随着上下文长度的增加,所有方法的评估任务的准确性都会下降,尽管困惑通常是合理的,并且模型仍然可以产生连贯的输出。这是一个值得关注的缺点,在我们看来,这对于声称模型的“真实”长上下文外推能力是必要的。
这项工作的局限性在于,我们只对单个文档数据集进行了困惑分析。未来的工作可以在其他数据集上复制这种分析。此外,我们特别关注从预训练的基本模型进行的上下文长度外推,特别是用RoPE位置编码训练的LLaMA和LLaMA2模型。未来的工作可以调查本文的分析是否扩展到其他位置编码类型和模型。未来的工作也可以解决线性插值方法的局限性。我们在LongChat Lines任务中看到了一些证据,特别是随着比例因子的增加,准确性下降。这种方法的比例因子大小的限制是多少?是否有一点超出了它根本无法改善它可以处理的上下文范围?此外,似乎显示出真正外推能力迹象的截断基方法是否可以进行修改,以获得与线性插值方法相同或超过线性插值方法?我们相信这些是未来感兴趣的一些潜在方向。

你可能感兴趣的:(LLM,语言模型,人工智能)