Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling

本文是LLM系列文章,针对《Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling》的翻译。

重新表述Web:计算和数据高效语言建模的诀窍

  • 摘要
  • 1 引言
  • 2 相关工作
  • 3 WRAP:网络重述增强预训练
  • 4 困惑度评估
  • 5 零样本任务
  • 6 分析和消融实验
  • 7 局限性和机遇
  • 8 结论

摘要

大型语言模型是在大量的网络碎片上训练的,这些碎片通常是非结构化的、嘈杂的和措辞不当的。当前的缩放定律表明,从这些数据中学习需要大量的计算和数据,这些计算和数据会随着训练模型的大小而增长。这是不可行的,因为与预训练相关的大量计算成本和持续时间,以及网络上高质量数据的稀缺性。在这项工作中,我们提出了网络转述增强预训练(WRAP),它使用现成的指令调整模型,提示以特定的风格(如“像维基百科”或“问答格式”)转述网络上的文档,以联合对LLM进行真实和合成转述的预训练。首先,我们展示了在C4数据集上使用WRAP,它是自然噪声的,可以将预训练速度提高约3倍。在相同的训练前计算预算下,它在Pile的不同子集中平均提高了10%以上的困惑,并在13个任务中提高了2%以上的零样本问答准确率。其次,我们研究了重新措辞风格对模型性能的影响,深入了解了训练数据的组成如何影响OOD环境中LLM的性能。我们的收益归因于这样一个事实,即重新措辞的合成数据比真正的数据具有更高的效用,因为它(i)包含了密切反映下游评估风格的风格多样性,以及(ii)比网络抓取的数据具有更好的“质量”。

1 引言

2 相关工作

3 WRAP:网络重述增强预训练

4 困惑度评估

5 零样本任务

6 分析和消融实验

7 局限性和机遇

8 结论

强大的语言模型正在对真实数据和合成数据的组合进行预训练。使用合成数据可以将公平性、偏见和风格(如指令遵循)等理想属性直接烘焙到数据中,从而无需专门调整训练算法。这提供了一种将语言模型与人类价值观相一致的替代方法。最近,人们对合成数据的兴趣有所上升,尤其是对指令调整语言模型的兴趣,这是值得注意的,同时研究人员也将其用于预训练。当我们过渡到这种范式时,了解提供给我们模型的数据的属性至关重要。本文旨在为LLM预训练中使用不同的合成风格数据提供全面的指导。我们从两个有利的角度深入研究了它的意义:(1)在高质量数据稀缺的情况下,合成改写比仅仅重复现有数据更有价值;(2) 合成数据有助于在不同的文本域上进行泛化,并有助于生成在预训练数据集中代表性不足的风格的文本。当从业者为训练模型生成合成数据时,他们将面临重要而昂贵的设计选择——(i)合成数据生成器的质量有多重要?;二如何平衡真实数据和综合数据?(iii)关于合成数据的训练何时在轮次中达到递减的回报点?这项工作迈出了回答这些问题的第一步。
相反,必须注意合成数据的固有局限性和机会。我们强调了两个局限性:(1)生成成本仍然很大,需要强大的LM;(2)在生成的数据中加强多样性具有挑战性。在这项工作中,我们利用网络的自然多样性来生成合成的“重新短语”。这限制了模型学习新的“知识”,并仅通过提供高质量的投入来增强学习过程。而过去的工作需要对模型的盲点有更复杂的理解,这可能会对预训练数据分布中包含的知识产生偏差。尽管如此,我们还是展示了合成数据在计算和数据大小方面提高LLM训练效率的潜力。

你可能感兴趣的:(LLM,语言模型,人工智能,机器学习)