PaLM:大模型的规模探索

原文:PaLM: Scaling Language Modeling with Pathways

作者: ∗ Aakanksha Chowdhery Sharan Narang Jacob Devlin Maarten Bosma (Google)

PaLM:大模型的规模探索_第1张图片

 

一、简介

大型语言模型已被证明在各种自然语言任务中使用few-shot学习取得了显著的性能,这极大地减少了使模型适应特定应用所需的特定任务训练实例的数量。为了进一步了解规模对few-shot学习的影响,我们训练了一个5400亿参数、密集激活的Transformer语言模型,我们称之为Pathways语言模型(PaLM)。

我们使用Pathways在6144个TPU v4芯片上训练PaLM,这是一个新的ML系统,能够在多个TPU Pods上进行高效的训练。我们通过在数百个语言理解和生成基准上取得最先进的几次学习结果来证明扩展的持续好处。在其中一些任务上,PaLM 540B实现了突破性的性能,在一套多步骤推理任务上超过了微调的最先进水平,并在最近发布的BIG-bench基准上超过了人类的平均性能。大量的BIG-bench任务显示了模型规模的不连续改进,这意味着当我们扩展到最大的模型时,性能陡然提高。PaLM在多语言任务和源代码生成方面也有很强的能力,我们在一系列的基准测试中证明了这一点。我们还对偏差和毒性进行了全面的分析,并研究了与模型规模有关的训练数据记忆的程度。最后,我们讨论了与大型语言模型有关的伦理考虑,并讨论

你可能感兴趣的:(大模型(预训练模型),开发语言)