论文浅尝 | 以包含思维过程的提示激发大语言模型的推理能力

转载公众号 | THUKE


本期由李瀚明同学解读Google Research Brain Team的论文:Chain-of-Thought Prompting Elicits Reasoning in Large Language Models.

论文浅尝 | 以包含思维过程的提示激发大语言模型的推理能力_第1张图片

【论文地址】

https://arxiv.org/abs/2201.11903

推荐理由

语言模型的参数规模对于其表现十分重要。然而,仅仅是提升模型的大小,并不足以在许多更具挑战性的任务上得到更好的性能,这其中就包括算术、常识或符号等一系列推理问题。

这篇论文提出,可以通过让模型生成思维过程(Chain of Thought,CoT),也就是中间步骤的方式,提升模型在复杂推理任务上的表现。

背景介绍

这个想法受到两种先前的方法启发。首先,对于算术推理的任务,以往的研究提出可以通过从头训练模型,或是微调预训练模型的方式,让模型以自然语言的形式输出中间步骤;此外,大语言模型不经过微调,而是通过提示(Prompt)进行小样本学习的范式已经被广泛关注与研究。在这样的背景下,本篇论文提出,用提示的方式,无需训练或微调,让模型在推理任务中从输出中间步骤受益。

方法

论文浅尝 | 以包含思维过程的提示激发大语言模型的推理能力_第2张图片

对于算术推理的任务,上图展示了使用不含CoT的提示和含有CoT的提示分别是如何解决问题的。左边的提示中,首先以样例的形式给出了一个问题和它的答案,随后给出真正的问题,让模型以相似的思路去解决;而在右侧的提示中,唯一的区别是样例的答案不再是直接给出“答案是几”的结果,而是在得到最终结果之前,输出了“开始有几个,又买了多少个”的中间步骤。于是模型有样学样,在对真正的问题时给出回答时,同样输出了中间步骤。实验表明,这样的方法能够大大提升模型应对复杂推理任务时的表现,甚至对于部分模型与数据集,超过先前监督学习方法得到的最好性能。

具体来说,对于算术、常识与符号推理的多个数据集,作者分别挑选了一些样例,并手动构建了CoT形式的回答。在进行推理时,这些手动构建出的问答对就与需要推理的问题拼接,作为提示。

实验分析


论文浅尝 | 以包含思维过程的提示激发大语言模型的推理能力_第3张图片

作者在算术、常识、符号推理三个任务上进行了实验。上图展示的就是算术推理的实验结果。其中,三行三列共九张小图,每一列对应一个评测所用的模型,从左到右分别是LaMDA,GPT,PaLM;每一行对应一个算术推理的数据集。每张小图中,横轴是选取的该模型的参数规模,纵轴则展示了推理问题被正确解答的比例,橙色虚线代表已有的监督学习方法获得的最佳性能。

从这些实验结果中,作者得到了三个结论:

1. 利用CoT提示提升表现,是模型的一种涌现能力(Emergent Ability)。也就是说,只有参数规模足够大的模型,才能从CoT的提示方法中获益。表现在上图的实验结果中,对于某个模型在某个算术推理数据集上的表现,只有选取该模型参数量足够大的版本时,CoT的性能才会明显高出使用标准提示的性能。

2. CoT提示在解决更复杂的问题时,对模型表现的提升更大。在上图的实验结果中,作为基准的标准提示在GSM8K数据集上的表现是最低的,而CoT在这个数据集上可以得到最明显的性能提升。

3. 与先前有监督学习的方法比较,CoT作为一种不需要额外的训练或微调的方法,甚至能得到更优的性能。

总结

本文针对大语言模型解决复杂推理问题存在的困难,提出在提示给出的样例中加入解答的思考步骤,引导模型在推理时进行相应的输出,从而提升回答的准确率。实验表明,CoT形式的提示不仅相比于普通的提示有性能提升,在应用于一些任务时,作为一种不需要额外训练或微调的方法,甚至能超过先前最好的有监督方法。这无疑非常令人震撼。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

论文浅尝 | 以包含思维过程的提示激发大语言模型的推理能力_第4张图片

点击阅读原文,进入 OpenKG 网站。

你可能感兴趣的:(语言模型,人工智能,深度学习,机器学习,计算机视觉)