【论文阅读】Finetuned Language Models Are Zero-Shot Learners

文章目录

  • 前言
  • Abstract
  • Introduction
  • FLAN:Instruction Tuning Improves Zero-shot Learning
  • Conclusion

前言

  • 文章目前还在持续阅读
  • 目前碰到了一些不太理解的概念,正在查阅
  • 原文链接:https://arxiv.org/abs/2109.01652

Abstract

本文探讨了一种提高语言模型 zero-shot 学习能力的简单方法。我们展示了,instruction tuning(指令优化)–将语言模型在通过指示描述的数据集集合上进行微调–可观地提升了在不可见任务上的 zero-shot 性能。

我们采用了一个 137B 参数的预训练语言模型,并在60多个通过自然语言指令模板语言化的NLP数据集上进行指令优化。我们在不可见任务类型上测试了这个 instruction-tuned 模型,我们称之为 FLANFLAN在很大程度上提高了其未修改对应版本的性能,并且在我们评估的25个数据集中的20个上都超过了 zero-shot 175B GPT-3FLAN甚至在 ANLI,RTE,BoolQ,AI2-ARC,OpenbookQA,StoryCloze上超过 few-shot GPT-3很多。消融研究表明,微调数据集的数量、模型规模和自然语言指令是 instruction tuning 成功的关键。

【论文阅读】Finetuned Language Models Are Zero-Shot Learners_第1张图片

  • 在左边的一些语义分析,翻译等任务上进行 instruction tuning,然后拿到右边没有见过的任务类型上进行推理(zero-shot)

【论文阅读】Finetuned Language Models Are Zero-Shot Learners_第2张图片

Introduction

大规模语言模型(GPT-3),已经被证明可以在 few-shot 学习上表现得很好,然而你,他们在 zero-shot 学习上就差得多。比如,GPT-3在阅读理解、问题回答和自然语言推理等任务上的 zero-shot 表现要比 few-shot 表现差得多。一个潜在的原因是,如果没有 few-shot 示例,模型就很难在与预训练数据格式不相似的提示中表现良好。

本文,我们提出了一个可以提高大规模语言模型 zero-shot 能力的简单方法。

  • 利用了直觉:NLP任务可以通过自然语言指令来表示
    • 就是将NLP任务用指令的形式表达,比如:”将xxx翻译成中文“,”这个影评是顶还是踩?“。这些都是指令,同时也是NLP任务

我们采用了一个有 137B 参数的预训练语言模型,并且实施 instruction tuning:使用超过60个由自然语言指令表达的NLP数据集的混合数据 finetune 模型

我们将这个结果模型称为 FLAN,就是 Finetuned Language Net

为了评估FLAN在不可见任务上的 zero-shot 性能,我们根据NLP数据集的任务类型将其分组,并保留每个组进行评估,同时在所有其他组上对FLAN进行指令调优

  • 这种设置能够保证,在 instruction tuning 的时候,没有见过任何推理时的任务。

实验结果:测评显示,FLAN大大提高了基础的137B参数模型的 zero-shot 性能。在评估的25个数据集上,FLAN 的 zero-shot 在20个数据集上都优于 175B 参数的 GPT-3 zero-shot,甚至在 ANLI, RTE, BoolQ, AI2-ARC, OpenbookQA, and StoryCloze上比 GPT-3 的 few-shot 都领先一大截。在消融学习中,我们发现,在 instruction tuning中增加任务集群(组)的数量可以提高不可见任务的性能,而且只有在足够的模型规模下,instruction tuning的好处才会显现出来。

Instruction tuning使用通过微调的监督来改善语言模型对推理时文本交互的响应,来结合 pretrain-finetuneprompting 范式的优点。

【论文阅读】Finetuned Language Models Are Zero-Shot Learners_第3张图片

FLAN:Instruction Tuning Improves Zero-shot Learning

Conclusion

本文探索了一种简单的方法来只基于 instruction,提高大规模语言模型执行zero-shot 任务的能力。我们的 instruction-tuned 模型,FLAN,与GPT-3相比更具优势,并且显示了大规模语言模型遵循 instruction 的潜在能力。

你可能感兴趣的:(论文阅读,信息检索,论文阅读,语言模型,人工智能)