Language Models are Few-Shot Learners

Abstract

  • 很多 Pretrain + Fine-tuning 的模型在多种 NLP 任务上取得不错效果,虽然这种模式下网络结构是任务无关的,但仍然需要任务特定的 fine-tuning 数据集。
  • 本文说明了增大语言模型可以提高 few-shot 的性能,具体来说,训练了一个 175 billion 参数的 自回归语言模型(GPT-3),并在测试了其 few-shot 性能。
  • GPT-3 没有任何 fine-tuning,在预测阶段也没有任何参数更新,仅根据提供的样本中的文本(示例或指令)来进行任务推断及预测
  • GPT-3 在多项 NLP 任务上表现出相当不错的性能,也在一些任务上还比较吃力。

Introduction

发展趋势

  • 词向量(Word2Vec,GloVe)输入任务特定的网络结构
  • 基于 RNN 和多层表示以及上下文状态被用于生成更强大的表达(依然应用于任务特定架构)
  • 基于 RNN 和 Transformer 的预训练模型(如 GPT, BERT 等)经过 fine-tuning 之后可以直接应用在具体的任

你可能感兴趣的:(NLP,Papers,NLP,AI,自然语言处理,深度学习,机器学习)