BERT: Pre-training of Deep Bidirectional Transformers for Language Understading

Abstract

BERT: Bidrectional Encoder Representations from Transformers.
BERT与之前的语言表示模型不同,它通过在所有层同时依赖左边和右边的上下文来预训练一个深度双向语言表示。

通过这种方式预训练的表示只需要一个额外的输出层来fine-tune一下就可以在众多任务上实现SOTA。

BERT一共在7个自然语言处理任务上获得SOTA结果,并且将GLUE benchmark提高到80.4(绝对值提高7.6%),MultiNLI accuracy提高到86.7%(绝对值提高5.6%),SQuAD v1.1测试集F1提高到93.2(绝对值提高1.5),比真人得分还高2.0.

Introduction

将预训练语言表示应用到下游任务有两种策略:

  • feature based
  • fine-tuning

Feature based方法(例如ELMo)使用任务特定的架构,将预训练表示作为补充特征。Fine-tuning方法(例如GPT)引入最少量的下游任务特定参数,然后在下游任务上fine-tune预训练参数。他们在预训练时使用相同的目标函数,因为他们都使用单

你可能感兴趣的:(NLP,Papers,NLP,AI,人工智能,神经网络,算法,深度学习,BERT)