文献阅读——BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

这次看到的这篇文献是关于BERT的模型开山设计的文献,通过这篇文献正式了解了有关于BERT的模型设计的起源以及为何设计这个模型,这个模型相比较于之前的模型做了什么改进,这个模型主要是做什么的,通过什么方式进行改进这个模型的,这个模型处理了什么下游任务等等

BERT是一个语言模型,这个语言模型主要是用了进行“表示学习”的。得以于它的强大的表示学习能力;通过预训练得到的BERT模型,通过在特定任务的数据上的fine-tuning之后接入一个output layer之后就可以执行分类任务。
BERT模型的诞生可谓是双向Transformer表示器的有效替代品。
BERT模型可以得到很好的词表示以及句子表示。在现代的语言模型中有基于特征的语言模型,同时也有基于微调的语言模型。其中基于特征的语言模型的代表模型有ELMO模型;基于fine-tuning的语言模型代表模型主要有GPT模型。
但是这些模型也是有他们的缺陷,这些模型并不能有效的获取得到上下文的信息,从而得到强有力文本表示,往往都是从左到右的上文信息,同时ELMO模型得到的词向量的结果是LTR和RTL的简单两层叠加,正如下图中所示,
  1. ELMO的代价是单一的双向模型的代价的两倍;
  2. ELMO这种模型在QA等一些问题上的解决并不好,比方说RTL这种方向的信息传递,这种方向的信息传递就是没用的,因为我们没有办法基于问题来推答案,这种使用以问题作为条件&#x

你可能感兴趣的:(NLP,bert,自然语言处理,深度学习)