基于Transformers的自然语言处理入门【四】-GPT

基于Transformers的自然语言处理入门【四】-GPT

  • 1 GPT模型
  • 2 语言模型
  • 3 基于Transformer的语言模型
  • 4 GPT2详解

1 GPT模型

OpenAI提出的GPT-2模型(https://openai.com/blog/better-language-models/)能够写出连贯并且高质量的文章,比之前语言模型效果好很多。GPT-2是基于Transformer搭建的,相比于之前的NLP语言模型的区别是:基于Transformer大模型、,在巨大的数据集上进行了预训练。

2 语言模型

  • 自编码语言模型(auto-encoder):自编码语言模型典型代表就是BERT。自编码语言模型通过随机Mask输入的部分单词,然后预训练的目标是预测被Mask的单词,不仅可以融入上文信息,还可以自然的融入下文信息。
  • 自回归语言模型(auto-regressive):语言模型根据输入句子的一部分文本来预测下一个词。日常生活中最常见的语言模型就是输入法提示,它可以根据你输入的内容,提示下一个单词。

自编码语言模型的优缺点:

  1. 优点:自然地融入双向语言模型,同时看到被预测单词的上文和下文
  2. 缺点:训练和预测不一致。训练的时候输入引入了[Mask]标记,但是在预测阶段往往没有这个[Mask]标记,导致预训练阶段和Fine-tuning阶段不一致。

自回归语言模型的优点和缺点:

  1. 优点:对于生成类的NLP任务,比如文本摘要,机器翻译等,从左向右的生成内容,天然和自回归语言模型契合。
  2. 缺点:由于一般是从左到右(当然也可能从右到左),所以只能利用上文或者下文的信息,不能同时利用上文和下文的信息。

GPT-2属于自回归语言模型,相比于手机app上的输入提示,GPT-2更加复杂,功能也更加强大。因为,OpenAI的研究人员从互联网上爬取了40GB的WebText数据集,并用该数据集训练了GPT-2模型。我们可以直接在AllenAI GPT-2 Explorer网站上试用GPT-2模型。

3 基于Transformer的语言模型

正如我们在图解Transformer所学习的,原始的Transformer模型是由 Encoder部分和Decoder部分组成的,它们都是由多层transformer堆叠而成的。原始Transformer的seq2seq结构很适合机器翻译,因为机器翻译正是将一个文本序列翻译为另一种语言的文本序列。
但如果要使用Transformer来解决语言模型任务,并不需要完整的Encoder部分和Decoder部分,于是在原始Transformer之后的许多研究工作中,人们尝试只使用Transformer Encoder或者Decoder,并且将它们堆得层数尽可能高,然后使用大量的训练语料和大量的计算资源(数十万美元用于训练这些模型)进行预训练。比如BERT只使用了Encoder部分进行masked language model(自编码)训练,GPT-2便是只使用了Decoder部分进行自回归(auto regressive)语言模型训练。
由于BERT是基于Encoder构建的,BERT使用是Self Attention层,而GPT2基于Decoder构建,GPT-2 使用masked Self Attention。一个正常的 Self Attention允许一个位置关注到它两边的信息,而masked Self Attention只让模型看到左边的信息。

4 GPT2详解

  • 输入编码: 词向量+位置编码。输入embedding,开始时,我们会在嵌入矩阵查找第一个 token 的 embedding。在把这个 embedding 传给模型的第一个模块之前,我们还需要融入位置编码(Transformer),这个位置编码能够指示单词在序列中的顺序。
    基于Transformers的自然语言处理入门【四】-GPT_第1张图片
  • 多层Decoder:第一层Decoder现在可以处理 token所对应的向量了:首先通过 Self Attention 层,然后通过全连接神经网络。一旦Transformer 的第1个Decoder处理了 token,依旧可以得到一个向量,这个结果向量会再次被发送到下一层Decoder。

基于Transformers的自然语言处理入门【四】-GPT_第2张图片

  • Decoder中的Self-Attention: Decoder中包含了Masked Self-Attention,由于Mask的操作可以独立进行,而所谓的Masked self attention指的的是:将mask位置对应的的attention score变成一个非常小的数字或者0,让其他单词再self attention的时候(加权求和的时候)不考虑这些单词。

于是我们先独立回顾一下self-attention操作。语言严重依赖于上下文。self-attention所做的事情是:它通过对句子片段中每个词的相关性打分,并将这些词的表示向量根据相关性加权求和,从而让模型能够将词和其他相关词向量的信息融合起来。
举个例子,如下图所示,最顶层的Decoder中的 Self Attention 层在处理单词 it 的时候关注到 a robot。于是self-attention传递给后续神经网络的it 向量,是3个单词对应的向量和它们各自分数的加权和。

Self-Attention 沿着句子中每个 token 进行处理,主要组成部分包括 3 个向量。
Query:Query 向量是由当前词的向量表示获得,用于对其他所有单词(使用这些单词的 key 向量)进行评分。
Key:Key 向量由句子中的所有单词的向量表示获得,可以看作一个标识向量。
Value:Value 向量在self-attention中与Key向量其实是相同的。

一个粗略的类比是把它看作是在一个文件柜里面搜索,Query 向量是一个便签,上面写着你正在研究的主题,而 Key 向量就像是柜子里的文件夹的标签。当你将便签与标签匹配时,我们取出匹配的那些文件夹的内容,这些内容就是 Value 向量。但是你不仅仅是寻找一个 Value 向量,而是找到一系列Value 向量。
将 Query 向量与每个文件夹的 Key 向量相乘,会为每个文件夹产生一个分数(从技术上来讲:点积后面跟着 softmax)。我们将每个 Value 向量乘以对应的分数,然后求和,就得到了 Self Attention 的输出。

【参考】DataWhale

你可能感兴趣的:(自然语言处理,自然语言处理,机器学习,人工智能)