【NLP】GPT原理

一、GPT简介

1、含义

GPT是“Generative Pre-Training”的简称,是指的生成式的预训练。GPT采用两阶段过程,第一个阶段是利用语言模型进行预训练,第二阶段通过Fine-tuning的模式解决下游任务。下图展示了GPT的预训练过程。

2、GPT与ELMO区别与联系

(1)相同点:GPT和ELMO是类似的都是两阶段模型。
(2)不同点:首先,特征抽取器不是用的RNN,而是用的Transformer,它的特征抽取能力要强于RNN;其次,GPT的预训练虽然仍然是以语言模型作为目标任务,但是采用的是单向的语言模型,这对于完成阅读理解等任务存在缺陷。

二、GTP网络结构

1、第一阶段

下图讲GPT如何进行第一阶段的预训练,Embedding——>Transformer——>Text Production。
【NLP】GPT原理_第1张图片

2、第二阶段

(1)首先,对于不同的下游任务来说,本来可以任意设计自己的网络结构,现在不行了,把任务的网络结构改造成和GPT的网络结构是一样的。
(2)其次,在做下游任务的时候,利用第一步预训练好的参数初始化GPT的网络结构,这样通过预训练学到的语言学知识就被引入到任务里了。
(3)再次,使用任务去训练这个网络,对网络参数进行Fine-tuning,使得这个网络更适合解决任务的问题。
【NLP】GPT原理_第2张图片

三、GPT网络结构改造

对于NLP各种花样的不同任务,改造任务的网络结构使其靠近GPT的网络结构。
【NLP】GPT原理_第3张图片

参考文献:网易云课堂NLP课程。

你可能感兴趣的:(NLP)