从GPT到GPT3的论文笔记

从GPT到GPT3的论文笔记_第1张图片

GPT是基于transformer的decoder的,GPT就像传统的语言模型一样,一次只输出一个单词(token)。这种模型之所以效果好是因为在每个新单词产生后,该单词就被添加在之前生成的单词序列后面,这个序列会成为模型下一步的新输入。这种机制叫做自回归(auto-regression),GPT-2,以及一些诸如 TransformerXL 和 XLNet 等后续出现的模型,本质上都是自回归模型,而 BERT 则不然。这就是一个权衡的问题了。虽然没有使用自回归机制,但 BERT 获得了结合单词前后的上下文信息的能力,从而取得了更好的效果。

Open AI论文的特征就是大量的实验部分,在技术上很难(复现难),希望解决更大的问题。

GPT和BERT的区别还在于目标函数的选取,GPT预测未来,BERT预测中间(完形填空)。

GPT2还是做语言模型,容量扩增到15亿。但是在做到下游任务的时候,会用一个叫做zero-shot的设定,zero-shot是说,在做到下游任务的时候,不需要下游任务的任何标注信息,那么也不需要去重新训练已经预训练好的模型。这样子的好处是我只要训练好一个模型,在任何地方都可以用。

如果作者就是在GPT1的基础上用一个更大的数据集训练一个更大的模型,说我的结果比Bert好一些,可能也就好那么一点点,不是好那么多的情况下,大家会觉得gpt2这篇文章就没什么意思了,工程味特别重。那么我换一个角度,选择一个更难的问题,我说做zero-shot。虽然结果可能没那么厉害了,没那么有优势,但是新意度一下就来了。

GPT-3延续之前的单向语言模型训练方式,只不过这次把模型尺寸增大到了1750亿,并且使用45TB(过滤后为570G)的数据进行训练。

同时,GPT-3主要聚焦于更通用的NLP模型,解决当前BERT类模型的两个缺点:

  1. 对领域内有标签数据的过分依赖:虽然有了预训练+精调的两段式框架,但还是少不了一定量的领域标注数据,否则很难取得不错的效果,而标注数据的成本又是很高的。
  2. 对于领域数据分布的过拟合:在精调阶段,因为领域数据有限,模型只能拟合训练数据分布,如果数据较少的话就可能造成过拟合,致使模型的泛华能力下降,更加无法应用到其他领域。

因此GPT-3的主要目标是用更少的领域数据、且不做梯度更新和微调。

在实验中发现,随着模型的增大,过拟合现象并没有加深,这是反直觉的。对于下游任务,如果是固定答案,则格式为 ANSWER 或 A。对于不固定答案,它使用Beam Search,一种受限的宽度优先搜索方法。

GPT系列的局限性也是前面提到的,只能往前看,不能双向学习。

你可能感兴趣的:(笔记,深度学习,自然语言处理,语言模型,nlp)