论文阅读:GPT-Improving Language Understanding by Generative Pre-Training

  • Abstract
    • 通过在不同的无标记的文本语料库上生成语言模型的预训练,然后对每个任务进行区分性调整
    • 在微调期间使用任务感知的输入转换,同时对模型体系结构进行最小的更改
  • 1.INTRODUCTION
    • 未标记文本的单词级信息仍旧是一个挑战
      • 1.First, it is unclear what type of optimization objectives are most effective at learning text representations that are useful for transfer.
      • 2.Second, there is no consensus on the most effective way to transfer these learned representations to the target task.
    • 探索一种结合无监督预训练和监督微调的半监督语言理解任务方法。使用未标记数据上的语言模型去学习神经网络模型的初始参数。使用相应的监督目标对参数进行调整,来适应目标任务
    • 模型结构使用Transformer。使用 traversal-style approaches 方法 [52] 派生的特定于任务的输入自适应方法。
      • 该方法把结构化文本输入处理为单个连续序列。
  • 2.RELATE WORK
    • NLP半监督学习
    • 无监督的预训练:目标是找到一个好的初始点
      • 预训练是一种正则化方案
    • 辅助训练目标
      • collobert 和 weston 的早期工作 [10] 使用了各种各样的辅助 NLP 任务,如 POS 标记、分块、命名实体识别和语言建模,以改进语义角色标记。最近,REI[50]在目标任务目标中添加了一个辅助语言建模目标,并演示了序列标记任务的性能的提升。
  • 3.Framework 
    • 两个阶段:

      论文阅读:GPT-Improving Language Understanding by Generative Pre-Training_第1张图片

      • 第一阶段:在大语料库上学习大容量语言模型
      • 第二阶段:微调阶段
    • 3.1无监督预训练
      • 给定无监督 tokens 集合u={u1,...,un}u=\{u_{1},...,u_{n}\}u={u1​,...,un​},使用标准语言模型目标(language modeling objective)来最大化以下似然函数:

      • 其中,k是文本窗尺寸,条件概率 P 采用参数为 Θ\ThetaΘ 的神经网络建模。这些参数用 SGD 训练 [15]。
      • 在我们的实验中,我们使用多层 Transformer decoder[34] 作为语言模型,这是 Transformer 的变体 [62]。该模型在输入上下文 tokens 上应用一个多头自关注操作 (multi-headed self-attention operation),随后是位置前馈层 (position-wise feedforward layers),以在目标 tokens 上生成一个输出分布:

        论文阅读:GPT-Improving Language Understanding by Generative Pre-Training_第2张图片

      • 其中,U={u−k,...,u−1}U=\{u_{-k},...,u_{-1}\}U={u−k​,...,u−1​} 是 tokens 的文本向量,n 是网络层数,WeW_{e}We​是 token 的嵌入矩阵(embedding matrix),WpW_{p}Wp​是嵌入矩阵的位置编码。
    • 3.2监督微调
      • 假设有个带标签的数据集C,每个实例是有X1...XM组成,包含一个标签y。先通过预训练模型得到一个embed输出,附加一个线性预测层预测y:

      • 然后最大化如下函数:

      • 并且发现把语言模型当做微调的辅助目标有助于
        • 1.改进模型的泛化
        • 2.加速收敛
        • 优化目标: LI是语言模型,L2是优化目标

      • 在微调过程中唯一额外的参数是Wy和分隔符标记的嵌入
    • 3.3特定于任务的输入转换
      • 比如文本分类可以直接用如图进行微调。但对于问答或文本继承,具有结构化输入,如有序的句子对,或文档 问题答案的三元组。
      • 由于预训练的模型是针对连续文本进行训练的,
      •  [44][52]把结构化输入转换成一个有序的序列。
        • eg:

          论文阅读:GPT-Improving Language Understanding by Generative Pre-Training_第3张图片

  • 4. 实验
    • 4.1设置
      • 无监督预训练 我们使用 BooksCorpus 数据集 [71] 来训练语言模型
      • 另一种数据集 1B Word Benchmark
      • 模型说明:

        论文阅读:GPT-Improving Language Understanding by Generative Pre-Training_第4张图片

        • 768维 12head pos_fn:3072维
        • bpe l2正则化 w=0.01
        • 激活函数私有GELU

          论文阅读:GPT-Improving Language Understanding by Generative Pre-Training_第5张图片

      • 微调信息
        • 0.1 droupout 6.25e-5 batch 32 线性学习率衰减 预热 0.2% 训练 0.5
    • 4.2模型微调
      •  
  • 6.结论
    • 我们引入了一个框架,通过生成性预训练和区分性微调,以单一未知任务模型实现强大的自然语言理解。过对不同语料库进行长距离连续文本的预先训练,我们的模型获得了重要的世界知识和处理长距离依赖关系的能力,然后成功地将这些知识转移到解决特定性任务

你可能感兴趣的:(nlg_paper,GPT,预训练,GPT1,LM)