[文献阅读]——Improving Language Understanding by Generative Pre-Training

目录

  • 引言
  • 相关工作
    • 半监督学习
    • 无监督预训练
    • 联合训练目标
  • 模型
    • 无监督的预训练
    • 有监督的微调
    • 不同任务的输入
  • 实验
  • 分析

引言

工作的意义:

  • 由于标注数据的缺少,能够直接从未标注数据中提取语言学信息的模型十分重要
  • 实验表明,在大量的有监督任务中,引入无监督信息能够带来性能的提升(word embedding)

比word-level更高级别的信息不容易被提取:

  • 优化函数得不到统一,训练任务各异
  • 大多都是task-specific,且使用了复杂的学习机制和联合学习目标,所以没有很好的迁移能力

本文的贡献:

  • 提出了一种半监督方法,包括了无监督的pretraining和有监督的finetuning
  • 实验了不同的下游任务,和zero-shot的表现,证明效果好

相关工作

半监督学习

word embeddings trained on unlabeled corpora
phrase-level
sentence-level

无监督预训练

Unsupervised pre-training is a special case of semi-supervised learning where the goal is to find a good initialization point instead of modifying the supervised learning objective.(其实理解不了其中的差别,word embedding带来的不也是一个更好的初始化吗?)

先前的工作

  • 使用LSTM模型,具有长距离依赖问题
  • 使用预训练模型得到的隐式向量作为联合的特征,同时又定义了深层的task-specific architecture,参数量巨大

本文的特点

  • 使用transformer
  • 基本不需要增加task-specific parameters

联合训练目标

增加联合的无监督训练目标是半监督学习的替代品(依然理解不了)

模型

无监督的预训练

[文献阅读]——Improving Language Understanding by Generative Pre-Training_第1张图片
个人理解(不是很懂):对于第i个位置,把前k个单词组成的序列输入到transformer,然后得到预测向量(词表大小),表示第i个位置的单词是哪一个

有监督的微调

每一个训练实例由 1. 单词序列 2. 标签 组成,把单词序列输入到transformer中,取出最后一个单词的隐藏层向量作为序列的向量表示,然后经过一个标签层和softmax来得到预测的标签概率分布,计算loss
[文献阅读]——Improving Language Understanding by Generative Pre-Training_第2张图片
在微调过程中,把LM objective作为联合的训练目标,能够:1. 提高见度模型的泛化能力 2. 加快收敛
在这里插入图片描述

不同任务的输入

  • Text classification: 单个句子
  • natural language inference(textual entailment) : [p;delim;h]
  • similarity:[A;delim;B] & [B;delim;A],分别得到两个隐藏层,然后做element-wise addition
  • QA & Commonsense Reasoning:有三个需要输入的:
    • document z
    • question q
    • 许多可能的answers(a1,a2,a3…)
      输入1: [z;q;delim;a1]
      输入2: [z;q;delim;a2]
      每一个输出一个分数,最后做softmax,选择分数最大的那一个

实验

分析

zero-shot:
作者的思路:生成式预训练模型(GPT)为什么有效?——预训练好的模型能够提升模型在下游任务上的语言建模能力,而transformer更加结构化的注意力记忆能够帮助模型更好的迁移

实验结论:LSTM在zero-shot中有更大的方差,而transformer能够带来更有效的归纳偏置(inductive bias)
[文献阅读]——Improving Language Understanding by Generative Pre-Training_第3张图片

你可能感兴趣的:(文献阅读之家)