预训练语言模型概述(持续更新ing...)

诸神缄默不语-个人CSDN博文目录

最近更新时间:2022.10.9
最早更新时间:2022.10.8

文章目录

  • 1. 万物起源-文本表征和词向量
  • 2. 万恶之源transformers
  • 3. 训练目标
  • 4. Noising Functions
  • 5. Directionality of Representations
  • 6. Typical Pre-training Methods
    • 6.1 Left-to-Right Language Model
    • 6.2 Masked Language Models
    • 6.3 Prefix and Encoder-Decoder
  • 7. 各模型总结
  • 8. 本文撰写过程中使用的参考资料
  • 9. 还没看,但是感觉可能会用得到的参考资料

1. 万物起源-文本表征和词向量

2. 万恶之源transformers

3. 训练目标

  1. Standard Language Model (SLM):用multi-class one-label分类任务范式,用autogressive范式,每次预测序列中的下一个token。常用于left to right模型,但也可以用于其他顺序。
  2. denoising objectives:对输入进行扰动,预测原始输入
    1. Corrupted Text Reconstruction (CTR):仅计算扰动部分的损失函数
    2. Full Text Reconstruction (FTR):计算所有输入文本的损失函数(无论是否经扰动)

其他各种Auxiliary Objective:
预训练语言模型概述(持续更新ing...)_第1张图片
预训练语言模型概述(持续更新ing...)_第2张图片

4. Noising Functions

预训练语言模型概述(持续更新ing...)_第3张图片

  1. Masking:mask可以是根据分布随机生成的,也可以根据prior knowledge设计(如上图中的实体)。
  2. Replacement:span由另一种信息而非[MASK]填充
  3. Deletion:常与FTR loss共用
  4. Permutation

5. Directionality of Representations

  1. Left-to-Right
  2. Bidirectional
  3. 混合

应用这些策略的方式:attention masking
预训练语言模型概述(持续更新ing...)_第4张图片

6. Typical Pre-training Methods

预训练语言模型概述(持续更新ing...)_第5张图片

预训练语言模型概述(持续更新ing...)_第6张图片

6.1 Left-to-Right Language Model

简称L2R LMs(AR LM变体)

预测下一个单词,或计算当前一系列单词出现的概率:
在这里插入图片描述

right-to-left LM类似:
在这里插入图片描述

6.2 Masked Language Models

简称MLM

6.3 Prefix and Encoder-Decoder

用全连接mask编码输入,以AR方式解码输出。

  1. Prefix Language Model:在同一套参数下,输出部分是left-to-right,输入部分是全连接mask。输入部分常用CTR目标,输出部分常用标准conditional language modeling目标
  2. Encoder-decoder:与Prefix Language Model类似,但编码和解码用不同的模型参数

7. 各模型总结

预训练语言模型概述(持续更新ing...)_第7张图片

8. 本文撰写过程中使用的参考资料

  1. Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing

9. 还没看,但是感觉可能会用得到的参考资料

  1. Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
  2. Pre-trained Models for Natural Language Processing: A Survey
  3. A primer on pretrained multilingual language models
  4. Language Models are Unsupervised Multitask Learners

你可能感兴趣的:(人工智能学习笔记,语言模型,深度学习,人工智能,自然语言处理,NLP)