自监督学习(self-supervised learning)

self-supervised learning

  • self-supervised learning
  • BERT
    • BERT基本架构
    • General Language Understanding Evaluation(GLUE)
    • how to use BERT
      • case1
      • case2
      • case3
      • case 4
    • training BERT is challenging
    • pre-training a seq2seq model
    • why does BERT work?
  • Multi-lingual BERT
  • GPT
    • how to use GPT
  • self-supervised learning Beyoud Text

自监督学习(self-supervised learning)_第1张图片
The models become larger and larger:
ELMO(94M)——>BERT(340M)——>GPT-2(1542M)——>Megatron(8B)——>T5(11B)——>Turing NLG(17B)——>GPT-3(175B)——>Switch Transformer(1.6T)

self-supervised learning

对于没有标注的data,想办法分成两部分,一部分作为输入,一部分作为模型标注——self-supervised learning(是一种unsupervised learning)
自监督学习(self-supervised learning)_第2张图片

BERT

BERT基本架构

BERT network架构与Transformer Encoder一样
自监督学习(self-supervised learning)_第3张图片

输入一段文字,对输入文字序列随机盖住(masking)

  • 随机换成某种特殊token(mask)
  • 随机替换成某一个字(random)
  • 两种方法也是随机采用的

mask之后经过BERT得到的也是一串sequence vector,对该向量组进行线性变换(linear transfer),然后经过一个softmax,输出一个分布

如何进行训练?
训练目标是mask的token与原token越接近越好,好比如在词集中对mask token进行预测,最小化预测与真实值的交叉熵

另外一种方法/任务——Next Sentence Prediction

两个句子,经过BERT的输出,再接一个线性层,进行二元分类,去预测这两个句子是否是相接的。
但是这种方法并没有什么作用
自监督学习(self-supervised learning)_第4张图片

自监督学习(self-supervised learning)_第5张图片

General Language Understanding Evaluation(GLUE)

任务集:对模型进行微调并应用在多任务上,以评估模型能力

自监督学习(self-supervised learning)_第6张图片
BERT的应用效果
自监督学习(self-supervised learning)_第7张图片

以人类在各任务上的表现能力为基准(1.0)

how to use BERT

case1

input:seq;output:class——eg:情感分析
自监督学习(self-supervised learning)_第8张图片

BERT参数通过pre-train初始化(unsupervised),并需要少量下游任务的标注资料——semi-supervised
scratch——全部随机初始化
fine-tune——pretrain(loss下降较快且loss较小)
自监督学习(self-supervised learning)_第9张图片

case2

input:seq
output :相同长度的seq
eg:POS tagging
自监督学习(self-supervised learning)_第10张图片

输入一个句子得到相同长度向量组,经过一个线性层再去softmax进行分类(多分类)

case3

input:2 seq
output:1 class
eg:推断关系(立场分析)

error自监督学习(self-supervised learning)_第11张图片
自监督学习(self-supervised learning)_第12张图片

case 4

问答系统(答案一定出现在文章中Extraction-based)
自监督学习(self-supervised learning)_第13张图片自监督学习(self-supervised learning)_第14张图片

输入问题和文章(以sep分隔)
有两个需要随机初始化的向量(其维度与BERT输出vector维度相同)
其中一个向量与文章部分输出向量做内积,再经过softmax得到概率值,概率值最高的vector作为起始的S
同理使用另一个向量找到答案结束位置E
PS:输入有一定的限制,太长的输出运算复杂,一般将文章切割再投入

training BERT is challenging

自监督学习(self-supervised learning)_第15张图片

pre-training a seq2seq model

自监督学习(self-supervised learning)_第16张图片> mass输入句子,通过encoder-decoder还原
自监督学习(self-supervised learning)_第17张图片在C4上训练T5以尝试mass的各种组合
详情可见论文

why does BERT work?

将训练于文字上的BERT应用在蛋白质,DNA,音乐分类上
以DNA分类为例
自监督学习(self-supervised learning)_第18张图片将DNA对应到一些文字上再丢到pre-train的BERT里进行转化和分类

自监督学习(self-supervised learning)_第19张图片效果还不错
自监督学习(self-supervised learning)_第20张图片

Multi-lingual BERT

自监督学习(self-supervised learning)_第21张图片用多种语言预训练BERT

自监督学习(self-supervised learning)_第22张图片
在足够资料量时,不同语言的alignment效果更好自监督学习(self-supervised learning)_第23张图片语言信息藏在Multi-lingual BERT模型内
自监督学习(self-supervised learning)_第24张图片

GPT

如果说BERT是mask训练数据做填空题,那么GPT就是使用训练数据去预测下一个出现的token

自监督学习(self-supervised learning)_第25张图片

给定经过模型得到一个vector h1 经过线性变化和softmax分类得到一个distribution,并希望得到的distribution与正确答案的cross entropy越小越好
以此类推

由于有预测能力,可用于文本生成
GPT demo:在这里插入图片描述

how to use GPT

自监督学习(self-supervised learning)_第26张图片

self-supervised learning Beyoud Text

自监督学习(self-supervised learning)_第27张图片Image-SimCLR
自监督学习(self-supervised learning)_第28张图片

Image-BYOL
自监督学习(self-supervised learning)_第29张图片


你可能感兴趣的:(机器学习—李宏毅,学习,深度学习,机器学习)