[学习笔记]刘知远团队大模型技术与交叉应用L3-Transformer_and_PLMs

RNN存在信息瓶颈的问题。
注意力机制的核心就是在decoder的每一步,都把encoder的所有向量提供给decoder模型。
[学习笔记]刘知远团队大模型技术与交叉应用L3-Transformer_and_PLMs_第1张图片

具体的例子

先获得encoder隐向量的一个注意力分数。

[学习笔记]刘知远团队大模型技术与交叉应用L3-Transformer_and_PLMs_第2张图片

注意力机制的各种变体

一:直接点积
二:中间乘以一个矩阵
三:Additive attention:使用一层前馈神经网络来获得注意力分数

Transformer概述

[学习笔记]刘知远团队大模型技术与交叉应用L3-Transformer_and_PLMs_第3张图片

输入层

BPE(Byte Pair Encoding)

[学习笔记]刘知远团队大模型技术与交叉应用L3-Transformer_and_PLMs_第4张图片
BPE提出主要是为了解决OOV的问题:会出现一些在词表中没有出现过的词。

[学习笔记]刘知远团队大模型技术与交叉应用L3-Transformer_and_PLMs_第5张图片

位置编码Positional Encoding

[学习笔记]刘知远团队大模型技术与交叉应用L3-Transformer_and_PLMs_第6张图片

Transformer Block

[学习笔记]刘知远团队大模型技术与交叉应用L3-Transformer_and_PLMs_第7张图片

attention层

[学习笔记]刘知远团队大模型技术与交叉应用L3-Transformer_and_PLMs_第8张图片
不进行scale,则方差会很大。则经过softmax后,有些部分会很尖锐,接近1。

[学习笔记]刘知远团队大模型技术与交叉应用L3-Transformer_and_PLMs_第9张图片

多头注意力机制

[学习笔记]刘知远团队大模型技术与交叉应用L3-Transformer_and_PLMs_第10张图片

Transformer Decoder Block

mask保证了文本生成是顺序生成的。
[学习笔记]刘知远团队大模型技术与交叉应用L3-Transformer_and_PLMs_第11张图片

其他Tricks

[学习笔记]刘知远团队大模型技术与交叉应用L3-Transformer_and_PLMs_第12张图片

Transformer的优缺点

缺点:模型对参数敏感,优化困难;处理文本复杂度是文本长度的平方数量级。
[学习笔记]刘知远团队大模型技术与交叉应用L3-Transformer_and_PLMs_第13张图片

预训练语言模型PLM

预训练语言模型学习到的知识可以非常容易地迁移到下游任务。
word2vec是第一个预训练语言模型。现在绝大多数语言模型都是基于Transformer了,如Bert。

PLMs的两种范式

1.feature提取器:预训练好模型后,feature固定。典型的如word2vec和Elmo
2.对整个模型的参数进行更新
[学习笔记]刘知远团队大模型技术与交叉应用L3-Transformer_and_PLMs_第14张图片

GPT

[学习笔记]刘知远团队大模型技术与交叉应用L3-Transformer_and_PLMs_第15张图片
[学习笔记]刘知远团队大模型技术与交叉应用L3-Transformer_and_PLMs_第16张图片

BERT

不同于GPT,BERT是双向的预训练模型。使用的是基于Mask的数据。
它的最主要的预训练任务是预测mask词。
还有一个是预测下一个句子。

[学习笔记]刘知远团队大模型技术与交叉应用L3-Transformer_and_PLMs_第17张图片
[学习笔记]刘知远团队大模型技术与交叉应用L3-Transformer_and_PLMs_第18张图片

PLMs after BERT

BERT的问题:
尽管BERT采用了一些策略,使mask可能替换成其他词或正确词。但是这并没有解决mask没有出现在下游任务。
预训练效率低。
窗口大小受限。
[学习笔记]刘知远团队大模型技术与交叉应用L3-Transformer_and_PLMs_第19张图片

相关改进工作

RoBERTa指出bert并没有完全训练。它可以被训练得更加鲁棒。
[学习笔记]刘知远团队大模型技术与交叉应用L3-Transformer_and_PLMs_第20张图片

[学习笔记]刘知远团队大模型技术与交叉应用L3-Transformer_and_PLMs_第21张图片

MLM任务的应用

跨语言对齐

[学习笔记]刘知远团队大模型技术与交叉应用L3-Transformer_and_PLMs_第22张图片

跨模态对齐

[学习笔记]刘知远团队大模型技术与交叉应用L3-Transformer_and_PLMs_第23张图片

PLM前沿

GPT3

[学习笔记]刘知远团队大模型技术与交叉应用L3-Transformer_and_PLMs_第24张图片
[学习笔记]刘知远团队大模型技术与交叉应用L3-Transformer_and_PLMs_第25张图片

T5

统一所有NLP任务为seq to seq的形式

MoE

每次模型调用部分子模块来处理。涉及调度,负载均衡。
[学习笔记]刘知远团队大模型技术与交叉应用L3-Transformer_and_PLMs_第26张图片

Transformers教程

介绍

[学习笔记]刘知远团队大模型技术与交叉应用L3-Transformer_and_PLMs_第27张图片

使用Transformers的Pipeline

[学习笔记]刘知远团队大模型技术与交叉应用L3-Transformer_and_PLMs_第28张图片

Tokenization

[学习笔记]刘知远团队大模型技术与交叉应用L3-Transformer_and_PLMs_第29张图片

常用API

[学习笔记]刘知远团队大模型技术与交叉应用L3-Transformer_and_PLMs_第30张图片
[学习笔记]刘知远团队大模型技术与交叉应用L3-Transformer_and_PLMs_第31张图片

你可能感兴趣的:(深度学习,学习,笔记,transformer)