Transformer详解

一、位置编码

Transformer详解_第1张图片

Transformer论文图:

Transformer详解_第2张图片

 单个Encoder

Transformer详解_第3张图片

Transformer详解_第4张图片

上述这种相对位置信息会在注意力机制那里消失

二、多头注意力机制

2.1基本的注意力机制

注意力机制本质:

左上、左下、右上、右下分别对应图片哪一块的位置,首先婴儿分别与左上、左下、右上、右下分别做点乘得到某值,值越大则越关注。

Transformer详解_第5张图片

2.2在Transformer中如何操作注意力机制

Transformer详解_第6张图片

多头注意力机制:将一个空间打造为多个空间,多个头就会有多个输出,最后将多个输出合在一起进行输出。Transformer详解_第7张图片 

三、残差和layerNorm

残差结构:

Transformer详解_第8张图片

Batch Normal详解:

对同一维度中的样本进行处理

优点:

可以解决内部协变量偏移;缓解了梯度饱和问题,加快收敛

layer Normal详解:

四、Decoder详解

Transformer详解_第9张图片

1、多头注意力机制:需要对当前单词和之后的单词做mask

2、 交互层:所有encoder生成的值,与每一个decoder去进行交互

Transformer详解_第10张图片

你可能感兴趣的:(pytorch,transformer,深度学习,人工智能)