Transformer

1.Encoder

简言之:输入一排向量然后输出一排向量

Transformer_第1张图片

Transformer_第2张图片 Transformer_第3张图片

Transformer_第4张图片

 原始的transformerTransformer_第5张图片

2.Decoder

Transformer_第6张图片

Transformer_第7张图片

2.1引入mask_self-attention 

正常的self-attention

Transformer_第8张图片

mask-self-attention

Transformer_第9张图片

Transformer_第10张图片

Transformer_第11张图片

layer norm是将每个样本变为均值为0方差为1的数 

Transformer_第12张图片

Transformer_第13张图片

Transformer_第14张图片

Transformer_第15张图片

 

 

 

 

 

 

 

你可能感兴趣的:(NLP,transformer,深度学习,人工智能)