深度学习算法——Transformer

参考教材:动手学pytorch

一、模型介绍

        Transformer模型完全基于注意力机制,没有任何卷积层或循环神经网络层。尽管Transformer最初是应用于在文本数据上的序列到序列学习,但现在已经推广到各种现代的深度学习中,例如语言、视觉、语音和强化学习领域。

Transformer作为编码器-解码器架构的一个实例,其整体架构图在下图中展示。正如所见到的,Trans‐ former是由编码器和解码器组成的。与基于Bahdanau注意力实现的序列到序列的学习相比,Trans‐ former的编码器和解码器是基于自注意力的模块叠加而成的,源(输入)序列和目标(输出)序列的嵌入 (embedding)表示将加上位置编码(positional encoding),再分别输入到编码器和解码器中。

深度学习算法——Transformer_第1张图片

        图中概述了T

你可能感兴趣的:(数学建模,深度学习,transformer,人工智能,数学建模,python,pytorch)