从零实现深度学习框架——Transformer从菜鸟到高手(二)

引言

本文为[从零实现深度学习框架]系列文章内部限免文章,更多限免文章见 专栏目录。

本着“凡我不能创造的,我就不能理解”的思想,系列文章会基于纯Python和NumPy从零创建自己的类PyTorch深度学习框架。

上篇文章中我们介绍了多头注意力,本文我们来了解Transformer Encoder模块剩下的组件,即残差连接、层归一化和前馈网络层。

Transformer架构

从零实现深度学习框架——Transformer从菜鸟到高手(二)_第1张图片

图1. Transformer架构图

它也是一个encoder-decoder架构,左边是encoder,右边是decoder。我们先来看下它们内部的构件(从下到上)。

  • Encoder
    • Input Embedding:输入嵌入层
    • Positional Encoding:位置编码
    • Encoder Transformer Block:由于Encoder和Decoder的Block不同,这里区分来展开。

你可能感兴趣的:(从零实现深度学习框架,深度学习,transformer,人工智能)