自然语言处理基础知识入门(四) Transformer模型整体最详解(self- attention机制,mask机制)

文章目录

  • 前言
  • 一、Seq2Seq
    • 1.1 Seq2Seq的基本架构
    • 1.2 Seq2Seq的框架实例
  • 二、Transformer
    • 2.1 Transformer的整体架构
    • 2.2 Transformer的输入
      • 2.2.1 Input Embeding
      • 2.2.2 Positional Encoder
      • 2.2.3 Transformer的输入
    • 2.3 Transformer的自注意力机制
      • 2.3.1 注意力机制
      • 2.3.2 权重矩阵 W W W
      • 2.3.3 Self-Attention
        • 2.3.3.1 Self-Attention 的 Q,K,V
        • 2.3.3.2 注意力在Transformer的作用
        • 2.3.3.3 注意力分数的计算过程
        • 2.3.3.4 Self-Attention 的输出
        • 2.3.3.5 Multi-Head Attention
    • 2.4 Encoder 的结构信息
      • 2.4.1 Add & Norm
      • 2.4.2 Feed Forward
      • 2.4.3 Encoder的输出
    • 2.5 Decoder模块的输入
      • 2.5.1 训练阶段Decoder的输入:
        • 2.5.1.1 Teacher Forcing
      • 2.5.2 测试阶段Decoder的输入:
    • 2.6 Decoder 的结构信息
      • 2.6.1 Masked Multi-Head Attention
      • 2.6.2 Multi-Head Attention
    • 2.7 Decoder模块的输出
  • 三、总结


前言

在前面的章节中,详细讨论了循环神经网络(RNN)及其衍生模型,经过对RNN的不断改良,它们现在已经具备了长期记忆的能力,这无疑是语言模型领域的一项重大突破。然而,现在的多模态技术以及GPT的出现,绝大多数都选择了基于Transformer的架构,这是为何呢?

本章节将围绕这个问题展开,将深入讲解自注意力机制,揭示这个如今在整个自然语言处理领域产生了深远影响的技术的精髓。这将为读者理解后续的BERT模型、GPT技术,以及多模态技术如CLIP等内容奠定坚实的基础。本文的目标是让读者在学习这部分内容后,对这些技术有一个全面而清晰的认识,并能构建完整的知识体系。

https://arxiv.org/pdf/1706.03762 Transformer 原文链接

一、Seq2Seq

在学习Transformer的前提要明确什么是Seq2Seq,即Sequence to Sequence模型的简称,通常由两部分构成一部分是Encode

你可能感兴趣的:(NLP自然语言知识梳理入门,自然语言处理,transformer,人工智能,nlp,语言模型,机器翻译,深度学习)