【Transformer】继续学习:Attention,Self-Attention,Multi-head Attention。

声明:仅学习使用~

目录

  • 一、介绍
    • 1.1 Attention,Self-Attention
    • 1.2 Multi-head Attention
    • 1.3 Transformer
  • 二、源代码
    • 2.1 attn.py
    • 2.2 mh_attn.py
    • 2.3 transformer.py

一、介绍

1.1 Attention,Self-Attention

核心,可以说是 三层全连接,再加一个 softmax。

Attention的结构,可以说是全连接层,即 Fully connected layer

三个向量 q、k、v,通过调用函数来实现 传入输入维度,给出输出维度 这种效果。

由三个全连接层组成。这也是Attention的设计结构, q k v 可以理解为 都是

你可能感兴趣的:(transformer,Attention,Self-Attention,qkv,注意力机制)