Transformer发展历程 Decoder输出特征利用DCT解码投分割

一、Transformer

1. 起源

Transformer由NLP发家,用于NLP任务。

2. 动机

自适应地发掘长短关联。

3. 关联方式

自注意力/编码解码注意力。

4. 技巧

位置编码(Position Encoding)。
Transformer发展历程 Decoder输出特征利用DCT解码投分割_第1张图片

5. 自注意力机制

Transformer发展历程 Decoder输出特征利用DCT解码投分割_第2张图片
首先需要明白QKV分别是个啥。对于输入的每一个单词都生成三个vector,分别是query,key和value。这三个vector如何生成?将embedding层输出的向量分别输入三个神经网络,三个神经网络输出的向量就是query,key和value. 这三个神经网络是随着其它部分一起端到端训练的。因此自注意力倾向于一种affinity。
Transformer发展历程 Decoder输出特征利用DCT解码投分割_第3张图片
规定了输出,隐含地监督了网络的注意力部分让一个类别的部分去亲和为同样的输出。也就是每个pixel的Softmax(权重)*V尽量一致,Softmax(权重)来自QKÿ

你可能感兴趣的:(人工智能论文精度,transformer,深度学习,人工智能)