self-attention(自注意力机制)

论文地址:https://arxiv.org/abs/1706.03762

notes:在transform中使用到了self-attention,所以对其中进行简要笔记。

Q1:为什么要提出self-attention?

A1:self-attention就是想让计算机和人一样有关注的重点

比如:qinxin is a good gril,she looks beautiful,

其中这个she代表的是哪一个,对于我们来说很简单,对于计算机就很难,所以需要让计算机的注意力,集中到qinxin上去,就是我们要做的部分。

Q2:基本流程

self-attention(自注意力机制)_第1张图片A2:首先我们输入4个向量,然后通过self-attention全部进行接收,然后进行self-attention后,输出的结果就是with context的了(与背景或是上下文有关的了),之后在进行操作之后就不仅仅是只考虑在单独的输入对象,而考虑的是整体(如在进行3D-UNet 类似,进行上下文提取)。

如图下面\alpha ^{1},\alpha ^{2},\alpha ^{3},\alpha ^{4}是4个输入向量,其中b^{1}是对于\alpha ^{1}的输出向量。

self-attention(自注意力机制)_第2张图片

 \alpha ^{1}需要和\alpha ^{2},\alpha ^{3},\alpha ^{4}进行比较,得出各个比较值中的\alpha然后权值最大的\alpha就是输出的b^{1}

详解:​​​​​​Transformer中Self-Attention以及Multi-Head Attention详解_哔哩哔哩_bilibili对Transformer中的Self-Attention以及Multi-Head Attention进行详解。https://b23.tv/gucpvt

 详解Transformer中Self-Attention以及Multi-Head Attention_霹雳吧啦Wz-CSDN博客_multi-head self-attention原文名称:Attention Is All You Need原文链接:https://arxiv.org/abs/1706.03762最近Transformer在CV领域很火,Transformer是2017年Google在Computation and Language上发表的,当时主要是针对自然语言处理领域提出的(之前的RNN模型记忆长度有限且无法并行化,只有计算完tit_iti​时刻后的数据才能计算ti+1t_{i+1}ti+1​时刻的数据,但Transformer可以)。在这篇文章中作者提出了Shttps://blog.csdn.net/qq_37541097/article/details/117691873

 

 台大李宏毅21年机器学习课程 self-attention和transformer_哔哩哔哩_bilibili

 

你可能感兴趣的:(深度学习,计算机视觉,人工智能)