Transformer|Encoder(未完成)

文章目录

  • Transformer|Encoder编码器
    • 注意力机制
    • 残差
      • 残差的作用

Transformer|Encoder编码器

Transformer|Encoder(未完成)_第1张图片

注意力机制

Transformer|Encoder(未完成)_第2张图片
比如说已经得到腰围和体重的两份数据,此时给出一个查询——腰围为57的人的体重为多少?可以根据以往的腰围数据对体重进行估计,比如说腰围为56的体重为43,腰围为58的人体重为48,那么腰围为57的人体重应该介于43和48之间。
而不妨假设43占一半的作用,48占一半的作用,所以预测的体重为45.5.
而“一半的作用”就是所谓的权重系数(注意力权重,为了得出结果应该放多少注意力到这个级别的体重上来),而这个权重系数需要计算出来。

所以,做个小总结,Query通过Key和Value得到对应的估计值。
而以上有个问题,就是并没有将Key矩阵的51纳入到考虑中。
所以进一步,为了考虑到所有的影响,我们可以使用softmax来归一化Key矩阵每一个元素对答案的贡献的占比。算出注意力权重的具体过程如下——
Transformer|Encoder(未完成)_第3张图片
得到注意力权重系数后,我们就可以对查询对应的结果进行进一步的估计了。

Transformer|Encoder(未完成)_第4张图片

残差

Transformer|Encoder(未完成)_第5张图片

残差的作用

Transformer|Encoder(未完成)_第6张图片

你可能感兴趣的:(transformer,transformer,深度学习,人工智能)