TransformerVision(一)|| Self-Attention和MultiHead Self-Attesntion原理

  1. Self-Attention : (三个全连接层参数矩阵 q、k、v)

    1. 首先将时序数据 Xi 经过 Input Embedding 变成输入的参数 ai

    2. 然后 ai 依次与这三个参数矩阵相乘 得到 qi、ki、vi

      TransformerVision(一)|| Self-Attention和MultiHead Self-Attesntion原理_第1张图片

      1. q参数代表query,会去匹配相应的key
      2. k参数代表key,会去和query进行匹配
      3. v参数代表information to be extracted,表示从ai 中学习到的信息,机器认为他学到的
    3. a1、a2、… 、an 共用同一个q、k、v 参数矩阵,可把a1、a2、… 、an 堆叠成一个矩阵,然后乘以参数矩阵,进行并行化处理

      TransformerVision(一)|| Self-Attention和MultiHead Self-Attesntion原理_第2张图片

    4. 我们把经过q、k、v参数矩阵相乘后得到的矩阵值输入到Attention

      TransformerVision(一)|| Self-Attention和MultiHead Self-Attesntion原理_第3张图片

      此处详细步骤

      • 将qi与ki进行match,公式为

        TransformerVision(一)|| Self-Attention和MultiHead Self-Attesntion原理_第4张图片

        q1 与k1、k2、k3、…、kn 都要相乘,得到α1,i、α2,i、…、αn,i

      • 图解

        TransformerVision(一)|| Self-Attention和MultiHead Self-Attesntion原理_第5张图片

        得到的 α ^ \hat{α} α^ 就是V的权重,得到的权重越大,就越关注这个V

        TransformerVision(一)|| Self-Attention和MultiHead Self-Attesntion原理_第6张图片

      • 得到bi

        TransformerVision(一)|| Self-Attention和MultiHead Self-Attesntion原理_第7张图片

        图解:

        TransformerVision(一)|| Self-Attention和MultiHead Self-Attesntion原理_第8张图片

      得到Self-Attention Layer

      TransformerVision(一)|| Self-Attention和MultiHead Self-Attesntion原理_第9张图片


      TransformerVision(一)|| Self-Attention和MultiHead Self-Attesntion原理_第10张图片

  2. Multi-head Self-Attention

    • 假如 qi 向量是一个n维向量,head数为2,那么就将 qi 向量均分为2个子向量,对于ki 、vi 向量同理

      TransformerVision(一)|| Self-Attention和MultiHead Self-Attesntion原理_第11张图片


      TransformerVision(一)|| Self-Attention和MultiHead Self-Attesntion原理_第12张图片


      TransformerVision(一)|| Self-Attention和MultiHead Self-Attesntion原理_第13张图片


      TransformerVision(一)|| Self-Attention和MultiHead Self-Attesntion原理_第14张图片

      将得到的head 进行拼接

      TransformerVision(一)|| Self-Attention和MultiHead Self-Attesntion原理_第15张图片

      将拼接好的head进一步融合得到 MultiHead(Q,K,V)最终的输出,此处的 Wo 的维度是 d×d 的矩阵

      TransformerVision(一)|| Self-Attention和MultiHead Self-Attesntion原理_第16张图片


      TransformerVision(一)|| Self-Attention和MultiHead Self-Attesntion原理_第17张图片


      TransformerVision(一)|| Self-Attention和MultiHead Self-Attesntion原理_第18张图片

  3. 位置编码

    TransformerVision(一)|| Self-Attention和MultiHead Self-Attesntion原理_第19张图片

你可能感兴趣的:(深度学习,自然语言处理,机器学习,transformer,transformer-v)