Vision Transformer (ViT):图像分块、图像块嵌入、类别标记、QKV矩阵与自注意力机制的解析

作者:CSDN @ _养乐多_

本文将介绍Vision Transformers (ViT)中的关键点。包括图像分块(Image Patching)、图像块嵌入(Patch Embedding)、类别标记、(class_token)、QKV矩阵计算过程、余弦相似度(cosine similarity)、Softmax、自注意力机制等概念。主要介绍QKV矩阵计算过程。


文章目录

      • 一、Image Patching
      • 二、Patch Embedding
      • 三、Class token
        • 3.1 Add Class token
        • 3.2 Positional Encoding
      • 四、QKV
        • 4.1 cosine similarity
        • 4.2 Q @

你可能感兴趣的:(Python机器学习专栏,矩阵,线性代数,算法)