课程五学习笔记:如何训练ViT模型?DeiT算法解析

课程五学习笔记:如何训练ViT模型?DeiT算法解析

  • 1. Vision Transformer模型回顾
  • 2. DeiT: Data-efficient image Transformers
    • 3. 实现DeiT:从论文到代码(还需理解⚠️)
  • 4. 实现数据处理(paddle.vision.transform.compose)自己实现

1. Vision Transformer模型回顾

  • Class Token目的:以NLP的方式做分类问题。以一个虚拟的Patch去关注图像中其他的Patch,来获得图像中综合的信息,通过和Classifier的连接,反向传播优化我们的Class Token。
  • Position Embedding 目的:在做Patch-Embed的时候,缺少了位置编码信息,加上之后,辅助模型更好的训练。

你可能感兴趣的:(算法,深度学习,机器学习)