Transformer模型

1、《Attention Is All You Need》

2、CV中应用Transformer,图像数据转换为序列即可开始使用

新一代backbone,用于分类,分割,检测等任务

对输入序列进行特征提取,下面是transformer的工作流程:

Transformer模型_第1张图片

 视觉中的Attention:关注需要关注的目标,方便提取特征

ViT整体架构分析

位置编码:1)0-9 

2)按照坐标形式编码

Transformer模型_第2张图片

Transformer模型_第3张图片

 CNN的问题与缺陷

1、想要获得大的感受野就必须堆叠很多层卷积

2、不断卷积+池化的操作有点麻烦

transformer根本不需要堆叠,直接可以获得全局信息,但是transformer的训练数据必须到位

你可能感兴趣的:(transformer,深度学习)