Transformer Vision(二)|| ViT-B/16 网络结构

1. 原理图

​ 将一张图片拆分开来如下图所示,下图的 0,1,2,…,8,9 是用于记录图片的位置信息

Transformer Vision(二)|| ViT-B/16 网络结构_第1张图片


Transformer Vision(二)|| ViT-B/16 网络结构_第2张图片

2.Transformer Encoder结构图 (L× 指重复堆叠L次)

Transformer Vision(二)|| ViT-B/16 网络结构_第3张图片


3.实现过程:

Transformer Vision(二)|| ViT-B/16 网络结构_第4张图片

更为详细的Encoder Block图

Transformer Vision(二)|| ViT-B/16 网络结构_第5张图片

​ 上图中的 MLP Block 图解为

Transformer Vision(二)|| ViT-B/16 网络结构_第6张图片

4.MLP Head层

Transformer Vision(二)|| ViT-B/16 网络结构_第7张图片

注意:在Transformer Encoder 前有一个Dropout层,后有一个Layer Norm层

训练自己的网络时,可简单将MLP Head层看作一个全连接层

5. 总结ViT-B/16 网络结构

Transformer Vision(二)|| ViT-B/16 网络结构_第8张图片

其中:Encoder Block

Transformer Vision(二)|| ViT-B/16 网络结构_第9张图片

其中:MLP Block

Transformer Vision(二)|| ViT-B/16 网络结构_第10张图片

你可能感兴趣的:(transformer,深度学习,人工智能)