阅读pvt v1 和 pvt v2 论文笔记

pvt 2篇论文的代码在原论文中有所标注,由于时间关系,以后再将对源代码进行解读

1、pvt v1的创新点

pvt收到的启发来自于 cnn 和transformer,为了克服transfomer应用于密集检测问题的缺点(传统的transformer由于计算资源的限制,输出是粗颗粒度的 16  x 16),作者提出了金字塔视觉transformer(pvt)这一模型;

本文的创新点在于1、在vit的基础上,加入了金字塔结构;

2、与cnn相比,又使用了自注意力结构,这表明输入将产生全局的接受域;

3、在注意力机制前使用了SRA,以降低计算、存储资源;

1.1、pvt v1的网络结构

阅读pvt v1 和 pvt v2 论文笔记_第1张图片

 实现方法

1、与cnn backbone类似,生成四个尺度的feature map;

2、共经历四个同样的阶段;

3、阶段i:分成补丁块、进行patch embedding 、加上位置编码、进入transformer编码块。

1.2、讨论

1:vit的输出是单尺度(占用资源多),因此其输出也是粗颗粒度(16 x 16)因此分辨率较低,不适用于像素级的密集检测;

2:pvt生成渐进式的金字塔,可以生成多尺度特征图;

3、设计的SRA可以减少计算成本;

与vit相比,pvt更加灵活、通用性更强(多尺度特征图)、计算内存更友好

1.3、pvt v1实验结果

实验设置:由fpn作为分割头;数据集:ADE20K;在ImageNet上做预训练;由Xavier初始化其他层参数;迭代80K次;batchsize 16;尺寸512 X 512;

阅读pvt v1 和 pvt v2 论文笔记_第2张图片

与resnet相比,pvt的miou指标均比较高

1.4、pvt v1的消融实验

1、金字塔结构matters:

阅读pvt v1 和 pvt v2 论文笔记_第3张图片 

 pvt指标更优秀

2、go deeper is more important than go wider

3、pvt可以和fpn、Retinanet、maskrcnn 很好的结合,并获取高质量分割结果。

2 pvt v2相比较于v1做的改进

改进:1、线性复杂度注意层;

2、重叠贴片嵌入;

3、卷积前馈网络。

pvt v1的缺点:

1) PVT v1与ViT类似,在处理高分辨率输入(如短边为800像素)时,计算复杂度较大

(2) PVT v1将图像处理为一组不重叠的斑块序列,在一定程度上失去了图像的局部连续性;

(3) PVT v1的位置编码是固定大小的,对于任意大小的过程图像不灵活。这些问题限制了PVT的性能。

阅读pvt v1 和 pvt v2 论文笔记_第4张图片

 阅读pvt v1 和 pvt v2 论文笔记_第5张图片

 

你可能感兴趣的:(学习,深度学习,transformer,人工智能)