论文阅读:TransFG: A Transformer Architecture for Fine-grained Recognition

目录

用细粒度识别Transformer架构

一、动机

二、方法

2.1 大致流程

2.2 步骤分解

三、实验

3.1 数据集


用细粒度识别Transformer架构

一、动机

     由于固有的微妙的类间差异,从子类别中识别对象的细粒度视觉分类(FGVC)是一项非常具有挑战性的任务。通过关注如何定位最具辨别力的图像区域,并依靠它们来提高网络捕获细微差异的能力来解决这个问题。Transformer的自注意力机制将每个token标记链接到分类标记,可以直观的将注意力链接的强度视为token重要性的指标。提出一种新的基于Transformer的框架TransFG。

二、方法

2.1 大致流程

论文阅读:TransFG: A Transformer Architecture for Fine-grained Recognition_第1张图片

图像序列化——碎片嵌入——TransFG

2.2 步骤分解

1、图像序列化

为了保留局部相邻结构,采取滑动窗口生成重叠碎片。滑动窗口大size为P,step为S;因此两个相邻的碎片共享一个大小为(P-S)*P的重叠区域

 2、碎片嵌入

将可训练的碎片映射到潜在的D维嵌入空间,将可学习的位置嵌入添加到碎片嵌入中以保留位置信息。

 3、TransFG层


ViT回顾:

单个Transformer层可以表示成如下:

论文阅读:TransFG: A Transformer Architecture for Fine-grained Recognition_第2张图片


 TransFG主要有两部分不同:部分选择模块(PSM)对比特征学习

论文阅读:TransFG: A Transformer Architecture for Fine-grained Recognition_第3张图片

 部分选择模块:

为了充分利用注意力信息,将改变最后一层的输入,对最后一层前面的所有层的权重累乘,选出

 然后选择权重最大的A_k个token作为最后一层的输入。

对比特征学习:

因为简单的交叉熵损失函数不足以完全监督特征学习,因为子类别之间的差异可能非常小。
采用对比损失最小化不同标签对应的分类token的相似度,最大化具有相同标签y的样的分类token的相似度

z:token   y:标签   sim():相似性函数

 

总之,最后的模型是用交叉熵损失和对比损失的综合训练的:(trick:可以用两个损失函数结果的运算来构成一个“新的”损失函数)

三、实验

3.1 数据集

论文阅读:TransFG: A Transformer Architecture for Fine-grained Recognition_第4张图片

源代码

你可能感兴趣的:(CV,人工智能,transformer)