论文笔记--TransFG

Paper: TransFG: A Transformer Architecture for Fine-Grained Recognition

文章链接:TransFG: A Transformer Architecture for Fine-Grained Recognition | Proceedings of the AAAI Conference on Artificial Intelligence

这是首个将Vision Transformer引入细粒度识别领域的模型。在ViT的基础上,针对细粒度识别任务,作者进行了一些改进。包括提出了一种适用于ViT的部件选择模块,帮助模型找到有辨识度的区域,去除冗余的信息;使用对比损失(Contrastive Loss)使模型更具辨识力。

上图为TransFG的网络结构图。TransFG的整体框架依赖于ViT。在ViT的基础上,作者做出了以下改动:(1)为了避免在划分patches时,对重要的有辨识度的区域进行了切分,采用滑动窗口的方式,进行重叠划分。这样能够保证任意小区域至少在一个patch内是完整的;(2)在最后一个Transformer Layer前,作者插入了一个部件选择模块。该模块对输入的tokens,只保留激活程度较高的tokens,视作更具辨识度的部分,和class token拼接后,输入到最后的Transformer Layer层。(3)在原有的交叉熵损失的基础上,作者还根据增加计算对比损失,来让模型更好地学到细微的差异。对比损失的作用,是根据每个batch内的训练样本,尽可能让同类别的相似度更大,不同类别的相似度更小。

在实验中,在ViT-B_16的主干网络下,这些改进在CUB-200-2011数据集上提高了1.4%的准确率,达到了91.7%,证明了这些方法在细粒度数据集上的有效性。

你可能感兴趣的:(论文阅读,深度学习)