论文阅读:Cross-layer mutual attention learning for fine-grained visual classification

论文标题:
Learn from each other to Classify better: Cross-layer mutual attention learning for fine-grained visual classification
翻译:
相互学习,更好地分类:跨层相互关注学习,实现细粒度视觉分类

摘要

细粒度视觉分类(FGVC)很有价值,但也很有挑战性。
FGVC的难点主要在于其固有的类间相似性、类内差异性和有限的训练数据。
此外,随着深度卷积神经网络的普及,研究人员对FGVC主要使用深度、抽象、语义信息,而忽略了浅层、详细的信息。
本文提出了一种跨层互注意学习网络(CMAL-Net)来解决上述问题。
具体来说,这项工作将cnn的浅层到深层视为了解不同观点的“专家”。

我们让每个专家给出一个类别预测和一个注意区域,表明发现的线索。
将关注区域作为专家之间的信息载体,带来三个好处:

  1. 帮助模型聚焦于判别区域
  2. 提供更多的培训数据
  3. 让专家相互学习,提高整体绩效。CMAL-Net在三个竞争性数据集上实现了最先进的性能:FGVC-Aircraft、Stanford Cars和Food-11

源代码: https://github.com/Dichao-Liu/CMAL

引入

现有的FGVC方法主要面临三个问题:

  1. 类间相似性和类内变异;
  2. 训练数据数量有限。为FGVC任务收集和标记图像通常需要专业知识,并且很难创建大规模的FGVC数据集;
  3. 忽视底层信息。
    深度卷积神经网络(cnn)已经成为处理FGVC任务的主要工具。
    随着深度的增加,CNN关注的更多注重高层次、抽象和语义信息,而忽略了底层和显式信息。

方法

Expert construction

  1. 介绍如何从浅到深构建专家的细节
  2. 除了个别专家给出的预测分数外,我们还通过聚合不同专家学习的信息来生成总体预测分数
  3. 卷积神经网络(CNN)架构通常由多个阶段组成,这些阶段指的是一组在具有相同空间尺寸的特征图上操作的层。从浅层到深层,特征图的空间尺寸逐渐减小。

Attention region prediction

  1. 我们假设分类问题有K个类别,kn ∈ {1, 2, …, K} 表示专家en预测的类别。专家en提出的关注区域的生成从类别激活图(CAM)开始。对于特定类别,CAM指定了CNN用于识别该类别的区分性图像区域。
  2. CAM(类别激活图)的生成过程及其作用
    在这里插入图片描述
    CAM本质上是这些视觉模式在不同空间位置的加权线性和[22]。通过将CAM上采样到输入图像的大小,我们可以了解从专家en的视角来看,图像中似乎与类别kn最相关的区域。因此,在获得ΰ之后,我们生成一个注意力图Ωn ∈ R Hin×Win(Hin、Win是输入图像的高度和宽度的尺寸)。
    我们定位了一个边界框,该边界框可以覆盖掩码所有正区域,并从输入图像中裁剪该区域。然后,我们将裁剪区域上采样到输入图像的大小,并将上采样的注意力区域An视为en预测的注意力区域,以及其他专家的数据扩充。

Multi-step mutual learning

  1. 我们采用渐进的多步策略以交叉熵损失来训练专家。在早期的步骤中,我们逐个训练这些专家,这使它们能够“集中精力”学习自己领域的线索,而不会被其他专家分散注意力。在最后两个步骤中,专家一起合作学习来自关注区域和原始图像的有效信息。具体来说,如算法1所示,训练的每个迭代包含N + 2个步骤,前N个步骤中,我们逐渐从深到浅地训练每个专家。在第一步中,我们训练最深的专家eN。由于训练N涉及比eN浅的专家,因此在这一步,我们还能够生成所有专家提出的注意力区域和整体注意力区域 {A1, A2, …, An, …, AN, Aoval}。这些注意力区域通过标记每个专家进行分类判断的依据,携带了专家的“专业知识”。
  2. 然后,从第2步到第N步,我们逐渐转向浅层专家,采用所提出的数据增强策略,我们将其称为相互数据增强(MDA)。在训练专家时,MDA随机选择一个输入,该输入来自图像池,该池包括原始输入和由除了该专家之外的其他专家提出的关注区域。深层专家以分层方式捕获和总结浅层专家学到的信息,并通常为分类任务提供了更好的潜在概念描述,胜过了浅层专家。深层专家提出的关注区域帮助浅层专家学习深层专家在输入图像中发现的语义视觉线索(例如,车灯等)。另一方面,尽管浅层专家学到的低级信息已经通过前向传播传递给深层专家,但由于低级信息被抽象化,因此丢失了很多细节。浅层专家提出的关注区域帮助深层专家学习深层专家在输入图像中发现的低级视觉线索(例如,局部边缘方向、物体纹理等)。专家从深向浅逐步训练,迫使浅层专家基于深层专家学到的线索做出判断,而不仅仅充当深层专家的信息提供者。
  3. 如图2所示,CMAL-Net具有N + 1个分类器。也就是说,在推断阶段,根据所提出的架构,可以生成N + 1个预测分数。在推断的实现中,对于每个图像,我们依次将原始输入和整体关注区域输入到CMAL-Net中,以获取总共2 × (N + 1)个预测分数。推断的最终预测分数是通过对2 × (N + 1)个预测分数进行平均计算得到的。这种推断策略最大化了经过训练的模型的分类准确性,因为有两个事实支持:(i)每个专家提供的预测分数和整体预测分数可以提供互补信息;(ii)从原始输入和整体关注区域学到的信息可以提供互补信息。
    论文阅读:Cross-layer mutual attention learning for fine-grained visual classification_第1张图片

你可能感兴趣的:(论文阅读)