Cross-modal Hallucination for Few-shot Fine-grained Recognition

Cross-modal Hallucination for Few-shot Fine-grained Recognition

最先进的深度学习算法需要大量的数据用于模型训练,缺乏会导致性能恶化,尤其是在不同类别之间具有细粒度的边界的时候。

Introduction

方法背后的直觉是生成额外训练的样本,这些样本适用于文本描述,有助于在低数据场景中学习分类模型。

贡献有:

  1. 根据细粒度视觉识别任务提出多模态Few-shot学习的基准,该任务在训练阶段是多模态的,测试时是单模态的(图像)。
  2. 开发了类别判断的文本条件生成对抗网络(tcGAN),通过在细粒度文本描述的条件下隐藏额外的图像来促进Few-shot学习。
Cross-modal Hallucination for Few-shot Fine-grained Recognition_第1张图片
idea

从数据集中学习分类器,每个类别的几个样本通过以文本描述为条件的幻觉数据进行扩展。

Multimodal Few-shot Learning Benchmark

目标是建立多模态Few-shot细粒度识别的基准模仿实践中出现的情况。受Low-shot Visual Recognitionby Shrinking and Hallucinating Features. 启发,提出Few-shot学习基准并将其扩展为使用多模态训练数据。建立由多个阶段组成的Few-shot学习框架。第一阶段在大型训练集上进行学习得到一些有意义的表示,下一阶段在少量样本上进行微调。

Method

[图片上传失败...(image-6401df-1547150302469)]

总体框架分为两个阶段,

  1. 表示学习,训练text-conditional GAN给定文本描述生成hallucinate图像。
  2. 微调阶段,通过样本选择策略从生成的图像中选择最具有辨别力的部分。

Discriminative Text-Conditional GAN

遵循元学习框架,在(非小样本基础类数据)上大量数据中学习生成模型。然后在(新的细粒度类)上学习与之相关的分类器。构造一个text-conditional GAN用于学习从文本到图像的映射。这样生成器G被训练,从而生成不能被判别器判断出真假的图像。

tcGAN的目标函数:

\begin{aligned} \mathcal { L } _ { t c G A N } ( G , D ) = \mathbb { E } _ { I , T } & [ \log D ( I , T ) ] \\ & + \mathbb { E } _ { I , z } [ \log D ( I , G ( T , z ) ) ] \end{aligned}

其中的是随机噪声向量,和是观察文本和图像的embeddings。

单独优化缺少类间的区分度,向中增加一个class-discriminative项,被定义为:

是类标签。另外,令:

引出两个损失项:

通过优化得到和。

Self-paced Sample Selection

通过训练能够生成足够多的样本,我们需要从生成的样本库中挑选足够的样本,以便于细粒度Few-shot能够构建更好的分类器。选择生成器和鉴别器最有信心的样本。就是使用鉴别器计算的分数并对分数进行排序,得到最好的样本(如上图所示)。

你可能感兴趣的:(Cross-modal Hallucination for Few-shot Fine-grained Recognition)