Cross-modal Hallucination for Few-shot Fine-grained Recognition

最先进的深度学习算法需要大量的数据用于模型训练，缺乏会导致性能恶化，尤其是在不同类别之间具有细粒度的边界的时候。

Introduction

方法背后的直觉是生成额外训练的样本，这些样本适用于文本描述，有助于在低数据场景中学习分类模型。

贡献有：

根据细粒度视觉识别任务提出多模态Few-shot学习的基准，该任务在训练阶段是多模态的，测试时是单模态的(图像)。
开发了类别判断的文本条件生成对抗网络(tcGAN)，通过在细粒度文本描述的条件下隐藏额外的图像来促进Few-shot学习。

Cross-modal Hallucination for Few-shot Fine-grained Recognition_第1张图片

idea

从数据集中学习分类器，每个类别的几个样本通过以文本描述为条件的幻觉数据进行扩展。

Multimodal Few-shot Learning Benchmark

目标是建立多模态Few-shot细粒度识别的基准模仿实践中出现的情况。受Low-shot Visual Recognitionby Shrinking and Hallucinating Features. 启发，提出Few-shot学习基准并将其扩展为使用多模态训练数据。建立由多个阶段组成的Few-shot学习框架。第一阶段在大型训练集上进行学习得到一些有意义的表示，下一阶段在少量样本上进行微调。

Method

[图片上传失败...(image-6401df-1547150302469)]

总体框架分为两个阶段，

表示学习，训练text-conditional GAN给定文本描述生成hallucinate图像。
微调阶段，通过样本选择策略从生成的图像中选择最具有辨别力的部分。

Discriminative Text-Conditional GAN

遵循元学习框架，在(非小样本基础类数据)上大量数据中学习生成模型。然后在(新的细粒度类)上学习与之相关的分类器。构造一个text-conditional GAN用于学习从文本到图像的映射。这样生成器G被训练，从而生成不能被判别器判断出真假的图像。

tcGAN的目标函数：

$\begin{aligned} \mathcal { L } _ { t c G A N } ( G , D ) = \mathbb { E } _ { I , T } & [ \log D ( I , T ) ] \\ & + \mathbb { E } _ { I , z } [ \log D ( I , G ( T , z ) ) ] \end{aligned}$

其中的是随机噪声向量，和是观察文本和图像的embeddings。

单独优化缺少类间的区分度，向中增加一个class-discriminative项，被定义为：

是类标签。另外，令：

引出两个损失项：

通过优化得到和。

Self-paced Sample Selection

通过训练能够生成足够多的样本，我们需要从生成的样本库中挑选足够的样本，以便于细粒度Few-shot能够构建更好的分类器。选择生成器和鉴别器最有信心的样本。就是使用鉴别器计算的分数并对分数进行排序，得到最好的样本(如上图所示)。

Cross-modal Hallucination for Few-shot Fine-grained Recognition

Cross-modal Hallucination for Few-shot Fine-grained Recognition

Introduction

Multimodal Few-shot Learning Benchmark

Method

Discriminative Text-Conditional GAN

Self-paced Sample Selection

你可能感兴趣的:(Cross-modal Hallucination for Few-shot Fine-grained Recognition)