论文学习 Feature Generating Networks for Zero-Shot Learning

最近火热的迁移学习领域实涵盖了很多方向,比如多任务学习、对抗生成网络、zero/one/few shot learning等。其中的关键问题应该从有限的标注数据中学习其真实分布,进而将训练好的模型通过微调迁移到其他任务,如果迁移的任务与与标注数据关联性较强,这种迁移会变得相对容易,也更容易获得成功。

1.简介

论文地址:https://arxiv.org/abs/1712.00981

最近,学习了一篇来自马普所与阿姆大学共同发表的文章:Feature Generating Networks for Zero-Shot Learning。作者提出一种使用GAN在特征空间生成数据的思想来解决zero-shot learning的问题。相比直接生成图像,该方法能取得更好的结果。作者总结了几条理由:(1)生成的特征数据是无限制的(笔者认为意思是可以生成大量的数据);(2)特征生成是从一系列紧凑的、具有不变性的表征学习到的,这些表征是从大规模数据集通过深度网络学到的,生成网就可以设计成比较轻型的浅层网络,提高了效率(笔者认为意思是生成的特征通过大规模数据集学习到的具有代表性的特征表示,可以在某种程度上泛化未知类别的特征);(3)学习的特征具有很强的判别性(笔者认为这里是通过在模型中增加一个auxiliary classifier实现的);(4)特征生成比图像生成更容易,因为生成的数据维度大大降低。笔者在此再添加一个理由,如果生成图像的话,相当于在作者提出的框架基础上,再串联一个上行采样的decoder,相当于标准的图像生成GAN网,对这个网络的训练相对只生成特征更加困难,而且后面decoder可能会引入一些偏差或者训练的不够充分,导致生成的数据质量受到影响。

2.模型

论文学习 Feature Generating Networks for Zero-Shot Learning_第1张图片

图1.论文提出的f-CLSWGAN框架。

论文提出的模型相对比较简单。图1中第一行是真实图像的特征提取过程,里面的CNN可以通过用的GoogleNe或ResNet,可以是从ImageNet上预训练的模型,也可以是在特定任务中微调过的模型,本文中采用的预训练模型。将特征 x x x x x x所属类的属性描述 c ( y ) c(y) c(y)拼接后输入判别器并判别为真;图中第二行是生成数据的分支,随机生成一个变量,与属性描述拼接后输入生成器,生成特征 x ^ \hat{x} x^,再次将其与属性描述拼接后输入判别器并判别为假;如果想要提高生成网生成数据的质量,流行的做法是加一个auxiliary classifier,对生成的数据进行分类,判别其类别 y y y。具体的公式在此不再赘述,可参考原文,都是经典的对抗loss和分类loss的形式。论文提出了两个任务,zero shot learning (ZSL)和generalized zero shot learning(GZSL),前者只需要解决未见过的数据的分类任务,后者需要同时对见过的和未见过的数据进行分类。

3.实验

论文中使用的几个数据集非常有意思,(1)Caltech-UCSD-Birds 200-2011 (CUB)包含来自200个鸟类的11788幅图片,并且带有312个属性描述,如图一中显示的头和腹部的颜色、鸟喙的形状等;(2)Ox- ford Flowers (FLO) 包含来自102类花的8189幅图片,没有属性描述;(3)SUN Attribute (SUN) 包含来自717个场景下的14340幅图片,并带有102个属性描述;(4)Animals with Attributes (AWA)包含来自50个动物类的30475幅图片,带有85个属性。这些数据集的属性标注为ZSL提供了丰富的信息,可以促进生成网络的训练,生成逼真的、没有见过的样本数据。

论文使用top-1准确率评估如下三个项目:见到过的类别分类 s \mathbf{s} s,未见到过的类别分类 u \mathbf{u} u,二者的调和平均数 H = 2 ∗ ( s ∗ u ) / ( s + u ) H=2*(\mathbf{s}*\mathbf{u})/(\mathbf{s}+\mathbf{u}) H=2(su)/(s+u)

表1.ZSL与GZSL在各测试集上的性能对比。

论文学习 Feature Generating Networks for Zero-Shot Learning_第2张图片

从表1中可以看出,(1)ZSL在所有baseline基础上都得到了大幅度性能提升,其中在算法ALE的基础上得到了the-state-of-the-art的表现。(2)GZSL在 s \mathbf{s} s u \mathbf{u} u之间取得了一个平衡,尽管在 s \mathbf{s} s上相比baseline有所下降,但是在 s \mathbf{s} s有较大幅度的提升,直接导致 H H H的大幅度提升。(3)有意思的是,使用论文提出的f-CLSWGAN模型生成数据,使用简单的Softmax分类器,就可以达到很好的效果,尤其是在GZSL的任务上,甚至取得了the-state-of-the-art的性能,说明论文提出的方法对于未见过的数据生成非常有效,生成的数据质量较高。

4.结论

f-CLSWGAN有两个重要的创新点,一是在特征空间生成数据,而不是直接生成图像数据;二是添加了auxiliary classifier,提高了生成器的性能。这两个思想在现在的生成网络中得到了广泛的应用。但是论文没有对比使用和不使用auxiliary classifier的性能对比。

你可能感兴趣的:(Transfer,Learning,Zero,/,One,/,Few,Shot,Learning)