cGAN:Conditional Generative Adversarial Nets

论文阅读之cGAN:Conditional Generative Adversarial Nets

#Abstract

本文提出了条件-生成对抗网络(Conditional-GAN),Generator和Discriminator的输入数据除了随机噪声外还多了标签y,从而可以通过GAN生成不同class label的图像,用于更好的引导单模态图像生成以及多模态学习下的生成图像标签等。



# Section I Introduction



生成模型中的生成对抗网络有效地规避了一些不好近似的概率运算,对抗网络只在反向传播过程中计算梯度,学习过程中不需要进行推断,一些其他因子/因素也可以很方便的加入到网络当中;此外还可以尽可能逼近对数估计,产生以假乱真的样例。
在没有条件约束的生成模型中,最终生成的模式未加约束;通过条件的施加可以引导模型生成特定模式的输出,条件的输入可以是类别标签、不同模式下的数据等。本文在MNIST和MIR Flicker两个数据集上测试了cGAN的效果。





# Section II Related Work





 Multi-modal Learning for Image Labelling




尽管一些监督学习网络已经可用于分类任务,但通常学习的都是一对一的映射,但对于多模态的识别这种一对多的映射关系发展的还不够,而现实生活中经常会遇到,比如在进行图像标注时一幅图内会标注不同的标签,而不同观测者往往标注的tag不尽相同,大部分是同义或相关的词汇进行标注。
第一个问题的一种可行的解决办法就是加入具有语义信息的特征向量,这样可以使得预测尽可能接近GT,已有研究表明即使仅增添特征空间与词向量空间的线性映射都可以提升显著分类准确率。
对于第二个问题,可通过使用条件概率生成模型解决。

Section III Conditional Adversarial Nets

Part A GANs






首先介绍生成对抗网络的结构:GAN是一种对抗学习的生成模型,生成器(Generator)用来捕获数据的分布,判别器(Discriminator)辨别输入的样本是真实样本还是生成器生成的样本






首先生成器G输入的是随机噪声输出的是一定分布的生成图,而判别器D则输出概率值,判别输出是真实图还是生成图。






两个网络以对抗的形式同时训练。






Part B c-GAN







条件GAN对生成器和判别器引入了额外的条件信息(extra information y),从Fig1可以看出,与GAN的不同之处就在于:







GAN-loss function







在这里插入图片描述

Generator的输入除了随机噪声z还有标签信息y;









Discriminator的输入除了生成图、真实图,还有标签信息y










损失函数也变成了条件概率:









在这里插入图片描述cGAN:Conditional Generative Adversarial Nets_第1张图片

Section IV Experimental Results

Part A Unimodal

首先测试了cGAN生成手写数字,条件信息是数字类别,以one-hot的形式输入。


Generator中:维度为100的随机噪声z从同一分布中采样生成,除此之外还有label作为y一同输入,最后一层sigmoid的784维的输出作为生成的样本


Discriminator:负责将x映射到maxout层,包含240个单元共5块,中间的隐藏层也包含240个单元最终送入sigmoid层。



训练:SGD优化,batch_size=100,学习率初始值为0.1,指数衰减。
最终的生成图片详见Fig2,每一行代表不同标签,每一列对应不同标签下的10例生成样本。



cGAN:Conditional Generative Adversarial Nets_第2张图片
Part B Multimodal

像Flickr等用户产生的元数据不同于较为全为标注过的数据,更贴近于使用自然语言描述图像的语义信息,而不仅仅局限于标注图像内存在的物体。
这种UGM数据一个很显著的特征就是同义性,用户常用相似的近义词来描述同一概念,因此对这种标签进行归一化就十分有用,概念词嵌入技术(conceptual word embedding)是一种很有效的技术手段,相近的概念通常具有相近的特征向量。

本文就利用cGAN对图像进行自动打标,产生多模态的分类预测。实验使用的是MIR Flickr 25000数据集,跳过了其中未标注的图像。
Generator输入的是随机噪声以及在100张样本中出现最多的10类标签,输出生成的标签。
cGAN:Conditional Generative Adversarial Nets_第3张图片

你可能感兴趣的:(CV,深度学习,神经网络,人工智能,机器学习)