CONDITIONAL IMAGE SYNTHESIS WITH AUXILIARY CLASSIFIER GANS

论文下载地址:这里

[目录]

    • 摘要
    • 简介
    • 背景知识
    • AC-GANs
    • 结果
    • 生成高分辨率图像改善可分性
    • 测量生成图像的多样性

摘要

合成高分辨率图像是机器学习中一个长期存在的挑战,文中介绍了图像合成的一个改进训练GAN s的新方法。我们运用标签条件构建了一个变种GANs,产生显示出全局一致性的128×128分辨率的图像样本。我们扩展了以前的图像质量评价工作,提出了两种新的分析方法,以评价类别条件图像合成模型的样本的可区分性和多样性。这些分析表明,高分辨率样本提供了在低分辨率样本中不存在的类别信息。在1000个ImageNet类中,128×128的样本比人工调整的32×32 大小的样本高出两倍的可分性。并且,84.7%的类别具有与真实ImageNet 数据可比拟的样本表达多样性

简介

表征自然图像结构是个极富研究的工作,自然图像服从内在不变性,并展现出史上难以量化的多尺度统计结构。机器学习的最新进展提供了一个大幅度提高图像模型质量的机会。改进的图像模型在图像去噪,压缩,绘图,和超分标率上都提升了目前的先进水平。更好的自然图像模型还可以提高版半督学习任务和强化学习问题的性能。
理解自然图像统计的方法之一是建立一个合成图像的系统 de novo。建立图像合成模型有几个有前景的方法。变量自编码器( Variational autoencoders (VAEs))最大化训练数据的对数似然变化的下限。VAEs直接训练但引入了潜在的近似后验分布的限制性假设。自回归模型不考虑潜在(隐藏)变量,直接在像素空间上对条件分布进行建模。这些模型产生极具说服力的样本但从中采样的代价很昂贵,并且不提供隐藏表达式。可逆密度估计器用一系列被约束成可逆的参数化函数直接转化隐含变量,此技术允许精确的对数似然计算和精确推理,但是可逆性约束是限制性的。生成对抗网络提供了一个独特而又富有前景的方法,重点是用于训练图像合成模型的游戏理论公式。最近的工作表明,GANs可以在具有低可变性和低分辨率的数据集上生成令人信服的图像样本。然而,GANs致力于生成全局一致的,高分辨率样本,特别是来自具有高可变性的数据集。此外,对GANs的理论认识也是一个持续的研究课题。
本工作中,我们证明,为GAN隐藏空间增加更多结构和专门的成本函数可以获得高质量的样本,我们展示了来自ImageNet数据集所有类别的128×128像素的样本,具有增强的全局相干性。重要的是,我们定量地展示了我们的高分辨率样本不只是单纯地调整分辨率样本的大小。特别的是,将我们128×128的样本下采样至32×32会导致视觉辨别度降低50%。我们还引入了一种评估图像样本可变性的新指标,并将这一指标应用来证明我们合成的图像显示出与大部分(84.7%)ImageNet 类别的训练数据相当的多样性。

背景知识

一个GAN 包含两个互相对抗训练的神经网络。生成器G 接受一个随机噪声向量z 作为输入,输出一副图像X fake=G (z)。判别器D 接收一个训练图像或一个由生成器合成的图像,在可能的图像来源上输出一个概率分布P(S|X)=D(X)。
可以用side information来扩充基本的GAN框架。一种策略是给生成器和判别器都提供类别标签来生成类条件样本,类条件合成可以显著地提升生成的样本质量。越丰富的side information可能会进一步提高样本质量,如图像说明和边界框定位。
可以通过重构side information 来对判别器指派任务而不是将side information提供给判别器。这由修改判别器使之包含一个辅助解码器网络1来完成,该辅助解码器1 输出训练数据的类别标签或来自生成样本的letent variables 的一个子集。已知迫使一个模型执行额外任务可以提升原始人物的性能。此外,一个辅助解码器可以利用预先训练的判别器(如图像分类器)来进一步改善合成的图像。基于这些考虑,我们引入了一个结合两种策略来利用side information的模型,也就是说,下面提出的模型是class conditional,但具有一个用于重建类别标签的辅助解码器。
CONDITIONAL IMAGE SYNTHESIS WITH AUXILIARY CLASSIFIER GANS_第1张图片

AC-GANs

我们提出一个GAN架构的变体,将其称之为辅助分类器GAN(或ACGAN,如图2)。在AC-GAN 中,每个生成样本 除了噪声z外有一个对应的类别标签 c~Pc,。G 使用两者来生成伪图像 X (fake)=G(c,z)。判别器给出给出图像源(真假)的概率分布和类标签上的概率分布。这里写图片描述目标函数有两部分,正确图像源的对数似然L s和正确类别的对数似然Lc。这里写图片描述
D训练以最大化Ls+Lc,而G训练以最大化Lc-Ls,AC-GANs学习一个关于z的独立于类标签的表达式。早期实验表明,模型保持固定增加训练的类别数目会降低模型输出的质量。ACGAN 模型的结构允许用类将大的数据集划分成子集,并训练每个子集的生成器和判别器。我们在实验中利用这个属性来训练整个ImageNet数据集。

结果

我们在ImageNet 数据集上训练了几个ACGAN 模型。总的来说,生成器G 的架构是一系列的“deconvolution”层,将噪声z和类别c转换成图像。我们训练了两个模型架构的变体用于生成128×128和64×64空间分辨率的图像。判别器D 是一个带LeakyReLU的深度卷积神经网络。如前文所述,我们发现减少ImageNet 全部1000个类而引入的可变性显著提高了训练质量。我们训练了100个ACGAN 模型–每个模型基于只来自10个类别的图像–50000个size为100的mini-batches。评估图像合成模型的质量是极富挑战的,因为概率标准的多样性以及缺乏一个感知上有意义的图像相似性度量。然而,在随后的部分我们试图通过为图像样本的可分性和多样性建立若干特别措施来测量ACGAN 的质量。我们希望此工作或许可以提供可以用以帮助训练金额随后开发图像合成模型的量化措施。。

生成高分辨率图像改善可分性

构建类条件图像合成模型需要测量合成图像看起来属于预期类的程度。特别酸,我们想知道一个高分辨率样本不仅仅是单纯的调整一个低分辨率样本的大小。考虑一个简单的实验,假设存在一个合成32×32大小图像的模型。可以通过执行双线性插值来简单地提升合成图像的分辨率,但是这些图像只是低分辨率图像的模糊版本,是不可分辨的。因此,图像合成模型的目标不是简单地生成高分辨率图像,而是生成比地分辨率图像更可分的高分辨率图像。
为了测量可分辩性,我们将合成图像提供给一个预训练的初始网络,并报告了初始网络分配出正确标签的样本分数。我们在一系列真实和合成图像上计算这一精度测量,这些图像通过双线性插值人为地降低了空间分辨率。注意,随着空间分辨率的降低,精度也随之降低,表明产生的图像包含较少的类信息。我们通过ImagNet训练数据的所有1000个ImageNet 类别,图3中的128×128分辨率和64×64 分辨率中总结出这一发现。
个该分析的目的是现实合成更高分辨率的图像导致可辨别性增加。

测量生成图像的多样性

如果图像合成模型之输出一副图像就没有意思。的确,一个有名的GANs模型失效是生成器崩溃并输出相同

你可能感兴趣的:(翻译阅读笔记)