论文地址
非官方开源代码pytorch版本
官方代码
我们研究了条件对抗网络作为图像到图像翻译问题的通用解决方案。这些网络不仅学习从输入图像到输出图像的映射,还学习一个损失函数来训练这种映射。这使得有可能对传统上需要非常不同的损失公式的问题采用相同的通用方法。我们证明了该方法在从标签贴图合成照片、从边缘贴图重建对象以及对图像进行着色等任务方面是有效的。此外,自从与本文相关的pix2pix软件发布以来,数百名推特用户已经使用我们的系统发布了自己的艺术实验。作为一个社区,我们不再手工设计映射函数,这项工作表明,我们也可以在不手工设计损失函数的情况下获得合理的结果
图1:图像处理、图形学和视觉中的许多问题都涉及到将输入图像转换成相应的输出图像。这些问题通常使用特定于应用程序的算法来处理,尽管设置总是相同的:将像素映射到像素。条件对抗网是一种通用的解决方案,它似乎可以很好地解决各种各样的这些问题。这里我们展示了该方法在几个方面的结果。在每种情况下,我们都使用相同的架构和目标,只是在不同的数据上训练。
图像处理、计算机图形学和计算机视觉中的许多问题都可以归结为将输入图像“转换”为相应的输出图像。正如概念可以用英语或法语表达一样,场景可以渲染为RGB图像、梯度场、边缘贴图、语义标签贴图等。与自动语言翻译类似,我们将自动图像到图像翻译定义为在给定足够的训练数据的情况下,将场景的一种可能表示转换为另一种可能表示的问题(见图1)。传统上,这些任务中的每一项都是用单独的专用机器来处理的(例如,[14、23、18、8、10、50、30、36、16、55、58]),尽管设置总是相同的:从像素预测像素。本文的目标是为所有这些问题开发一个通用框架。
社区已经在这个方向上迈出了重要的一步,卷积神经网络(CNNs)成为各种图像预测问题背后的常见主力。cnn学习最小化损失函数——这是一个评分结果质量的目标——尽管学习过程是自动的,但仍然需要大量的人工努力来设计有效的损失。换句话说,我们仍然需要告诉CNN我们希望它最小化什么。但是,就像迈达斯国王一样,我们必须小心我们的愿望!如果我们采用一种朴素的方法,并要求CNN最小化预测像素和地面真实像素之间的欧氏距离,它将倾向于产生模糊的结果[40,58]。这是因为欧氏距离通过平均所有似是而非的输出而最小化,从而导致模糊。提出损失函数,迫使CNN做我们真正想要的-例如,输出尖锐,现实的图像-是一个开放的问题,通常需要专业知识。
如果我们能够指定一个高级目标,如“让输出与现实难以区分”,然后自动学习一个适合于满足这一目标的损失函数,这将是非常可取的。幸运的是,这正是最近提出的生成对抗网络(GANs)所做的事情[22,12,41,49,59]。GANs学习一个损失,试图分类输出的图像是真实的或假的,同时训练生成模型,以减少这种损失。模糊的图像是不能容忍的,因为它们看起来明显是假的。因为GANs学习的是与数据相适应的损失,所以它们可以应用于许多传统上需要非常不同种类的损失函数的任务。
在本文中,我们探讨了条件设置下的gan。正如GANs学习数据的生成模型一样,条件GANs (cgan)学习条件生成模型[22]。这使得cga适合于图像到图像的转换任务,在该任务中,我们对输入图像进行条件设置,并生成相应的输出图像。
在过去的两年中,gan得到了大力的研究,我们在本文中探索的许多技术都是以前提出的。尽管如此,早期的论文集中在特定的应用上,而图像条件gan作为图像到图像转换的通用解决方案的有效性仍不清楚。我们的主要贡献是证明在各种各样的问题上,条件gan产生合理的结果。我们的第二个贡献是提供一个简单的框架,它足以实现良好的结果,并分析几个重要架构选择的效果。
图像建模的结构化损失
图像到图像的翻译问题通常被表述为逐像素分类或回归(例如,[36,55,25,32,58])。这些公式将输出空间视为“非结构化”的,即每个输出像素被认为是有条件地独立于输入图像中的所有其他像素。有条件的GANs学习的是结构性损失。结构性损失惩罚了输出的联合配置。大量文献考虑了这类损失,包括条件随机场[9]、SSIM度量[53]、特征匹配[13]、非参数损失[34]、卷积伪先验[54]和基于匹配协方差统计量[27]的损失。有条件GAN的不同之处在于,损失是可习得的,理论上,它可以惩罚任何可能的输出和目标之间的差异结构。
条件GANs
我们不是第一个在条件设置中应用GANs的人。先前和同时进行的工作使GANs具有离散标签[38,21,12],文本[43],以及图像。图像条件模型已经解决了从法线映射[52]、未来帧预测[37]、产品照片生成[56]和从稀疏注释生成图像的问题28,45。其他几篇论文也使用GAN进行图像到图像的映射,但只是无条件地应用GAN,依赖于其他条款(如L2回归)来迫使输出受输入的制约。这些论文在修复[40]、未来状态预测[60]、用户约束引导的图像处理[61]、风格转移[35]、超分辨率[33]等方面取得了令人印象深刻的成果。每一种方法都是为特定的应用量身定制的。我们的框架的不同之处在于没有任何东西是特定于应用程序的。这使得我们的设置比大多数其他设置要简单得多。
我们的方法在生成器和鉴别器的几个架构选择上也不同于以前的工作。与以往的工作不同,我们的生成器使用了基于“U-Net”的架构[47],我们的鉴别器使用了卷积“PatchGAN”分类器,它只在图像补丁的尺度上惩罚结构。以前在[35]中也提出过类似的PatchGAN架构,目的是获取本地样式的统计信息。在这里,我们表明,这种方法是有效的,在更广泛的问题,我们调查的影响,改变补丁大小。
图2:训练一个有条件的GAN来映射边→照片。鉴别器D学习区分伪(由生成器合成)和真{edge, photo}元组。发生器G学会了欺骗鉴别器。与无条件GAN不同,生成器和鉴别器都观察输入边映射
GANs是生成模型,它学习从随机噪声向量z到输出图像y的映射,G: z→y[22]。与此相反,条件GANs学习从观测图像x和随机噪声向量z到y, G: {x, z}→y的映射。对生成器G进行训练,使其产生无法通过对抗训练的鉴别器D区别于“真实”图像的输出,D被训练以尽可能地检测生成器的“伪”。这个训练过程如图2所示。
条件GAN的目标可以表示为
其中G试图最小化这个目标,而敌对的D试图最大化它,即G∗= arg minG maxD LcGAN (G, D)。
为了测试条件反射鉴别器的重要性,我们还将其与鉴别器不观察x的无条件变体进行比较:
以前的方法已经发现将GAN目标与更传统的损失(如L2距离[40])混合是有益的。鉴别器的工作保持不变,但生成器的任务不仅是欺骗鉴别器,而且在L2意义上接近地面真值输出。我们也探索了这个选项,使用L1距离而不是L2作为L1来鼓励更少的模糊:
我们的最终目标是
如果没有z,网络仍然可以学习x到y的映射,但会产生确定性的输出,因此不能匹配除delta函数以外的任何分布。过去有条件的GANs已经承认了这一点,并提供了高斯噪声z作为生成器的输入,除了x(例如,[52])。在最初的实验中,我们发现这种策略并不有效——生成器只是学会了忽略噪声——这与Mathieu et al.[37]一致。相反,对于我们最终的模型,我们只以dropout的形式提供噪声,并在训练和测试时应用于生成器的几层上。尽管有dropout噪声,我们观察到在我们的网的输出中只有很小的随机性。设计产生高度随机输出的条件GAN,从而捕获其模型条件分布的全部熵,是目前工作留下的一个重要问题。
我们采用[41]中的生成器和鉴别器架构。生成器和鉴别器都使用**Conv-BatchNorm-Relu[**26]形式的模块。在线补充材料提供了体系结构的详细信息,下面讨论了关键特性。
图像到图像的转换问题的一个定义特征是,它们将高分辨率的输入网格映射到高分辨率的输出网格。此外,对于我们考虑的问题,输入和输出在表面外观上不同,但都是相同的底层结构的渲染。因此,输入中的结构与输出中的结构大致对齐。我们围绕这些考虑来设计生成器架构。
在此领域,许多以前的解决方案[40,52,27,60,56]都使用了编码器-解码器网络[24]。在这样的网络中,输入通过一系列层,逐步向下采样,直到瓶颈层,此时过程被逆转。这样的网络要求所有的信息流通过所有的层,包括瓶颈。对于许多图像转换问题,在输入和输出之间有大量的低级信息共享,而将这些信息直接在网络上传输是可取的。例如,在图像着色的情况下,输入和输出共享突出边缘的位置。
为了给生成器提供一种方法来绕过这样的信息瓶颈,我们按照“U-Net”[47]的一般形状添加了跳过连接。具体来说,我们在每一层i和每一层n-i之间添加跳跃连接,其中n为总层数。每个跳跃式连接简单地将第i层的所有通道与第n-i层的通道连接起来。
图3:不同的损失导致不同质量的结果。每一列显示在不同损失下训练的结果。请参阅https://phillipi.github.io/pix2pix/以获得更多示例
众所周知,L2损失-和L1,见图3 -在图像生成问题[31]上产生模糊的结果。虽然这些损失不能促进高频信息的清晰,但在许多情况下,它们仍然能准确地捕捉到低频的声音。对于这种情况下的问题,我们不需要一个全新的框架来强制在低频率的正确性。L1已经可以了。
这就限制了GAN鉴别器只建模高频结构,依赖L1项来强制低频正确(Eqn. 4)。为了建模高频,我们只关注局部图像补丁中的结构就足够了。因此,我们设计了一个鉴别器架构——我们称之为PatchGAN——它只在补丁的规模上惩罚结构。该鉴别器试图区分图像中每个N × N个patch是真还是假。我们在图像上卷积运行这个鉴别器,平均所有响应以提供最终的D输出。
在4.4节中,我们证明了N可以比图像的全尺寸小得多,但仍然可以产生高质量的结果。这是有利的,因为较小的PatchGAN具有更少的参数,运行更快,并且可以应用于任意大的图像。
这种鉴别器有效地将图像建模为马尔可夫随机场,假设像素之间的独立性大于一个patch直径。这种联系之前在[35]中有所探讨,也是纹理[15,19]和风格[14,23,20,34]模型中常见的假设。因此,我们的PatchGAN可以被理解为一种纹理/风格的损失。
为了优化我们的网络,我们遵循从[22]开始的标准方法:我们在D上交替执行一个梯度下降步骤,然后在g上执行一个步骤。我们使用小批量SGD并应用Adam求解器[29]。
在推断时,我们以与训练阶段完全相同的方式运行发电网络。这与通常的协议不同,因为我们在测试时应用dropout,并且我们使用测试批的统计信息应用批归一化[26],而不是训练批的聚合统计信息。当批大小设置为1时,这种批归一化方法被称为“实例归一化”,并已被证明在映像生成任务[51]中有效。在我们的实验中,根据实验的不同,我们使用1到10之间的批大小。
为了探索条件GANs的普遍性,我们在各种任务和数据集上测试该方法,包括图形任务,如照片生成,和视觉任务,如语义分割:
在这些数据集上的训练细节在在线补充材料中提供。在所有情况下,输入和输出仅仅是1-3通道的图像。定性结果如图7、8、9、10和11所示,在线材料中还有其他结果和失败案例
评价合成图像的质量是一个开放和困难的问题。传统的度量标准,如像素均方误差,不能评估结果的联合统计,因此不能测量结构性损失旨在捕获的结构。
为了更全面地评估结果的视觉质量,我们采用了两种策略。首先,我们在Amazon Mechanical Turk (AMT)上进行了“真实vs虚假”感知研究。对于像着色和照片生成这样的图形问题,对人类观察者来说,可信通常是最终目标。因此,我们使用这种方法测试我们的地图生成、航空照片生成和图像着色。
其次,我们衡量我们合成的城市景观是否足够逼真,使现成的识别系统能够识别其中的物体。该指标类似于[49]中的“初始评分”,[52]中的对象检测评估,以及[58]和[39]中的“语义可解释性”度量。
AMT感知研究
对于我们的AMT实验,我们遵循了[58]的协议:Turkers被展示了一系列的试验,将我们的算法生成的“真实”图像与“虚假”图像进行比较。在每次试验中,每张图片都出现1秒,之后图片就消失了,特克们有无限的时间来判断哪个是假的。每个阶段的前10张图片是练习,Turkers被给予反馈。主实验的40次试验没有反馈。每个会话每次只测试一个算法,并且Turkers不允许完成超过一个会话。~ 50个Turkers评估每个算法。所有图像均以256 × 256分辨率呈现。不像[58],我们不包括警戒性试验。在我们的着色实验中,真实图像和虚假图像由相同的灰度输入生成。对于地图↔航拍照片,不从同一输入生成真伪图像,以增加任务难度和避免地面↔航拍结果。
FCN分数
虽然生成模型的定量评估是具有挑战性的,但最近的研究[49,52,58,39]尝试使用预先训练的语义分类器来衡量生成刺激的可鉴别性,作为伪度量。直觉是,如果生成的图像是真实的,在真实图像上训练的分类器也将能够正确地对合成的图像进行分类。为此,我们采用流行的FCN-8s[36]架构进行语义分割,并在城市景观数据集上进行训练。然后,我们根据合成照片所依据的标签的分类精度对合成照片进行评分。
表1:城市景观标签↔照片不同损失的fcn -评分
Eqn. 4中目标的哪些部分是重要的?我们进行消融研究,分离L1项和GAN项的影响,并比较使用基于输入条件的鉴别器(cGAN, Eqn. 1)和使用无条件鉴别器(GAN, Eqn. 2)。
图3显示了这些变化对两个标签→照片问题的定性影响。单独的L1会得到合理但模糊的结果。cGAN单独(设置λ = 0在Eqn. 4)给出了更清晰的结果,但在某些应用程序上引入了视觉工件。将两项相加(λ = 100)可以减少这些影响。
我们使用fcn -得分对城市景观标签上的标签→照片任务(表1)对这些观察进行量化:基于gan的目标获得更高的分数,表明合成的图像包含更容易识别的结构。我们还测试了从鉴别器(标记为GAN)中去除条件反射的效果。在这种情况下,损失不会惩罚输入和输出之间的不匹配;它只关心输出是否真实。这种变体会导致非常糟糕的性能;检查结果显示,无论输入的是什么照片,发生器都会崩溃产生几乎完全相同的输出。显然,在这种情况下,损失衡量输入和输出之间匹配的质量是很重要的,的确,cGAN的性能比GAN好得多。然而,请注意,添加L1项也会鼓励输出尊重输入,因为L1损耗抵消了接地真值输出(正确匹配输入)和合成输出(可能不匹配)之间的距离。相应地,L1+GAN也可以有效地创建符合输入标签映射的真实渲染。结合所有项,L1+cGAN,表现同样好。
色彩
有条件GANs的一个显著效果是,它们产生清晰的图像,产生幻觉的空间结构,即使它不存在于输入标签地图。人们可能会认为cga在光谱维度上有类似的“锐化”效果——即使图像更加丰富多彩。正如L1会在不确定边缘的确切位置时刺激模糊效果一样,它也会在不确定像素应该采用哪个可信颜色值时刺激平均的灰色颜色。特别地,通过选择条件概率密度函数在可能颜色上的中值,L1将被最小化。另一方面,对抗性损失在原则上可以意识到灰色输出是不现实的,并鼓励匹配真实的颜色分布[22]。在图6中,我们调查cga是否真的在cityscape数据集上实现了这种效果。这些图显示了实验室颜色空间中输出颜色值的边缘分布。实值分布用虚线表示。很明显,L1导致比基础真实值更窄的分布,证实了L1鼓励平均灰色的假设。另一方面,使用cGAN可以使输出分布更接近真实情况。
图4:向编码器-解码器添加跳过连接以创建一个“U-Net”,结果的质量要高得多
U-Net架构允许低级信息在网络上快速传递。这能带来更好的结果吗?图4比较了U-Net和编码器-解码器在城市景观生成上的差异。编码器-解码器只需通过切断UNet中的跳过连接来创建。编码器解码器无法在我们的实验中学习生成真实的图像。U-Net的优势似乎不是针对有条件GANs的:当U-Net和编码器-解码器都经过L1损耗训练时,U-Net再次获得了优越的结果(图4)。
表2:不同接受域大小的鉴别器的fcn得分,在城市景观标签→照片上评估。请注意,输入图像是256 × 256像素,较大的接收字段用零填充。
我们测试了从1 × 1“PixelGAN”到完整的286 × 286“ImageGAN”1,改变我们的鉴别器接受域的patch size N的效果。我们通过调整GAN鉴别器的深度来实现这种patch大小的变化。这个过程的细节,以及这个分析的鉴别器架构结果和表2使用FCN-score量化了影响。注意,在本文的其他地方,除非特别说明,所有实验都使用70 × 70 patchgan,本节所有实验都使用L1+cGAN损失。
PixelGAN对空间清晰度没有影响,但确实增加了结果的色彩(在图6中量化)。例如,图5中的总线在通过L1损耗训练网络时被涂成灰色,但随着PixelGAN损耗而变成红色。颜色直方图匹配是[46]图像处理中的一个常见问题,PixelGANs可能是一个很有前途的轻量级解决方案。
使用16×16 PatchGAN足以促进尖锐的输出,并达到良好的fcn分数,但也导致平铺工件。70 × 70的PatchGAN缓解了这些影响,并获得了类似的分数。再扩展到完整的286 × 286 ImageGAN,似乎并没有改善结果的视觉质量,实际上得到了一个相当低的fcn -评分(表2)。这可能是因为ImageGAN比70 × 70 PatchGAN有更多的参数和更大的深度,并且可能更难训练。
Fully-convolutional翻译
图7:512x512分辨率下谷歌Maps上的示例结果(模型在256 × 256分辨率的图像上训练,并在测试时在较大的图像上卷积运行)。对比度调整为清晰。
PatchGAN的一个优点是固定大小的patch鉴别器可以应用于任意大的图像。我们还可以将生成器卷积地应用于比它所训练的更大的图像。我们在地图↔航拍任务中进行测试。在256×256图像上训练生成器后,我们在512 × 512图像上测试它。图7中的结果展示了这种方法的有效性。
图5:补丁大小变化对于不同的损失函数,输出的不确定性表现出不同的特点。L1下,不确定区域变得模糊,饱和度降低。1x1 PixelGAN鼓励更大的颜色多样性,但对空间统计没有影响。16x16的PatchGAN可以产生局部清晰的结果,但也会产生超出其观测范围的平铺工件。70×70 PatchGAN的力量输出是尖锐的,即使不正确,在空间和光谱(色彩)维度。完整的286×286 ImageGAN产生的结果,在视觉上类似于70×70 PatchGAN,但根据我们的fcn评分指标(表2),质量稍低。请参阅https://phillipi.github.io/pix2pix/的其他例子
图6:cGAN的颜色分布匹配特性,在Cityscapes上测试。(c.f.图1 GAN原始纸[22])。请注意,直方图的交集得分主要由高概率区域的差异所主导,这些差异在图中是无法察觉的,图中显示的是对数概率,因此强调了低概率区域的差异
图8:条件GANs的着色结果与从[58]开始的L2回归和从[60]开始的完整方法(带再平衡的分类)。cga可以产生引人注目的着色(前两行),但有一个常见的失败模式,即产生灰度或不饱和的结果(最后一行)。
表3:地图↔航拍照片的AMT“真伪”检验。
表4:AMT“真假”着色测试。
在地图↔航拍和灰度→颜色两项任务上验证了本文研究结果的感性真实感。地图↔照片的AMT实验结果见表3。我们的方法生成的航拍照片在18.9%的试验中欺骗了参与者,显著高于L1基线,这产生了模糊的结果,几乎从未欺骗过参与者。相比之下,在照片→地图的方向上,我们的方法只在6.1%的试验中愚弄了参与者,这与L1基线(基于bootstrap测试)的表现没有显著差异。这可能是因为小的结构错误在具有刚性几何结构的地图上比在更混乱的航空照片上更明显。
我们在ImageNet[48]上训练着色,并在[58,32]引入的测试拆分上进行测试。我们的方法,L1+cGAN损失,欺骗了22.5%的试验参与者(表4)。我们还测试了[58]的结果,以及他们使用L2损失的方法的变体(详见[58])。有条件的GAN得分与[58]的L2变体相似(通过bootstrap测试差异不显著),但低于[58]的完整方法,在我们的实验中有27.8%的试验愚弄了参与者。我们注意到,他们的方法是专门设计的,在着色上做得很好。
图11:将条件GAN应用于语义分割cGAN产生清晰的图像,乍一看就像真实的地面,但实际上包括许多幻觉中的小物体。
表5:照片→城市景观标签的表现。
有条件的GANs似乎在输出高度详细或照相的问题上是有效的,这在图像处理和图形任务中是常见的。那视觉问题呢,比如语义分割,输出不如输入复杂?
为了开始测试这一点,我们训练cGAN(与/没有L1损失)的城市景观照片→标签。图11显示了定性结果,表5报告了定量分类的准确性。有趣的是,在训练中没有L1损失的cga能够以合理的精度解决这个问题。据我们所知,这是GANs成功生成“标签”的第一次演示,“标签”几乎是离散的,而不是具有连续值变化的“图像”2。虽然cGAN取得了一些成功,但它们还远远不是解决这个问题的最佳方法:简单地使用L1回归比使用cGAN获得更好的分数,如表5所示。我们认为,对于视觉问题,目标(即预测接近地面真相的输出)可能比图形任务更明确,而像L1这样的重建损失基本上就足够了。
图10:在线社区基于我们的pix2pix代码库开发的应用示例:Christopher Hesse的#edges2cats [3], Mario Kingemann的Sketch→Portrait [7], Brannon Dorsey的“Do As I Do”pose转移[2],Jasper van Loenen的Depth→Streetview [5], Kaihu Chen的背景移除[6],Jack Qiao的Palette生成[4],以及Bertrand Gondouin的Sketch→Pokemon[1]。
图9:我们的方法在几个任务上的结果(数据来自[42]和[17])。请注意,草图→照片的结果是由一个经过自动边缘检测训练的模型生成的,并在人类绘制的草图上进行测试。请查看在线资料以获得更多示例。
自从这篇论文和我们的pix2pix代码库首次发布以来,Twitter社区,包括计算机视觉和图形从业者以及艺术家,已经成功地将我们的框架应用于各种新颖的图像到图像的翻译任务,远远超出了原始论文的范围。图10展示了一些来自#pix2pix标签的例子,如素描→人像,“Do as I Do”姿势转移,深度→街景,背景移除,调色板生成,素描→Pokemon,以及奇怪的流行的#edges2cats
本文的结果表明,条件对抗网络是一种很有前途的方法,用于许多图像-图像转换任务,特别是那些涉及高度结构化图形输出的任务。这些网络根据手头的任务和数据学习损失,这使它们适用于各种各样的环境
[1] Bertrand gondouin. https://twitter.com/ bgondouin/status/818571935529377792. Accessed, 2017-04-21. 8
[2] Brannon dorsey. https://twitter.com/ brannondorsey/status/806283494041223168. Accessed, 2017-04-21. 8
[3] Christopher hesse. https://affinelayer.com/ pixsrv/. Accessed: 2017-04-21. 8
[4] Jack qiao. http://colormind.io/blog/. Accessed: 2017-04-21. 8
[5] Jasper van loenen. https://jaspervanloenen. com/neural-city/. Accessed, 2017-04-21. 8
[6] Kaihu chen. http://www.terraai.org/ imageops/index.html. Accessed, 2017-04-21. 8
[7] Mario klingemann. https://twitter.com/ quasimondo/status/826065030944870400. Accessed, 2017-04-21. 8
[8] A. Buades, B. Coll, and J.-M. Morel. A non-local algorithm for image denoising. In CVPR, volume 2, pages 60–65. IEEE, 2005. 1
[9] L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Y uille. Semantic image segmentation with deep convolutional nets and fully connected crfs. In ICLR, 2015. 2
[10] T. Chen, M.-M. Cheng, P . Tan, A. Shamir, and S.-M. Hu. Sketch2photo: internet image montage. ACM Transactions on Graphics (TOG), 28(5):124, 2009. 1
[11] M. Cordts, M. Omran, S. Ramos, T. Rehfeld, M. Enzweiler, R. Benenson, U. Franke, S. Roth, and B. Schiele. The cityscapes dataset for semantic urban scene understanding. In CVPR), 2016. 4
[12] E. L. Denton, S. Chintala, R. Fergus, et al. Deep generative image models using alaplacian pyramid of adversarial networks. In NIPS, pages 1486–1494, 2015. 2
[13] A. Dosovitskiy and T. Brox. Generating images with perceptual similarity metrics based on deep networks. arXiv preprint arXiv:1602.02644, 2016. 2
[14] A. A. Efros and W. T. Freeman. Image quilting for texture synthesis and transfer. In SIGGRAPH, pages 341–346. ACM, 2001. 1, 4
[15] A. A. Efros and T. K. Leung. Texture synthesis by nonparametric sampling. In ICCV, volume 2, pages 1033–1038. IEEE, 1999. 4
[16] D. Eigen and R. Fergus. Predicting depth, surface normals and semantic labels with a common multi-scale convolutional architecture. In Proceedings of the IEEE International Conference on Computer Vision, pages 2650–2658, 2015. 1
[17] M. Eitz, J. Hays, and M. Alexa. How do humans sketch objects? SIGGRAPH, 31(4):44–1, 2012. 4, 8
[18] R. Fergus, B. Singh, A. Hertzmann, S. T. Roweis, and W. T. Freeman. Removing camera shake from a single photograph. In ACM Transactions on Graphics (TOG), volume 25, pages 787–794. ACM, 2006. 1
[19] L. A. Gatys, A. S. Ecker, and M. Bethge. Texture synthesis and the controlled generation of natural stimuli using convolutional neural networks. arXiv preprint arXiv:1505.07376, 12, 2015. 4
[20] L. A. Gatys, A. S. Ecker, and M. Bethge. Image style transfer using convolutional neural networks. CVPR, 2016. 4
[21] J. Gauthier. Conditional generative adversarial nets for convolutional face generation. Class Project for Stanford CS231N: Convolutional Neural Networks for Visual Recognition, Winter semester, 2014(5):2, 2014. 2
[22] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, and Y . Bengio. Generative adversarial nets. In NIPS, 2014. 2, 4, 5, 6
[23] A. Hertzmann, C. E. Jacobs, N. Oliver, B. Curless, and D. H. Salesin. Image analogies. In SIGGRAPH, pages 327–340. ACM, 2001. 1, 4
[24] G. E. Hinton and R. R. Salakhutdinov. Reducing the dimensionality of data with neural networks. Science, 313(5786):504–507, 2006. 3
[25] S. Iizuka, E. Simo-Serra, and H. Ishikawa. Let there be Color!: Joint End-to-end Learning of Global and Local Image Priors for Automatic Image Colorization with Simultaneous Classification. ACM Transactions on Graphics (TOG), 35(4), 2016. 2
[26] S. Ioffe and C. Szegedy. Batch normalization: Accelerating deep network training by reducing internal covariate shift. 2015. 3, 4
[27] J. Johnson, A. Alahi, and L. Fei-Fei. Perceptual losses for real-time style transfer and super-resolution. 2016. 2, 3
[28] L. Karacan, Z. Akata, A. Erdem, and E. Erdem. Learning to generate images of outdoor scenes from attributes and semantic layouts. arXiv preprint arXiv:1612.00215, 2016. 2
[29] D. Kingma and J. Ba. Adam: A method for stochastic optimization. ICLR, 2015. 4
[30] P .-Y . Laffont, Z. Ren, X. Tao, C. Qian, and J. Hays. Transient attributes for high-level understanding and editing of outdoor scenes. ACM Transactions on Graphics (TOG), 33(4):149, 2014. 1, 4
[31] A. B. L. Larsen, S. K. Sønderby, and O. Winther. Autoencoding beyond pixels using a learned similarity metric. arXiv preprint arXiv:1512.09300, 2015. 3
[32] G. Larsson, M. Maire, and G. Shakhnarovich. Learning representations for automatic colorization. ECCV, 2016. 2, 7
[33] C. Ledig, L. Theis, F. Huszár, J. Caballero, A. Cunningham, A. Acosta, A. Aitken, A. Tejani, J. Totz, Z. Wang, et al. Photo-realistic single image super-resolution using a generative adversarial network. arXiv preprint arXiv:1609.04802, 2016. 2
[34] C. Li and M. Wand. Combining markov random fields and convolutional neural networks for image synthesis. CVPR, 2016. 2, 4
[35] C. Li and M. Wand. Precomputed real-time texture synthesis with markovian generative adversarial networks. ECCV, 2016. 2, 4
[36] J. Long, E. Shelhamer, and T. Darrell. Fully convolutional networks for semantic segmentation. In CVPR, pages 3431– 3440, 2015. 1, 2, 4
[37] M. Mathieu, C. Couprie, and Y . LeCun. Deep multi-scale video prediction beyond mean square error. ICLR, 2016. 2, 3
[38] M. Mirza and S. Osindero. Conditional generative adversarial nets. arXiv preprint arXiv:1411.1784, 2014. 2
[39] A. Owens, P . Isola, J. McDermott, A. Torralba, E. H. Adelson, and W. T. Freeman. Visually indicated sounds. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 2405–2413, 2016. 4
[40] D. Pathak, P . Krahenbuhl, J. Donahue, T. Darrell, and A. A. Efros. Context encoders: Feature learning by inpainting. CVPR, 2016. 2, 3
[41] A. Radford, L. Metz, and S. Chintala. Unsupervised representation learning with deep convolutional generative adversarial networks. arXiv preprint arXiv:1511.06434, 2015. 2, 3
[42] R. ˇS. Radim Tyleˇcek. Spatial pattern templates for recognition of objects with regular structure. In Proc. GCPR, Saarbrucken, Germany, 2013. 4, 8
[43] S. Reed, Z. Akata, X. Y an, L. Logeswaran, B. Schiele, and H. Lee. Generative adversarial text to image synthesis. arXiv preprint arXiv:1605.05396, 2016. 2
[44] S. Reed, A. van den Oord, N. Kalchbrenner, V . Bapst, M. Botvinick, and N. de Freitas. Generating interpretable images with controllable structure. Technical report, Technical report, 2016. 2, 2016. 2
[45] S. E. Reed, Z. Akata, S. Mohan, S. Tenka, B. Schiele, and H. Lee. Learning what and where to draw. In Advances In Neural Information Processing Systems, pages 217–225, 2016. 2
[46] E. Reinhard, M. Ashikhmin, B. Gooch, and P . Shirley. Color transfer between images. IEEE Computer Graphics and Applications, 21:34–41, 2001. 6
[47] O. Ronneberger, P . Fischer, and T. Brox. U-net: Convolutional networks for biomedical image segmentation. In MICCAI, pages 234–241. Springer, 2015. 2, 3
[48] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, et al. Imagenet large scale visual recognition challenge. IJCV, 115(3):211–252, 2015. 4, 7
[49] T. Salimans, I. Goodfellow, W. Zaremba, V . Cheung, A. Radford, and X. Chen. Improved techniques for training gans. arXiv preprint arXiv:1606.03498, 2016. 2, 4
[50] Y . Shih, S. Paris, F. Durand, and W. T. Freeman. Data-driven hallucination of different times of day from a single outdoor photo. ACM Transactions on Graphics (TOG), 32(6):200, 2013. 1
[51] D. Ulyanov, A. V edaldi, and V . Lempitsky. Instance normalization: The missing ingredient for fast stylization. arXiv preprint arXiv:1607.08022, 2016. 4
[52] X. Wang and A. Gupta. Generative image modeling using style and structure adversarial networks. ECCV, 2016. 2, 3, 4
[53] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P . Simoncelli. Image quality assessment: from error visibility to structural similarity. IEEE Transactions on Image Processing, 13(4):600–612, 2004. 2
[54] S. Xie, X. Huang, and Z. Tu. Top-down learning for structured labeling with convolutional pseudoprior. 2015. 2
[55] S. Xie and Z. Tu. Holistically-nested edge detection. In ICCV, 2015. 1, 2, 4
[56] D. Y oo, N. Kim, S. Park, A. S. Paek, and I. S. Kweon. Pixellevel domain transfer. ECCV, 2016. 2, 3
[57] A. Y u and K. Grauman. Fine-Grained Visual Comparisons with Local Learning. In CVPR, 2014. 4
[58] R. Zhang, P . Isola, and A. A. Efros. Colorful image colorization. ECCV, 2016. 1, 2, 4, 7
[59] J. Zhao, M. Mathieu, and Y . LeCun. Energy-based generative adversarial network. arXiv preprint arXiv:1609.03126, 2016. 2
[60] Y . Zhou and T. L. Berg. Learning temporal transformations from time-lapse videos. In ECCV, 2016. 2, 3, 7
[61] J.-Y . Zhu, P . Krähenbühl, E. Shechtman, and A. A. Efros. Generative visual manipulation on the natural image manifold. In ECCV, 2016. 2, 4