原论文标题:Image-to-Image Translation with Conditional Adversarial Networks
Isola P, Zhu J Y, Zhou T, et al. Image-to-image translation with conditional adversarial networks[C]. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, 2017: 1125-1134.
作者:菲利普·伊索拉、朱俊彦、周廷辉、阿列克谢·埃弗罗斯,加州大学伯克利分校-伯克利人工智能研究实验室
译者:赵子敬,北京航空航天大学计算机学院;孟凡怡,北京语言大学高级翻译学院
经调研,条件对抗网络是图对图翻译问题的一种通用解决方法。这类网络不仅学习输入图像和输出图像之间的映射关系,更学习这一映射关系训练中的损失函数。从而得以为原本需要不同损失函数的多个问题提供相同的一般方法。实验表明,该方法能有效地从标签图中综合出照片、从轮廓图中重建出物体、为黑白图像上色,等等。此外,自基于本文实现的像素转换软件发布后,有数百名推特用户分享了自己的画作试验。在这一领域,用户已经可以无需手动搭建图像转换中的映射函数,而本文的工作表明,同样无需手动设计损失函数,也可得到良好的训练效果。
图像处理、计算机图形学和计算机视觉中的很多问题可以被归类为,将输入图像“翻译”为相关的图像作为输出。就像一个概念可以被用英语表达,也可以被用法语表达,一个场景可以用 RGB 图像呈现,也可以用梯度场、轮廓图、语义标签图等等多种方式呈现。类比语言文字的自动翻译,可以为自动图对图翻译作如下定义:给予足够的训练数据,实现将场景的一种呈现方式转换为另一种呈现方式(如图1)。传统解决方法是为这些问题逐个设计单独的、针对特定目标的机制(例如[14, 23, 18, 8, 10, 50, 30, 36, 16, 55, 58]),尽管这些问题的设定都是一样的:从源像素预测目标像素。本文的目标是为这些问题设计一个通用的架构。
随着卷积神经网络(CNNs)挑起广大图像预测问题的重担,学界在自动图对图翻译的研究方向上已经迈出了重要步伐。卷积神经网络的学习过程是使得损失函数——用以量化预测结果好坏的目标——取最小值的过程,尽管该过程是自动进行的,但设计有效的损失函数仍然需要不少人为的努力。换言之,CNN 学习优化的目标仍需人为设定。正如弥达斯国王之愿,目标不能草率地设定。若简单地以预测像素和标准像素之间的欧氏距离作为损失,那么学习出的网络可能会使输入图像产生一片模糊不清的输出结果[40, 58]。由于欧氏距离为所有可能的输出的平均值取了最小值,图像边缘特征被忽略,从而产生了输出图像的模糊。如何设计合适的损失函数,指导 CNN 产出人们期望的(例如锐化的、清晰的)输出,是业界经常面临的问题,也常常是需要相当专业的知识才能解决的问题。
令人心向往之的模式是,仅仅指定一个高级别任务,例如“使输出图像能够以假乱真”,令系统自动学习适应该任务的损失函数。幸运的是,近些年提出的生成对抗网络(GANs)[22, 12, 41, 49, 59] 已经完成了上述工作。 GAN 的对抗部分学习一个用以辨别输出图像真伪的损失函数,同时其生成部分训练一个生成模型来使该损失函数取最小值。上述模式不会输出模糊的图像,因为其视觉上假的特性会被对抗部分修正。由于 GAN 自动学习了适应数据的损失函数,它可以应用于原本需要不同损失函数的多个任务。
本文探究了赋予条件设定的 GAN。正如生成对抗网络用数据训练了生成模型,条件生成对抗网络(cGANs)训练了条件生成模型[22]。这使 cGANs 很适合处理图对图翻译问题,其中我们以输入图像作为条件,生成相关的输出图像。
GAN 是近两年研究的热点,本文所探究的多项技术都曾被提出过。然而先前的文章都专注于特定应用,尚不清楚以图像为条件的 GAN 作为通用方法解决图对图翻译问题的效率如何。本文的主要贡献在于,论证了条件生成对抗网络应用于广泛的一类问题均可产生良好效果。本文的次要工作是构建了一个足以产生良好效果的简单框架,并分析了几个重要架构部分的选择对输出结果的影响。在以下链接获取本文相关代码:https://github.com/phillipi/pix2pix 。
图像模型的结构化损失 图对图翻译问题常被归纳为逐个像素的分类或回归问题(例如[36, 55, 25, 32, 58])。上述归纳方式将输出空间视为“非结构化的”,其含义为,在给定输入图像的情况下,每个输出像素被视为条件独立于所有其他像素。条件生成对抗网络则学习一个“结构化”的损失。结构化损失惩罚的是输出图像像素间的关联特性。大量文献研究考虑了这种损失,其方法包括条件随机场[9]、SSIM度量[53]、特征匹配[13]、非参数损失[34]、卷积伪先验[54]和基于匹配协方差统计的损失[27] 。而条件生成对抗网络的不同之处在于,其损失函数是可以被学习的,因此可以惩罚输出图像和目标图像之间任何有可能的结构化差异。
条件生成对抗网络 本文并非首先提出为 GAN 增添条件设定。先前及相关的研究已经为 GAN 增添过诸如离散标签[38, 21, 12]、文本[43]乃至图像的条件设定。图像条件模型处理了来自普通地图的图像预测[52]、未来帧预测[37]、产品照片生成[56]和来自稀疏注释的图像生成[28, 45](对于相同问题的自回归方法见[44])。另一些文章也曾将 GAN 用于图对图映射,但没有为 GAN 增添条件设定,而是依赖其他形式(如 L2 回归)去迫使输出受到输入的约束。这些论文在图像修复[40]、未来状态预测[60]、基于用户约束的图像处理[61]、风格转换[35]和超分辨率[33]等方面取得了极佳的成果。这些方法都是针对特定应用而订制的,而本文框架的特别之处在于并不针对任何特定应用,这使得本文框架设定相比大多数其他框架设定大大简化。
本文的框架不同于先前的研究还在于生成器和鉴别器的架构选择。本框架的生成器选择了基于 U-Net 的架构[47],而鉴别器则选择了只惩罚图像块层次上的结构化损失的卷积 PatchGAN 分类器。类似的 PatchGAN 架构在文献[35]中被提出过,目的是获取局部风格数据。本文表明该方法可用于有效解决更广泛的问题,并研究了不同图像块尺寸对结果的影响。
GAN 使用的是学习随机噪声向量 z z z 到输出图像 y y y 的映射的生成器 G : z → y G: z \xrightarrow{} y G:zy [22]。与之相对的 cGAN 学习的是输入图像 x x x 和随机噪声向量 z z z 到输出图像 y y y 的映射 G : { x , z } → y G: \{x,z\} \xrightarrow{} y G:{x,z}y 。生成器 G 的训练目标是生成以假乱真骗过鉴别器 D 的生成图像,而鉴别器 D 的训练目标是尽可能敏锐地鉴别 G 所生成图像的真伪。训练过程如图2所示。
条件生成对抗网络的目标损失函数可以被表示为:
L c G A N ( G , D ) = E x , y [ l o g D ( x , y ) ] + E x , z [ l o g ( 1 − D ( x , G ( x , z ) ) ] (1) \mathcal{L}_{cGAN}(G,D) = \mathbb{E}_{x,y}[logD(x, y)]+\\ \mathbb{E}_{x,z}[log(1 − D(x,G(x, z))] \tag{1} LcGAN(G,D)=Ex,y[logD(x,y)]+Ex,z[log(1−D(x,G(x,z))](1)
生成器 G 的训练目标是使上式的取值尽可能小,而与之相对抗的鉴别器 D 则希望使之尽可能大,即 G ∗ = a r g m i n G m a x D L c G A N ( G , D ) G^* = arg \space min_G \space max_D \space \mathcal{L}_{cGAN}(G,D) G∗=arg minG maxD LcGAN(G,D) 。
为了检测对鉴别器附加条件设定的重要性,本实验将对比未加条件设定的目标损失函数变体,其中鉴别器将不考虑输入图像对真伪分类的影响:
L c G A N ( G , D ) = E y [ l o g D ( y ) ] + E x , z [ l o g ( 1 − D ( x , G ( x , z ) ) ] (2) \mathcal{L}_{cGAN}(G,D) =\mathbb{E}_{y}[logD(y)]+\\\mathbb{E}_{x,z}[log(1 − D(x,G(x, z))] \tag{2} LcGAN(G,D)=Ey[logD(y)]+Ex,z[log(1−D(x,G(x,z))](2)
先前的研究发现,将 GAN 的目标损失函数与更传统的损失(如 L2 距离)相结合,会产生有益的效果。鉴别器的任务没有变化,但生成器此时不仅要骗过鉴别器的真伪二分类,还要在 L2 距离的度量下尽可能接近真实图像。经探究这一步骤,由于 L1 更能避免图像模糊,本实验采用 L1 距离替代 L2 距离:
L L 1 ( G ) = E x , y , z [ ∣ ∣ y − G ( x , z ) ∣ ∣ 1 ] (3) \mathcal{L}_{L_1}(G)=\mathbb{E}_{x,y,z}[||y-G(x,z)||_1]\tag{3} LL1(G)=Ex,y,z[∣∣y−G(x,z)∣∣1](3)
框架最终的目标:
G ∗ = a r g m i n G m a x D L c G A N ( G , D ) + λ L L 1 ( G ) (4) G^* = arg \space \mathop{min}\limits_{G} \mathop{max}\limits_{D} \space \mathcal{L}_{cGAN}(G,D) + \lambda \mathcal{L}_{L_1}(G) \tag{4} G∗=arg GminDmax LcGAN(G,D)+λLL1(G)(4)
若不考虑 z z z ,网络同样能学习得到 x x x 到 y y y 的映射,但会产生确定的结果,因而无法匹配除 delta 函数外的任何分布。先前提出的 cGAN 模型已经证实了这一点,并提出了将高斯噪声 z z z 作为 x x x 之外的另一输入变量加入生成器(例如[52])。本文最初的实验表明该策略效果不佳,生成器在学习中会直接忽略噪声,这一结果与马修先生的研究一致[37]。本文最终的模型并未引入高斯噪声,而仅是为生成器的几层网络加入 dropout 形式的噪声(训练过程和测试过程均有应用)。尽管本框架加入了 dropout,其输出还是只呈现很小程度的随机性。设计产生高度随机输出的cGAN,从而捕获它们所模拟的条件分布的全部熵,是本工作留下的一个重要的开放问题。
本文的生成器和鉴别器架构改写自论文[41],二者都采用了卷积-批标准化-线性整流(convolution-BatchNorm-ReLu)[26]形式的模块。架构的细节通过在线补充材料给出,下面仅讨论架构的几个关键特征。
图对图翻译问题的决定性特征是其将高分辨率的输入网格映射到高分辨率的输出网格。另外,对于我们考虑的问题,输入和输出图像表面上不同,但都是同一内在结构的呈现,因此输入输出的结构大体是一致的。我们围绕上述考虑设计了生成器。
这一领域的问题先前的解决方案[40, 52, 27, 60, 56]使用了编码器-解码器(encoder-decoder)网络[24]。在这种网络中,输入通过一系列逐渐减少采样的层,直到瓶颈层该过程反转。这种网络需要信息流通过包括瓶颈层在内的所有层次。很多图像翻译问题中,输入和输出共享着大量底层信息,这部分信息最好能跨过网络直接传送。例如在图像上色问题中,输入和输出共享着突出边缘的位置信息。
为了赋予生成器一种让共享信息绕过瓶颈层的方法,本架构承袭了 U-Net [47]架构的一般形式。具体来说,本框架为每个第 i i i 层和第 n − i n-i n−i 层添加了跳跃链接,其中 n n n 是网络总层数。每个跳跃链接都简单地将第 i i i 层所有的通道和第 n − i n-i n−i 层对应的通道相连接。
众所周知,L2 损失(包括 L1 损失)会在图像生成问题中产生模糊问题[31],如图3所示。这类损失尽管难以在高频段贡献图像清晰度,但在诸多情况下可以准确锁定低频段。这类问题无需为确保低频段正确性而专门设计全新的框架,L1 损失会完成该任务。
上述特性促使架构限制 GAN 的鉴别器仅模拟高频结构,而依赖 L1 损失项确保低频正确性(如公式4)。为了模拟高频结构,鉴别器有必要聚焦于局部图像块的结构。因此本架构的鉴别器仅惩罚图像块维度的结构,本文称之为 PatchGAN。该鉴别器试图对图像的每一个 N × N N \times N N×N 图像块做真假二分类。鉴别器在图像上以卷积形式运行,为所有计算结果取平均值作为最终输出。
本文4.4节分析表明, N N N 的值远小于图像尺寸时架构依然可以产生高质量输出。这一特性十分有利,因为更小的 PatchGAN 意味着参数更少,运行更快,因而可以应用于任意大尺寸的图像。
此类鉴别器有效地将图像建模为马尔科夫场,它假设图像中距离大于图像块直径的任意两点相互独立。这种联系曾被[35]探究,同时也是纹理模型[15, 19]和风格模型[14, 23, 20, 34]的共同假设。本文的 PatchGAN 也可以理解为是一种纹理/风格损失。
为了优化网络,本框架从[22]中承袭了标准方法:交替进行 D 上梯度下降一步和 G 上梯度下降一步。框架采用微小批随机梯度下降(minibatch SGD)并应用了亚当算法(Adam solver)。
本文在推导阶段采用了与训练阶段完全一致的生成器使用方式,这与通常的在测试阶段应用 dropout 的模式相异。另外,本文基于测试批的统计数据,而非训练批的聚合统计数据应用批标准化(batch normalization)。此方法中数据批尺寸(batch size)设定为1时称作“实例标准化(instance normalization)”,其已被论证在图像生成任务中表现极佳[51]。本文根据具体实验的不同而采用1到10之间的数据批尺寸。
为了验证条件生成对抗网络的通用性,本实验在包括图形学任务(如照片生成)和视觉任务(如语义分割)在内的多种任务和数据集上测试了本文提出的方法。
使用每一组数据集训练的细节通过在线的补充材料中给出。在所有用例中,输入和输出都是简单的1-3通道图像。高质量的成果如图7, 8, 9, 10, 11所示,而更多的输出结果,包括失败的结果见在线补充材料 https://phillipi.github.io/pix2pix/.
评价综合出的图像的质量是一项开放,同时困难的问题。传统的评价指标,例如逐像素的均方差,无法评估结果的像素间关联特性数据,也因此无法衡量结构化损失所捕捉的特定结构。
为了更加全面地评估输出结果的视觉效果质量,本实验引入了两种策略。首先,本实验在 Amazon Mechanical Turk (AMT) 平台进行了“真 vs 假”感知研究。对于上色和照片生成一类的图形学问题而言,人类观察者视角下的合理性往往是最终目标。因此,本实验采用这种方法测试地图生成、航拍图生成和图像上色模块。
其次,本实验衡量模型综合出的城市景观是否足够真实,以至于现成的识别系统可以识别出其中的元素。该指标与[49]中的“Inception Score”、[52]中的对象检测评价和[58]与[39]中的“语义可解释性”衡量均有相似之处。
AMT 感知研究 本研究的 AMT 试验遵循[58]的协议:Turkers 需要完成一系列测验,其中真实的图像和算法生成的“假”图像交替出现。每次测验(trial)中,每张图像展示1秒钟然后消失,随后 Turkers 有无限制的时间去应答该图像的真假。每个部分(session)的前10张图像作为练习,Turkers 会得到其作答正误的反馈,而在正式试验的40次测验中 Turkers 不会得到反馈。每个部分只测试一种算法,而每位 Turker 只能参加至多一个部分的测试,每种算法由50名 Turkers 测试评估。所有的图像以256*256像素分辨单元呈现。与[58]不同的是,本实验并没有引入警戒测验(vigilance trial)。对于上色实验,真图像与假图像是由同一灰度图生成的。对于地图 ↔ \leftrightarrow ↔ 航拍照片,真图像和假图像并不是由同一输入图像生成,这样是为了使任务更困难,避免出现地板级(floor-level)结果。
FCN 得分 尽管生成模型的定量评估是一项挑战,近期的研究[49, 52, 58, 39]尝试了使用预先训练的语义分类器去衡量所生成的刺激的可辨别性作为伪度量。直觉表明,如果生成的图像足够真实,那么使用真实图像训练出来的分类器也同样能够对综合出的图像进行正确的分类。为此,我们采用了著名的 FCN-8s[36] 架构进行语义分割,并使用城市景观数据集训练它。随后,本文使用相对于合成图像所用的标签而做的分类准确率为这些合成的图像打分。
在方程4中,那些项更为重要?本实验采用消去研究法(ablation studies)分别单独体现 L1 项和 cGAN 项的影响,并且比较了使用条件约束(方程1,cGAN)和不使用条件约束(方程2,GAN)的生成对抗网络鉴别器。
图3展示了上述变量在两种语义标签图 → \rightarrow → 照片问题上的定性效果。单独使用 L1 产生合理但模糊的照片,单独使用 cGAN(在方程4中令 λ = 0 \lambda = 0 λ=0)得到明显更清晰的结果,但在某些应用中引入了人工合成的视觉效果,而将两者结合(令 λ = 100 \lambda = 100 λ=100)可以减少人工合成痕迹。
训练所用的损失 | 逐像素准确率 | 逐类准确率 | 分类 IOU |
---|---|---|---|
L1 | 0.42 | 0.15 | 0.11 |
GAN | 0.22 | 0.05 | 0.01 |
cGAN | 0.57 | 0.22 | 0.16 |
L1+GAN | 0.64 | 0.20 | 0.15 |
L1+cGAN | 0.66 | 0.23 | 0.17 |
真实图像 | 0.80 | 0.26 | 0.21 |
本实验对于上述观察结果在城市景观标签 → \rightarrow → 照片问题中使用 FCN 得分加以量化(见表1):基于 GAN 的学习目标可以得到更高的分数,这表明其综合出的图像包含更多可识别的结构。本实验也测试了在鉴别器中去除条件设定(见图表中的标签 GAN),在这种情况下损失函数不会惩罚输出图像与输入图像之间的不匹配,它仅仅关心输出图像是否看上去真实,这导致输出结果效果不佳。分析其输出结果发现,生成器退化为对于不同的输入图像趋于产生几乎一致的输出。显然在此情况下,损失函数衡量输出图像匹配输入图像质量的能力尤为重要,也因此 cGAN 确实比 GAN 效果更好。不过需要注意的是,添加 L1 项同样能支持输出图像匹配输入图像,因为 L1 损失惩罚综合出的图像与真实结果之间的损失,而真实结果定是匹配输入图像的。相应地,L1+cGAN 在生成贴合输入标签图的真实图像渲染问题上也十分有效。综上,L1+cGAN 表现最佳。
色彩度 条件生成对抗网络的显著效果是其能产生清晰锐化的图像,也能凭空生成原标签图中不存在的空间结构。人们可能会想象 cGAN 在光谱维度上也能产生相似的“锐化”效果,例如使图像色彩更鲜明。正如 L1 不确定在何处放置边缘时会激励出模糊图像,其不确定特定像素应具有哪种色值时会激励出平均的、偏灰的色彩。特别地,L1 将通过在可能的色彩中选择条件概率密度函数的中值来实现其最小化。而对抗损失则原则上会识别出偏灰的图像是不真实的,从而激励出更符合真实色彩分布的图像[22]。如图6,本实验在城市景观数据集上探究了 cGAN 是否真的能够达到上述效果。图表展示了实验室颜色空间中输出图像色值的边缘分布,真实图像的色彩分布用虚线表示。可以明显看出 L1 产生的色彩分布比真实图像窄,这证实了 L1 会激励出平均的、偏灰的图像的假设。cGAN 则将分布曲线推至更贴合真实图像。
U-Net 架构允许图像低频信息通过捷径穿过网络,这样是否能产生更好的效果呢?图4对比了 U-Net 架构与编码器-解码器架构在城市景观生成问题上的输出效果,编码器-解码器架构简单地通过切断 U-Net 架构中的跳跃链接来实现。在本实验中编码器-解码器架构无法学习生成接近真实的图像。U-Net 架构的优势不只在 cGAN 中体现:当编码器-解码器和 U-Net 都以 L1 损失进行训练后,U-Net 架构同样能生成更优的图像。
鉴别器感受域 | 逐像素准确率 | 逐类准确率 | 分类 IOU |
---|---|---|---|
1 × 1 1 \times 1 1×1 | 0.93 | 0.15 | 0.10 |
16 × 16 16 \times 16 16×16 | 0.65 | 0.21 | 0.17 |
70 × 70 70 \times 70 70×70 | 0.66 | 0.23 | 0.17 |
286 × 286 286 \times 286 286×286 | 0.42 | 0.16 | 0.11 |
本实验测试了鉴别器感受域(receptive fields)的图像块尺寸(patch size)取值 N 的变化对输出图像的影响,其感受域在 1 × 1 1 \times 1 1×1 的 PixelGAN 和 286 × 286 286 \times 286 286×286 的 ImageGAN 之间变化 1 ^1 1 。图5展示了定性分析的效果,表2用 FCN 得分定量表示了分析结果。请注意若无特殊说明,本文的其他章节实验均采用 70 × 70 70 \times 70 70×70 的 PatchGAN,而在本节实验均采用 L1+cGAN 的损失。
PixelGAN 在空间上的锐化方面没有更佳的效果,但确实增添了输出图像色彩度(见图6)。例如图5中的公交车经过 L1 损失的训练会被填上灰色,而使用 PixelGAN 则会产生红色的效果。色彩直方图的匹配是图像处理领域共同面对的问题[46],而 PixelGAN 也许是一种有前景的轻量级解决方案。
使用 16 × 16 16 \times 16 16×16 的 PatchGAN 足以产生锐化的输出,也可以得到较高的 FCN 得分,但也导致了平铺型的人工合成痕迹。 70 × 70 70 \times 70 70×70 的 PatchGAN 减少了人工合成的痕迹并可以得到相似的 FCN 得分。高于这个尺度完整的 286 × 286 286 \times 286 286×286 的 ImageGAN 并未在视觉效果上有进步,反而获得了相对更低的 FCN 得分,这可能是由于 ImageGAN 相对 70 × 70 70 \times 70 70×70 的 PatchGAN 具有更多的参数和更深的网络层次,因此更难训练。
全卷积转换 PatchGAN 的优势之一就在于固定图像块尺寸的鉴别器可以应用到任意大的图像上。同样地,生成器也可以以卷积形式应用在比框架训练图像尺寸更大的图像上。本实验使用地图 ↔ \leftrightarrow ↔ 航拍照片任务测试了上述论断,在使用 256 × 256 256\times256 256×256 图像训练模型后用 512 × 512 512\times512 512×512 图像测试之,图7展示的效果表明了该尝试的有效性。
损失函数 | 照片 → \rightarrow → 地图(成功欺骗的比例) | 地图 → \rightarrow → 照片(成功欺骗的比例) |
---|---|---|
L1 | 2.8% ± 1.0% | 0.8% ± 0.3% |
L1 + cGAN | 6.1% ± 1.3% | 18.9% ± 2.5% |
本实验在地图 ↔ \leftrightarrow ↔ 航拍照片和灰度图 → \rightarrow → 彩色图像两个任务中验证了本文框架输出结果的感知真实性。地图 ↔ \leftrightarrow ↔ 航拍照片的 AMT 实验结果如表3所示,以本文的方法生成的航拍照片在18.9%的测验中成功欺骗了人类,这比产生模糊结果从而几乎无法骗过人类的 L1 损失基线高出许多。而在另一方面,航拍照片 → \rightarrow → 地图转换方向上本实验的方法只能在6.1%的测验中成功欺骗人类,这相比 L1 损失基线并没有本质的提高(基于自展检验)。其原因可能在于,相对于更纷杂的航拍照片,轻微的结构性错误在具有更多刚性几何结构的地图中出现时显得更加突兀。
解决方法 | 灰度图像上色(成功欺骗的比例) |
---|---|
[58]中的 L2 损失 | 16.3% ± 2.4% |
[58]中张先生等人研究的框架 | 27.8% ± 2.7% |
本文的框架 | 22.5% ± 1.6% |
本实验使用 ImageNet 训练模型进行灰度图像上色,并使用[58, 32]引入的测试组测试之。本文的 L1+cGAN 方法在22.5%的测验中成功欺骗人类(如表4)。本实验同样测试了[58]的方法,以及[58]中使用 L2 损失的变体方法(详见[58])产生的结果。条件生成对抗网络取得了与[58]的 L2 变体相似的效果(自展检验差别微小),但落后于[58]的完整方法成功欺骗 27.8% 的成绩。不过该方法专门针对灰度图像上色而设计,因而表现出色。
条件生成对抗网络在输出图像高度细节化和照片化的问题中表现良好,这类问题在图像处理和图形学任务中很常见。而在例如语义分割这样的输出图像不如输入图像复杂的视觉问题中其表现如何呢?
训练所用的损失 | 逐像素准确率 | 逐类准确率 | 分类 IOU |
---|---|---|---|
L1 | 0.86 | 0.42 | 0.35 |
cGAN | 0.74 | 0.28 | 0.22 |
L1+cGAN | 0.83 | 0.36 | 0.29 |
为了测试这方面性能,本实验使用城市景观照片 → \rightarrow → 语义标签图数据来训练 cGAN(引入/不引入 L1 损失)。图11反映了定性的结果,而定量的分类准确性在表5中呈现。有趣的是,不引入 L1 损失训练的 cGAN 能够以合理的准确度解决该问题。据本团队了解,这是首次证实生成对抗网络可以成功生成“标签”,而“标签”图更像是离散的,而非像素值连续变化的“图像” 2 ^2 2。尽管 cGAN 取得了一定的成功,其生成效果还是远不如解决这类问题的最好方法:简单地使用 L1 回归可以得到优于 cGAN 的效果,如表5所示。本文认为对于视觉问题,其目标(即预测出接近真实图像的输出)的不明确性低于图形学问题,因此重建损失类似 L1 基本足够。
自本文以及本文的 pix2pix 代码库首次发布以来,包括了计算机视觉与图形学从业者和艺术家们在内的推特社区已经成功地将本文的框架应用于一系列新颖的图对图翻译任务,这远远超出了原始文章所涉及的问题范围。图10仅展示了 #pix2pix 推特话题中的部分示例,如素描 → \rightarrow → 肖像、“跟我做”姿势转换、深度图 → \rightarrow → 街景、背景去除、配色生成、轮廓 → \rightarrow → 口袋妖怪,以及奇特又大受欢迎的 #edges2cats(轮廓 → \rightarrow → 猫猫)。
本文的研究结果表明,条件生成对抗网络是一种对于一系列图对图翻译问题,特别是涉及高度结构化图像输出的问题极具前景的解决方法。该网络能够很好地学习适应于当前任务的损失函数,这使得其适用于广泛的多种任务。
本文的研究团队感谢理查德-张、迪帕克·帕萨克和舒巴姆·图尔西亚尼参与研究讨论,感谢赛宁·谢帮助实现 HED 边缘检测器,感谢在线社区帮助探索更多种应用并提出改进建议。本工作的多个部分分别由美国国家科学基金会(NSF SMA-1514512)、美国国家地理空间情报局(NGA NURI)、美国情报高级计划研究署及空军研究实验室(IARPA via Air Force Research Laboratory)、英特尔公司(Intel Corp)、伯克利深度驱动项目(Berkeley Deep Drive)提供支持,设备硬件由英伟达(Nvidia)提供。
[1] Bertrand gondouin. https://twitter.com/bgondouin/status/818571935529377792. Accessed, 2017-04-21. 8
[2] Brannon dorsey. https://twitter.com/brannondorsey/status/806283494041223168. Accessed, 2017-04-21. 8
[3] Christopher hesse. https://affinelayer.com/pixsrv/. Accessed: 2017-04-21. 8
[4] Jack qiao. http://colormind.io/blog/. Accessed: 2017-04-21. 8
[5] Jasper van loenen. https://jaspervanloenen.com/neural-city/. Accessed, 2017-04-21. 8
[6] Kaihu chen. http://www.terraai.org/imageops/index.html. Accessed, 2017-04-21. 8
[7] Mario klingemann. https://twitter.com/quasimondo/status/826065030944870400. Accessed, 2017-04-21. 8
[8] A. Buades, B. Coll, and J.-M. Morel. A non-local algorithm for image denoising. In CVPR, volume 2, pages 60–65. IEEE, 2005. 1
[9] L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Yuille. Semantic image segmentation with deep convolutional nets and fully connected crfs. In ICLR, 2015. 2
[10] T. Chen, M.-M. Cheng, P. Tan, A. Shamir, and S.-M. Hu. Sketch2photo: internet image montage. ACM Transactions on Graphics (TOG), 28(5):124, 2009. 1
[11] M. Cordts, M. Omran, S. Ramos, T. Rehfeld, M. Enzweiler, R. Benenson, U. Franke, S. Roth, and B. Schiele. The cityscapes dataset for semantic urban scene understanding. In CVPR), 2016. 4
[12] E. L. Denton, S. Chintala, R. Fergus, et al. Deep generative image models using alaplacian pyramid of adversarial networks. In NIPS, pages 1486–1494, 2015. 2
[13] A. Dosovitskiy and T. Brox. Generating images with perceptual similarity metrics based on deep networks. arXiv preprint arXiv:1602.02644, 2016. 2
[14] A. A. Efros and W. T. Freeman. Image quilting for texture synthesis and transfer. In SIGGRAPH, pages 341–346. ACM, 2001. 1, 4
[15] A. A. Efros and T. K. Leung. Texture synthesis by nonparametric sampling. In ICCV, volume 2, pages 1033–1038. IEEE, 1999. 4
[16] D. Eigen and R. Fergus. Predicting depth, surface normals and semantic labels with a common multi-scale convolutional architecture. In Proceedings of the IEEE International Conference on Computer Vision, pages 2650–2658, 2015. 1
[17] M. Eitz, J. Hays, and M. Alexa. How do humans sketch objects? SIGGRAPH, 31(4):44–1, 2012. 4, 8
[18] R. Fergus, B. Singh, A. Hertzmann, S. T. Roweis, and W. T. Freeman. Removing camera shake from a single photograph. In ACM Transactions on Graphics (TOG), volume 25, pages
787–794. ACM, 2006. 1
[19] L. A. Gatys, A. S. Ecker, and M. Bethge. Texture synthesis and the controlled generation of natural stimuli using convolutional neural networks. arXiv preprint arXiv:1505.07376, 12, 2015.
[20] L. A. Gatys, A. S. Ecker, andM. Bethge. Image style transfer using convolutional neural networks. CVPR, 2016. 4
[21] J. Gauthier. Conditional generative adversarial nets for convolutional face generation. Class Project for Stanford CS231N: Convolutional Neural Networks for Visual Recognition, Winter semester, 2014(5):2, 2014. 2
[22] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D.Warde-Farley, S. Ozair, A. Courville, and Y. Bengio. Generative adversarial nets. In NIPS, 2014. 2, 4, 5, 6
[23] A. Hertzmann, C. E. Jacobs, N. Oliver, B. Curless, and D. H. Salesin. Image analogies. In SIGGRAPH, pages 327–340. ACM, 2001. 1, 4
[24] G. E. Hinton and R. R. Salakhutdinov. Reducing the dimensionality of data with neural networks. Science, 313(5786):504–507, 2006. 3
[25] S. Iizuka, E. Simo-Serra, and H. Ishikawa. Let there be Color!: Joint End-to-end Learning of Global and Local Image Priors for Automatic Image Colorization with Simultaneous Classification. ACM Transactions on Graphics (TOG), 35(4), 2016. 2
[26] S. Ioffe and C. Szegedy. Batch normalization: Accelerating deep network training by reducing internal covariate shift. 2015. 3, 4
[27] J. Johnson, A. Alahi, and L. Fei-Fei. Perceptual losses for real-time style transfer and super-resolution. 2016. 2, 3
[28] L. Karacan, Z. Akata, A. Erdem, and E. Erdem. Learning to generate images of outdoor scenes
from attributes and se- mantic layouts. arXiv preprint arXiv:1612.00215, 2016. 2
[29] D. Kingma and J. Ba. Adam: A method for stochastic opti- mization. ICLR, 2015. 4
[30] P.-Y. Laffont, Z. Ren, X. Tao, C. Qian, and J. Hays. Transient attributes for high-level understanding and editing of outdoor scenes. ACM Transactions on Graphics (TOG), 33(4):149, 2014. 1, 4
[31] A. B. L. Larsen, S. K. Sønderby, and O. Winther. Autoen- coding beyond pixels using a learned
similarity metric. arXiv preprint arXiv:1512.09300, 2015. 3
[32] G. Larsson, M. Maire, and G. Shakhnarovich. Learning rep- resentations for automatic colorization. ECCV, 2016. 2, 7
[33] C. Ledig, L. Theis, F. Husza´r, J. Caballero, A. Cunningham, A. Acosta, A. Aitken, A. Tejani, J. Totz, Z. Wang, et al. Photo-realistic single image super-resolution using a gener- ative adversarial network. arXiv preprint arXiv:1609.04802, 2016. 2
[34] C. Li and M. Wand. Combining markov random fields and convolutional neural networks for image synthesis. CVPR, 2016. 2, 4
[35] C. Li and M. Wand. Precomputed real-time texture synthe- sis with markovian generative adversarial networks. ECCV, 2016. 2, 4
[36] J. Long, E. Shelhamer, and T. Darrell. Fully convolutional networks for semantic segmentation. In CVPR, pages 3431– 3440, 2015. 1, 2, 4
[37] M. Mathieu, C. Couprie, and Y. LeCun. Deep multi-scale video prediction beyond mean square error. ICLR, 2016. 2, 3
[38] M. Mirza and S. Osindero. Conditional generative adversarial nets. arXiv preprint arXiv:1411.1784, 2014. 2
[39] A. Owens, P. Isola, J. McDermott, A. Torralba, E. H. Adelson, and W. T. Freeman. Visually indicated sounds. In Pro- ceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 2405–2413, 2016. 4
[40] D. Pathak, P. Krahenbuhl, J. Donahue, T. Darrell, and A. A. Efros. Context encoders: Feature learning by inpainting. CVPR, 2016. 2, 3
[41] A. Radford, L. Metz, and S. Chintala. Unsupervised repre- sentation learning with deep convolutional generative adver- sarial networks. arXiv preprint arXiv:1511.06434, 2015. 2, 3
[42] R. Sˇ. Radim Tylecˇek. Spatial pattern templates for recogni- tion of objects with regular structure. In Proc. GCPR, Saar- brucken, Germany, 2013. 4, 8
[43] S. Reed, Z. Akata, X. Yan, L. Logeswaran, B. Schiele, and H. Lee. Generative adversarial text to image synthesis. arXiv preprint arXiv:1605.05396, 2016. 2
[44] S. Reed, A. van den Oord, N. Kalchbrenner, V. Bapst, M. Botvinick, and N. de Freitas. Generating interpretable images with controllable structure. Technical report, Techni- cal report, 2016. 2, 2016. 2
[45] S. E. Reed, Z. Akata, S. Mohan, S. Tenka, B. Schiele, and H. Lee. Learning what and where to draw. In Advances In Neural Information Processing Systems, pages 217–225, 2016. 2
[46] E. Reinhard, M. Ashikhmin, B. Gooch, and P. Shirley. Color transfer between images. IEEE Computer Graphics and Ap- plications, 21:34–41, 2001. 6
[47] O. Ronneberger, P. Fischer, and T. Brox. U-net: Convolu- tional networks for biomedical image segmentation. In MIC-CAI, pages 234–241. Springer, 2015. 2, 3
[48] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, et al. Imagenet large scale visual recognition challenge. IJCV, 115(3):211–252, 2015. 4, 7
[49] T. Salimans, I. Goodfellow, W. Zaremba, V. Cheung, A. Rad- ford, and X. Chen. Improved techniques for training gans. arXiv preprint arXiv:1606.03498, 2016. 2, 4
[50] Y. Shih, S. Paris, F. Durand, and W. T. Freeman. Data-driven hallucination of different times of day from a single outdoor photo. ACM Transactions on Graphics (TOG), 32(6):200, 2013. 1
[51] D. Ulyanov, A. Vedaldi, and V. Lempitsky. Instance normal- ization: The missing ingredient for fast stylization. arXiv preprint arXiv:1607.08022, 2016. 4
[52] X. Wang and A. Gupta. Generative image modeling using style and structure adversarial networks. ECCV, 2016. 2, 3, 4
[53] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P. Simoncelli. Image quality assessment: from error visibility to struc- tural similarity. IEEE Transactions on Image Processing, 13(4):600–612, 2004. 2
[54] S. Xie, X. Huang, and Z. Tu. Top-down learning for struc- tured labeling with convolutional pseudoprior. 2015. 2
[55] S. Xie and Z. Tu. Holistically-nested edge detection. In ICCV, 2015. 1, 2, 4
[56] D. Yoo, N. Kim, S. Park, A. S. Paek, and I. S. Kweon. Pixel-level domain transfer. ECCV, 2016. 2, 3
[57] A. Yu and K. Grauman. Fine-Grained Visual Comparisons with Local Learning. In CVPR, 2014. 4
[58] R. Zhang, P. Isola, and A. A. Efros. Colorful image coloriza- tion. ECCV, 2016. 1, 2, 4, 7
[59] J. Zhao, M. Mathieu, and Y. LeCun. Energy-based genera- tive adversarial network. arXiv preprint arXiv:1609.03126, 2016. 2
[60] Y. Zhou and T. L. Berg. Learning temporal transformations from time-lapse videos. In ECCV, 2016. 2, 3, 7
[61] J.-Y. Zhu, P. Kra¨henbu¨hl, E. Shechtman, and A. A. Efros. Generative visual manipulation on the natural image mani- fold. In ECCV, 2016. 2, 4