【导读】
StyleGAN是目前最先进的高分辨率图像合成方法。它所产生的面部照片曾经被认为是“非常完美”。今天,NVIDIA的研究人员发布了一个升级版StyleGAN2,它着重于修复特征伪影,并进一步提高了生成图像的质量。
StyleGAN是NVIDIA去年发布的一种新的图像生成方法,今年2月开放源码。
StyleGAN生成的图像非常逼真,它是一步一步地生成人工图像,从非常低的分辨率开始,一直到高分辨率(1024×1024)。通过分别修改网络中每个级别的输入,它可以控制该级别中表示的视觉特征,从粗糙特征(姿势、脸型)到精细细节(头发颜色),而不影响其他级别。
StyleGAN生成的人脸
StyleGAN是目前最先进的高分辨率图像合成方法,已经被证明可以在各种数据集上可靠地工作。除了写实的肖像,StyleGAN还可以用来制作其他动物、汽车甚至房间。
然而,StyleGAN并不完美。最明显的缺陷是生成的图像有时包含斑点状的伪影,而这个缺陷今天已经完全解决了!
今天,NVIDIA的研究人员发布了一个升级版StyleGAN22,它着重于修复伪影,并进一步提高生成图像的质量。
StyleGAN2生成的图像
主要改进包括:
重新设计StyleGAN图像合成网络
StyleGAN的独特之处在于其非传统的生成器结构。映射网络f不仅将输入的潜码z∈z输入到网络的开头,还将其转换为中间潜码w∈w,仿射变换生成样式,合成网络g的层由自适应实例规范化(AdaIN)控制。
在本研究中,我们将所有的分析都集中在W上,因为从合成网络的角度来看,W是相关的潜在空间。
许多人已经注意到StyleGAN生成的图像中的特征伪影。本研究确定了这些工件的两个原因,并描述了如何通过改变体系结构和训练方法来消除它们。
图1:实例规范化导致StyleGAN生成的图像中出现斑点状伪影
首先,我们研究了常见斑点伪影的起源,发现生成器创建它们是为了规避其体系结构中的设计缺陷。我们重新设计了生成器中使用的规范化,它移除了工件。
其次,我们分析了与渐进生长相关的伪影,这对于稳定高分辨率GAN训练是非常成功的。我们提出了一种新的设计方案,可以在训练开始时对低分辨率图像进行聚焦,然后在训练过程中逐渐将注意力转移到越来越高的分辨率上,而不会改变网络拓扑结构。这种新的设计也使我们能够对生成的图像的有效分辨率进行推理,结果低于预期,从而激励我们设计更大的模型。
图2:重新设计了StyleGAN图像合成网络
如图2所示,(a)是原始StyleGAN,其中a表示从W学习的仿射变换,从而生成样式;(b)显示原始StyleGAN体系结构的细节。在这里,我们将AdaIN分解为一个显式的归一化,然后是调制模式,并对每个特征映射的平均值和标准差进行运算。我们还注释了学习的权重(w)、偏差(b)和常量输入(c),并重新绘制灰色框,以便每个框都激活一个样式。激活函数(leaky ReLU)总是在添加偏置后立即应用。如(c)所示,我们对原始架构进行了一些更改,包括在开始时删除一些冗余操作,将b和b的添加移到样式的活动区域之外,并且只调整每个特征映射的标准偏差。(d)是一种改进的体系结构,使我们能够用“解调”操作来代替实例规范化。我们将解调操作应用于与每个卷积层相关联的权重。
图3:用demodulation替代instance normalization,可以去除图像和激活中的特征伪影。
如图3所示,重新设计的StyleGAN2体系结构在保持完全可控性的同时消除了特性工件。
GAN图像质量的定量分析仍然是一个具有挑战性的课题。Frechet初始距离(FID)测量了初始v3分类器高维特征空间中两个分布密度之间的差异。精确性和召回(P&R)通过明确量化生成的与训练数据相似的图像百分比和可生成的训练数据百分比,提供了额外的可见性。我们使用这些度量来量化StyleGAN2的改进。
表1:主要结果
FID基本上不受影响(表1,A、B行),但从精度到FID有显著变化。
FID和P&R都是基于分类器网络的。最近的研究表明,分类器网络关注的是纹理而不是形状,因此这些指标不能准确地反映图像质量的各个方面。我们使用知觉路径长度(PPL)指数来评估潜在空间插值的质量,这与形状的一致性和稳定性有关。在此基础上,我们对合成网络进行正则化,以支持平滑映射,并获得显著的质量改进。为了抵消计算开销,我们还建议减少执行所有正则化的频率,因为这样做不会影响效率。
新方法取代了逐渐增长的完美细节
渐进增长在稳定高分辨率图像合成方面非常成功,但它会产生自己的特征伪影。
关键问题是,看起来具有渐进式增长的生成器在细节上似乎具有很强的位置偏好,例如,当牙齿或眼睛等特征在图像上平滑移动时,它们可能保持在原始位置,然后跳到下一个首选位置。
图6显示了一个相关的工件。我们认为问题是,在渐进式生长中,每个分辨率临时充当输出分辨率,迫使它产生最大频率细节,这使得训练过的网络在中间层频率中太高,牺牲平移不变性。
图6:渐进式增长导致“阶段”工件。在这个例子中,牙齿没有跟随姿势的变化,脸转向一边,牙齿仍然朝正前方,如蓝线所示。
为了解决这些问题,我们提出了一种在保留渐进式增长优势的同时消除缺陷的替代方法。
尽管StyleGAN在生成器(合成网络)和鉴别器中使用简单的前馈设计,但仍有大量工作致力于研究更好的网络结构。特别地,skip connections [34,22]、残差网络[17,16,31]和分层方法[7,46,47],这些方法被证明是非常成功的。因此,我们决定重新评估StyleGAN的网络设计,寻找一种可以生成高质量图像而无需逐步增长的架构。
图7:三个生成器(在虚线上方)和鉴别器架构。
图7a显示MSG-GAN[22],它使用多个跳跃连接来连接生成器和鉴别器的匹配分辨率。
在图7b中,我们通过对对应于不同分辨率的RGB输出进行上采样和求和来简化此设计。在鉴别器中,我们还向鉴别器的每个分辨率块提供下采样图像。我们在所有的上采样和下采样操作中都使用双线性滤波。
在图7c中,我们进一步修改了设计以使用剩余连接。这种设计类似于拉普根[7]。
表2比较了三种生成器和鉴别器结构:StyleGAN的原始前馈网络、跳过连接和剩余网络,它们都经过训练,但没有采用渐进增长。
表2:无渐进生长的发生器和鉴别器结构的比较。
论文或源码下载地址:关注“图像算法”微信公众号 回复“styleGan2”,对于这九个组合,每个组合都提供FID和PPL结果。我们可以看到两大趋势:发电机的跳接大大提高了所有配置的PPL,而剩余鉴别器网络明显有利于FID。
StyleGAN2使用跳过生成器和剩余鉴别器,但不使用渐进增长。这与表1中的配置E相对应,从表中可以看出,切换到该设置显著改善了FID和PPL。
最后,我们发现使用新的路径长度正则化生成器将图像投影到潜在空间W上,明显优于原始样式。