StyleGAN

有用的网址:http://www.gwylab.com/download.html

基于StyleGAN的一个好玩的网站:www.seeprettyface.com
—————————————————————————————————

StyleGAN

一、 StyleGAN解决的问题

  ProGAN有什么缺陷?由于ProGAN是逐级直接生成图片,我们没有对其增添控制,我们也就无法获知它在每一级上学到的特征是什么,这就导致了它控制所生成图像的特定特征的能力非常有限。换句话说,这些特性是互相关联的,因此尝试调整一下输入,即使是一点儿,通常也会同时影响多个特性。
  我们希望有一种更好的模型,能让我们控制住输出的图片是长什么样的,也就是在生成图片过程中每一级的特征,要能够特定决定生成图片某些方面的表象,并且相互间的影响尽可能小。于是,在ProGAN的基础上,StyleGAN作出了进一步的改进与提升。

二、 StyleGAN模型架构

  StyleGAN首先重点关注了ProGAN的生成器网络,它发现,渐进层的一个潜在的好处是,如果使用得当,它们能够控制图像的不同视觉特征。层和分辨率越低,它所影响的特征就越粗糙。简要将这些特征分为三种类型:
  1、粗糙的——分辨率不超过8^2,影响姿势、一般发型、面部形状等;
  2、中等的——分辨率为16^2至32^2,影响更精细的面部特征、发型、眼睛的睁开或是闭合等;
  3、高质的——分辨率为64^2到1024^2,影响颜色(眼睛、头发和皮肤)和微观特征;
  然后,StyleGAN就在ProGAN的生成器的基础上增添了很多附加模块。

1. 映射网络

          在这里插入图片描述
  映射网络的目标是将输入向量编码为中间向量,中间向量的不同元素控制不同的视觉特征。这是一个非常重要的过程,因为使用输入向量来控制视觉特征的能力是非常有限的,因为它必须遵循训练数据的概率密度。例如,如果黑头发的人的图像在数据集中更常见,那么更多的输入值将会被映射到该特征上。因此,该模型无法将部分输入(向量中的元素)映射到特征上,这一现象被称为特征纠缠。然而,通过使用另一个神经网络,该模型可以生成一个不必遵循训练数据分布的向量,并且可以减少特征之间的相关性。
  映射网络由8个全连接层组成,它的输出ⱳ与输入层(512×1)的大小相同。

2. 样式模块(AdaIN)

          在这里插入图片描述
  AdaIN(自适应实例标准化)模块将映射网络创建的编码信息 ⱳ 传输到生成的图像中,并定义该级别中特征的可视化表达式:
  1、卷积层输出的每个通道首先进行标准化,以确保步骤3的缩放和切换具有预期的效果;
  2、中间向量ⱳ使用另一个全连接的网络层(标记为A)转换为每个通道的比例和偏差;
  3、比例和偏差的向量切换卷积输出的每个通道,从而定义卷积中每个卷积核的重要性。这个调优操作将信息从ⱳ转换为可视的表达方式;
  StyleGAN使用Adaptive Instance Normalization的目的很容易理解,为了让w’只影响图片的全局信息(因为Adain表达式中y对于标准化后的x采取处理),从而保留生成人脸的关键信息由上采样层和卷积层来决定。

3. 删除传统输入

          在这里插入图片描述
  大多数的模型以及其中的ProGAN使用随机输入来创建生成器的初始图像(即4×4级别的输入)。StyleGAN团队发现图像特征是由ⱳ和AdaIN控制的,因此可以忽略初始输入,并用常量值替代。虽然本文没有解释它为什么能提高性能,但一个保险的假设是它减少了特征纠缠,对于网络在只使用ⱳ而不依赖于纠缠输入向量的情况下更容易学习。

4. 随机变化

          在这里插入图片描述

  人们的脸上有许多小的特征,可以看作是随机的,例如:雀斑、发髻线的准确位置、皱纹、使图像更逼真的特征以及各种增加输出的变化。将这些小特征插入GAN图像的常用方法是在输入向量中添加随机噪声。然而,在许多情况下,由于上述特征的纠缠现象,控制噪声的影响是很复杂的,从而会导致图像的其它特征受到影响。
  StyleGAN中的噪声以类似于AdaIN机制的方式添加,在AdaIN模块之前向每个通道添加一个缩放过的噪声,并稍微改变其操作的分辨率级别特征的视觉表达方式。

5. 样式混合

          在这里插入图片描述
  StyleGAN生成器在合成网络的每个级别中使用了中间向量,这有可能导致网络学习到这些级别是相关的。为了降低相关性,模型随机选择两个输入向量,并为它们生成了中间向量ⱳ。然后,它用第一个输入向量来训练一些网络级别,然后(在一个随机点中)切换到另一个输入向量来训练其余的级别。随机的切换确保了网络不会学习并依赖于一个合成网络级别之间的相关性。
  虽然它并不会提高所有数据集上的模型性能,但是这个概念有一个非常有趣的副作用 — 它能够以一种连贯的方式来组合多个图像(视频请查看原文)。该模型生成了两个图像A和B,然后通过从A中提取低级别的特征并从B中提取其余特征再组合这两个图像。

6. 在W中的截取技巧

          在这里插入图片描述

  在生成模型中的一个挑战,是处理在训练数据中表现不佳的地方。这导致了生成器无法学习和创建与它们类似的图像(相反,它会创建效果不好的图像)。为了避免生成较差的图像,StyleGAN截断了中间向量ⱳ,迫使它保持接近“平均”的中间向量(上图左4)。
  对模型进行训练之后,通过选择多个随机的输入,用映射网络生成它们的中间向量,并计算这些向量的平均值,从而生成“平均”的平均值ⱳ。当生成新的图像时,不用直接使用映射网络的输出,而是将值ⱳ转换为ⱳ_new=ⱳ_avg+? (ⱳ -ⱳ_avg),其中?的值定义了图像与“平均”图像的差异量(以及输出的多样性)。有趣的是,在仿射转换块之前,通过对每个级别使用不同的?,模型可以控制每个特征集与平均值的差异量。

7. 微调超参数

  StyleGAN的另外一个改进措施是更新几个网络超参数,例如训练持续时间和损失函数,并将离得最近的放大或缩小尺度替换为双线性采样。

  综上,加入了一系列附加模块后得到的StyleGAN最终网络模型结构图如下:
          在这里插入图片描述
  上述就是StyleGAN的完整模型的介绍了。不得不说,不论是在理论方法上,还是工程实践上,StyleGAN都是一篇具有突破性的论文,它不仅可以生成高质量的和逼真的图像,而且还可以对生成的图像进行较好的控制和理解。

转载至:https://blog.csdn.net/a312863063/article/details/88795147

你可能感兴趣的:(生成模型)