StyleGAN

潜在因子z是从正态分布或均匀分布中采样的,并且包含决定所生成内容的类型和风格的因子。

考虑到这一点,我们提出了两个重要的问题:

  1. 为什么z是均匀分布或正态分布的?
  2. 由于z包含元信息,它是否应该在每个卷积层的数据生成中发挥更重要的作用?(而不是仅作为第一层的输入。)

潜在因子 z

一般来说,机器学习 (ML) 喜欢它的潜在因素独立于其他因素,这使得模型训练更容易。例如,身高和体重是高度纠缠的(更高的人体重更重)。因此,根据身高和体重计算出的体重指数 (BMI) 更常用于肥胖。所需的训练模型将不那么复杂。未纠缠的因素也​​使模型更容易正确解释。

在 GAN 中,z的分布应该类似于真实图像的潜在因子分布。如果我们改为使用正态分布或均匀分布对z进行采样,则优化模型可能需要z嵌入类型和样式之外的信息。例如,让我们为军人生成肖像,并用两个潜在因素可视化训练数据集的数据分布:男性气质和头发长度。下方缺失的左上角表示男兵不允许留长发。

StyleGAN_第1张图片

如果我们对这个空间进行均匀采样,生成器将尝试为长头发的男性士兵再现肖像。这应该会失败,因为我们没有任何训练数据来学习它。从另一个角度来看,当使用正态分布或均匀分布进行采样时,想象一下模型将学习哪些潜在因素。事实上,它可能会比它应该的更加纠缠和复杂。正如 StyleGAN 论文所说,“这会导致某种程度的不可避免的纠缠”。

在逻辑回归中,我们应用基础的变化来创建分离二元类的线性边界。在 StyleGAN 中,它应用称为映射网络的深度网络将潜在z转换为中间潜在空间w

StyleGAN_第2张图片

从概念上讲,StyleGAN 将可以以均匀或正态分布(下中)采样的空间扭曲到轻松生成图像所需的潜在特征空间(左)中。该映射网络的目标是创建易于由生成器渲染的无缠结特征,并避免训练数据集中不会发生的特征组合。该映射网络旨在创建彼此独立的特征,以便生成器更容易地执行渲染,同时避免训练数据集中不曾出现的特征组合

StyleGAN_第3张图片

 styleGAN论文最初使用的是progress GAN网络,然后改进模型设计进行了多次实验。

StyleGAN_第4张图片

改进版本B

使用双线性采样(bilinear sampling)来代替判别器和生成器中的最近邻上采样/下采样。

改进版本C是添加了映射网络和样式。映射网络是通过mapping network,用来解耦潜在因子,其具体说明请看上文。对于后一部分,AdaIN将取代PixelNorm将样式用于空间数据。

如果将潜在因子只作用在第一层,那么随着网络的深度,它的作用会减弱。因在基于样式的生成器中,用单独学习的仿射变化A来变换每一层中的W。添加了映射网络和样式。对于后一部分,AdaIN(自适应实例规范化)将取代 PixelNorm 将样式应用于空间数据。

StyleGAN_第5张图片

AdaIN(自适应实例归一化)定义为:

StyleGAN_第6张图片

归一化特征会影响应用于空间位置的样式量。

移除了传统的输入

        在原版GAN中,第一层的输入是潜在因子z。实验结果表明,向StyleGAN第一层添加可变输入毫无益处,因此将可变输入替换为常量输入,在推理过程中不会改变其学习参数。这个常量输入并没有什么软用,主要的风格还得看潜在因子z。

StyleGAN_第7张图片

最后一个改进样式混合和混合正则化

之前使用一个潜在因子将其作为派生样式的单一来源,通过混合正则化,我们切换到不同的潜在因子z2以在达到特定空间分辨率后导出样式。

StyleGAN_第8张图片

如下图所示,我们使用生成图像源B来导出粗空间分辨率(4X4到8X8)样式,并使用图像源A的潜在因子来获得更精细的空间分辨率。因此,所获得的图像的姿势、发型、脸型和眼睛等风格来自于源B,而对于颜色、肤色、头发等更精细的面部特征来源于A。

StyleGAN_第9张图片

W中的截断技巧

        Truncation Trick不是styleGAN提出来的,他很早就用在了GAN的图像生成了。从数据分布来说,低概率密度的数据在网络中的表达能力很弱,直观理解就是,低概率密度的数据出现的次数少,能影响网络梯度的机会也少,但并不代表低概率密度的数据不重要。可以提高数据分布的整体密度,把分布稀疏的数据点都聚拢到一起,类似于PCA。在生成图像时,我们尝试避开这些区域,以牺牲变化为代价来提高图像质量。这可以通过阶段z或w来完成。在StyleGAN中,它是在w中使用:

StyleGAN_第10张图片

但是截断只在低分辨率层进行,这确保了高分辨率细节不受影响。用在低分辨率层,也就意味着只对脸型、形状等影响。

感知路径长度

StyleGAN论文还介绍了一种衡量GAN性能的新指标,称为感知路径长度。在GAN中,我们逐渐改变潜在因子z中的一个特定维度,以可视化其语义。

StyleGAN_第11张图片

潜在空间中的这种插值可以产生令人惊讶的非线性视觉变化。例如,两端都没有的特征可能会出现在中间。这表明潜在空间以及变异因素是高度纠缠的。因此,我们可以通过测量执行差值时的累积变化来量化这些变化。如果我们将潜在空间插值路径细分为线性段,我们可以将每个段上的所有感知差异加在一起。值越低,GAN 图像应该越好。

 

你可能感兴趣的:(GAN,人工智能)