StyleGAN

论文解读视频

StyleGAN_第1张图片
sourceA表示年龄、性别、头发长度、姿势等粗粒度的属性,在前期生成图像分辨率较低的时候使用
sourceB表示一些高分辨率下的属性,例如肤色、脸部纹理细节
更换SouceB的生成结果
StyleGAN_第2张图片
StyleGAN_第3张图片

Style

StyleGAN_第4张图片
图像中的style包括粗糙风格,例如姿势、发型、脸型
中等风格:人脸特征、眼睛
高级风格:肤色、发色
由于在StyleGAN中生成图像时由低分辨率到高分辨率生成的,因此在低分辨率下能够获得的特征就是粗糙风格、随着分辨率的提升能够获得的特征就是中等风格与高级风格。
StyleGAN_第5张图片

并且Style并不是人为约束的,而是网络通过学习自己获得的。

两种属性结合决定图像

Noise

为提升图像的多样性,生成网络的每一层都要添加噪声,噪声强度在不同分辨率层级下影响程度不同。
StyleGAN_第6张图片
分辨率越高,影响越小。

StyleScale

控制生成质量的一个手段,我暂时没理解

论文阅读

摘要

StyleGAN架构能够实现自动的、无监督的分离高级属性(例如,在人脸上训练时的姿势和身份)和生成的图像中的随机变化(例如,雀斑、头发)。
1.提高了生成图像的分布质量(生成图像更加贴近于真实图像分布)
2.插值特点(网络稳定性很好,无论怎么插值都能维持贴近于真实分布)
3.更好的网络结构。
4.使用FID与PPL判断生成图像质量
5.建立了一个高质量的人脸数据集

1.引言

1.介绍以往GAN的主要缺点是无法很好的理解隐性空间,无法做到很好的插值。换句话说就是没有很好解耦开隐空间,我目前理解为就是没有很好的分离分离高级属性(例如,在人脸上训练时的姿势和身份)和生成的图像中的随机变化(例如,雀斑、头发)。
2.受到风格转换的启发,去解耦图像的属性。

2.生成网络

StyleGAN_第7张图片
Z是从高斯分布中采样的latent code,通过Mapping working映射到W,w通过放射变换层A映射成Style输入每一层的到Adain中
style来自于Z,映射到W,变换成style
StyleGAN_第8张图片
A:原始PGGAN生成图像质量
B:加入双线性上采样下采样策略(暂时不懂)
C:加入Mapping 和Style
D:取消传统输入
E:添加噪声
F:混合正则化,不是输入一个Z,输入多个Z.多个Z生成的Style随机采样并且组合。

3.1 风格混合

就是使用两组Z生成两组W,一组应用于交点之前,一组应用于交点之后

3.2 随机变化

加入噪声noise
在我们的发电机的不同层噪声输入的影响。(a)噪声应用于所有层。(b)没有噪音。©只有细层的噪音(642 - 10242)。(d)只有粗层的噪音(42 - 322)。我们可以看到,人为的噪音省略导致了没有特征的“绘画”的外观。粗大的噪声会导致大范围的卷发和更大的背景特征的出现,而精细的噪声会带来更精细的卷发、更精细的背景细节和皮肤毛孔

StyleGAN_第9张图片
前面的部分以及所附的视频表明,虽然风格的改变具有全局效果(改变姿势、身份等),但噪声只影响无关紧要的随机变化(不同梳理的头发、胡子等)。这一观察结果与风格转移文献一致,其中已证实,空间不变的统计(Gram matrix, channel-wise mean, variance等)可靠地编码了图像的风格[20,39],而空间变化的特征则编码了特定的实例。在我们的基于样式的生成器中,样式影响整个图像,因为完整的特征映射是按比例缩放的,并且带有相同的值。因此,全局效果,如姿势,灯光,或背景风格可以控制一致。同时,噪声独立地添加到每个像素,因此非常适合于控制随机变化。如果网络试图控制,例如,使用噪声,这将导致空间不一致的决定,然后将被鉴别器惩罚。因此,在没有明确指导的情况下,网络学会了适当地使用全局和局部通道

3.3 解耦

你可能感兴趣的:(GAN,深度学习)