stylegan1: a style-based henerator architecture for gemerative adversarial networks

StyleGAN 和 StyleGAN2 的深度理解 - 知乎StyleGAN 论文:A Style-Based Generator Architecture for Generative Adversarial Networks 源码:https://github.com/NVlabs/stylegan 效果:人脸生成效果 生成的假车效果: 生成的假卧室效果: 效果视频(建议…https://zhuanlan.zhihu.com/p/263554045

A Style-Based Generator Architecture for Generative Adversarial Networks(论文翻译)_头柱碳只狼的博客-CSDN博客A Style-Based Generator Architecture for Generative Adversarial Networks你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准...https://blog.csdn.net/qq_30146937/article/details/103970974

生成对抗网络(GAN)中提到的隐空间(latent space)是什么意思? - 知乎指隐变量 的样本空间。“隐变量”可以理解成控制数据 生成的“幕后之手”。在统计机器学习中,隐变量生…https://www.zhihu.com/question/339870596/answer/809794990

        stylegan这篇文章本身还是很有意义的,它进行了很多的探索和思考。但是从落地来看,它有两个最主要的贡献,第一是产生了latent space w,第二是将w放到了生成器的每层结构中。真实数据不是高斯,输入是高斯,很难匹配起来,w是隐变量的空间,可以是任意的空间,更好的匹配真实数据;w送入到各个Adain中,进行生成器的控制。

1.introduction

        对latent space的属性缺乏理解,对latent space interpolations并没有提供定量的方法来比较不同的生成器。本文重新设计了生成器架构,提出了控制图像生成的新方法。生成器开始于一个输入常量,根据latent code在每个卷积层调整图像的样式,从而在不同尺度直接控制图像特征的强度,没有对判别器和损失函数进行修改,可以很好的嵌入到现行的gan框架中。

        我们的生成器将输入的latent code嵌入到一个中间潜在空间(intermediate latent space)中,input latent space必须服从数据的概率密度,这会导致一定程度上不可避免的entanglement(纠缠),但是中间潜在空间不受这个限制,可以解纠缠,提了两个新的度量标准,感知路径长度perceptual path length和线性可分离性 linear separability.这块是stylegan的一个核心的贡献,引入了latent space,一般对噪声的采样几乎都是高斯或者均匀分布,但真实数据的采样大多不是标准的高斯分布,如果噪声采样是高斯,但数据采样不是高斯,则两者很难匹配,w是隐变量的空间,可以是任意的空间,更好的匹配真实数据。关于latent code的 简单理解就是,为了更好的对数据进行分类或生成,需要对数据的特征进行表示,但是数据有很多特征,这些特征之间相互关联,耦合性较高,导致模型很难弄清楚它们之间的关联,使得学习效率低下,因此需要寻找到这些表面特征之下隐藏的深层次的关系,将这些关系进行解耦,得到的隐藏特征,即latent code。由 latent code组成的空间就是 latent space。隐变量z的样本空间。

2.style-based generator

stylegan1: a style-based henerator architecture for gemerative adversarial networks_第1张图片

结合上面这张图,可以说stylegan的两个最核心的点,第一左边传统的gan的生成器,从z开始采样,但是右边的style-based的生成器通过一个mapping network,给定一个输入潜在空间z中的latent code z,由一个非线性网络映射由z映射到w,w是中间潜在空间,这一步是第一个点,即将输入映射到中间潜在空间,映射网络由8个fc层组成,第二个点,以往的gan是串联结构,生成器只在一开始时接收到了z,而style-based在生成器的每一个卷积层都接受到了w,A代表学习的仿射变换,A将w转成y形式,这些样式随后输入到生成器中,生成器每个卷积层之后控制自适应实例规范化(AdaIN),中间潜在空间w通过每个卷积层自适应实例规范化控制生成器。

其中每个特征图分别进行归一化,然后使用样式y中对应的标量分量进行缩放和偏移,因此,y的维度是该图像上特征图数量的两倍,B操作将学习的单通道缩放因子应用于噪声输入,将噪声图像广播到所有特征图,然后将高斯噪声添加到相应的卷积输出中。合成网络由18层,最后单独使用1x1卷积将最后一层转成RGB。

2.1 Quality of generated images

stylegan1: a style-based henerator architecture for gemerative adversarial networks_第2张图片

上表说明,在CelebA-HQ和FFHQ数据集中不同生成器架构的FDI值,FDI值越小越好。基础模型是(A)Progressive GAN这一生成器架构。除非另有说明,否则将从其中继承网络和所有超参数。
1.首先通过使用双线性上/下采样操作、更长的训练和已调整的超参数将基础模型改进到(B)。
2.然后通过添加映射网络和AdaIN操作改进到(C),并观察到网络不再受益于将latent code馈入到第一个卷积层。
3.然后通过删除传统的输入层并从学习到的4×4×512恒定张量(D)开始图像合成来简化体系结构。
4.接下来发现添加噪声也能够改善结果(E)。
5.最后对相邻样式进行去相关并实现对生成图像的更细粒度控制的混合正则化。

stylegan1: a style-based henerator architecture for gemerative adversarial networks_第3张图片

上图显示了本文的生成器从FFHQ数据集生成的一组未整理的新颖图像。正如FID所证实的那样,平均质量很高,甚至眼镜和帽子之类的配件也能成功合成。对于此图避免使用所谓的截断技巧(truncation trick)来从W的极端区域进行采样。本文的生成器允许只在低分辨率中选择性地应用截断,因此高分辨率细节不会受到影响。

2.2 prior art

有关gan的改进工作。

3.properties of the style-based generator

        这里对本文的第二个点进行了解释。生成器结构可以通过对样式进行特定比例的修改来控制图像生成。映射函数和仿射变换可以看成从学习到的分布中为每种style绘制样本,合成网络可以看成是基于style的集合生成样本,这就是本文为什么叫style的原因,这里的style是可以控制合成的属性。每种样式的效果在网络中都是已经被定位(localize)的,即修改样式的特定子集只能影响图像的某些方面。为什么会产生这种效果呢?AdaIN操作先将每个通道归一化为zero mean和unit variance,然后才根据样式应用比例和偏差;接下来,基于样式的新的每通道统计信息会对features在后续卷积操作中的相对重要性进行修改,但是因为已经进行了归一化操作,新的每通道统计信息并不会依赖原始统计信息。因此每个样式仅控制一个卷积层,然后被下一个AdaIN操作覆盖。

后面的内容可以看我放在一开始的csdn里面的,讲的很细,stylegan的核心就两点,后面基本就是解释和度量的一些东西。

你可能感兴趣的:(电商算法与创意生成,人工智能,深度学习,计算机视觉)