Style-GAN

Style-base 生成器

前言

本文是我阅读stype-based论文的一些感悟以及一些对这个模型的简单介绍,其中包含了自己对论文的理解,有不对的地方希望多多指正。

 

                           结构篇

     

  1.  与传统方法对比

这个模型中不包含latent code的输入层。其改进之处主要分成了四个部分:

  1. 加入了mapping network 一个八个FC层,提取中间向W。
  2. 使用了AdaIN的标准化方法。
  3. 使用风格映射将W映射称style。
  4. 在每次卷积后加入高斯噪声
  5.                                                    。Style-GAN_第1张图片
  6. AdaIN

 首先介绍一下AdaIN规范化,中间变量w经过风格映射之后变成y = y(ys, yb)用来处理featuremap的每个channel, 所以y的大小是featuremap的两倍。AdaIN具体的公式如下

                                                                

 

文中认为之所以在g网络中,每层卷积能够定位一种主体改变,主要是因为AdaIN的存在。

  1. 高斯噪声和风格映射的意义

加入高斯噪声以及引进风格映射主要是因为,文中认为风格映射产生的style影响的是图像的主要改变比如头发,轮廓,背景等,但是高斯噪声主要是影响,随机改变比如胡茬,雀斑,毛孔等。

  1. Mapping net 意义

文中认为引入mapping net主要是为了使得latent code转化后更加的具有线性可分的特性。减少了特征之间的冗杂,文中给出了感知路径长度,线性可分性两种方法进行评估,评估结果直观的展示了,mapping net 提取的向量优于单纯的latent。(由于与主基调无关就不详细介绍这种方法了) 

 

自身感悟

  1. 512维的Latent code是什么

从阅读本文以及比对传统的GAN网络,我认为本文中的latent code,应该与传统的GAN中的latent code一样,就是一组随机的满足高斯分布或者均匀分布的,任意给出的向量。之所以能够经过风格映射称style,是由于训练过程中反向传播的优化训练风格映射结构参数的原因,这与传统的GAN反向传播优化生成器的过程是类似的。

 

  1. 由于文中一些技巧与本文主题框架相关性较小,不在一一详述,列出以下供感兴趣的同学查看。
  1. 各种模型改进的对比试验,来验证本文模型具有较高的优势
  2. 文中提到衡量mapping net后的w对原始的lantent code z 具有更好的线性,以及可分性的方法使用技巧十分巧妙,也显示出文中作者极深的数学功底以及数据理解。
  3. 文中还使用了w截断技巧,能够提升图像的平均质量(其理论基于概率密度)。

 

 

这是我阅读后的一些总结感悟,有不足之处多多之处。

 

你可能感兴趣的:(gan,生成)