飞桨PaddlePaddle论文复现营-stargan v2论文解读

论文题目

StarGANv2: Diverse Image Synthesis for Multiple Domains
对于多个领域的多样化图像合成
(YunjeyChoi YoungjungUh JaejunYooJung-Woo HaClova AI Research, NAVER Corp. EPFL)

论文任务

多领域间的多样化图像转换(img2img tranlation)

  • 生成图像多样化
  • 多个领域上具有可扩展性

什么是domain
一组可具有独特类别的图像:比如猫、狗、男、女
什么是style
一张图像具有的外观风格

每个域(domain)可能具有多种style
飞桨PaddlePaddle论文复现营-stargan v2论文解读_第1张图片
如图,在女性域上,具有多种发型的style

作者动机

多领域

过去的图像转换

目前已有许多图像转换方法,但这些方法大都仅考虑两个域之间的映射。如a图所示,这些方法需要训练多个生成器来处理每个域与每个域之间的转换。
在这样的情况下,stargan就被提出了。
飞桨PaddlePaddle论文复现营-stargan v2论文解读_第2张图片
图为其他跨域模型与StarGAN模型的比较。
(a)为处理多个域,应该在每一对域都建立跨域模型。(b)StarGAN用单个generator学习多域之间的映射。该图表示连接多个域的拓扑图。

StarGAN

  • StarGAN是最早的针对多领域更具扩展性、统一的框架之一,但仍然学习每个域的确定性映射,没有掌握数据分布的多样性(mutil-modal)本质。
  • 该限制的原因是每个域都由预先定义标签来表示。生成器接收固定的标签(例如一个one-hot向量)作为输入,在给定源图像下,每个域都产生相同输出。
  • 模型图如图b,具体效果展示如下:
  • 飞桨PaddlePaddle论文复现营-stargan v2论文解读_第3张图片
    如上图所示,固定了金发、性别、年龄、皮肤的标签,在每个域里只有唯一的对应的输出。

论文方法

先看 StarGAN

为了实现可转换到多个领域,StarGAN加入了一个域的控制信息(标签分类),类似于CGAN的形式。在网络结构设计上,鉴别器不仅仅需要学习鉴别样本是否真实,还需要对真实图片判断来自哪个域。

飞桨PaddlePaddle论文复现营-stargan v2论文解读_第4张图片
整个网络的处理流程如下:

  1. 将输入图片和目标生成域(target domain)结合喂入到生成网络G来合成fake图片
  2. 将fake图片和真实图片分别喂入到鉴别器D,D需要判断图片是否真实,还需要判断它来自哪个域(Domain classification)
  3. 与CycleGAN类似,还有一个一致性约束,将生成的fake图片和原始图片的域信息(original domain)结合起来喂入到生成器G要求能输出重建出原始输入图片

再看StarGAN v2

使用其提出的domain-specific style code替换域标签,前者可表示特定领域的各种风格样式。引入两个模块,一个映射网络mapping network和一个样式编码器style encoder。
飞桨PaddlePaddle论文复现营-stargan v2论文解读_第5张图片

  • 生成器Generator:生成器G将输入图像x转换为输出图像 G ( x , s ) G(x,s) G(x,s),后者体现的是特定domain的风格码s(style encode),由映射网络(Mapping Network)F或样式编码器(Style Encoder)E提供。使用自适应实例规范化(AdaIN)将s注入G中。
    飞桨PaddlePaddle论文复现营-stargan v2论文解读_第6张图片
    其中AdaIN:
    y = ( y s , y b ) = f ( w ) y=(y_s,y_b) = f(w) y=(ys,yb)=f(w)
    A d a I N ( x i , y ) = y s x i − μ ( x ) σ ( x ) + y b AdaIN(x_i,y) = y_s \dfrac {x_i-\mu(x)}{\sigma(x)} + y_b AdaIN(xi,y)=ysσ(x)xiμ(x)+yb
    飞桨PaddlePaddle论文复现营-stargan v2论文解读_第7张图片
    删除了上采样residual blocks中的所有shortcut,并使用基于adaptive wing based heatmap添加了跳跃连接。

  • 映射网络 Mapping network:给定一个潜码(latent code)z和一个域y,映射网络F生成样式码 s = F y ( z ) s=Fy(z) s=Fy(z)。F由具有多个输出分支的MLP组成,可为所有可用域提供样式码。F可以通过对潜在向量z∈Z和域y∈Y随机采样来产生多种样式码。多任务体系结构使F可以高效地学习所有域的样式表示。
    飞桨PaddlePaddle论文复现营-stargan v2论文解读_第8张图片

  • 样式编码器 Style encoder:网络包括k个输出分支,给定图像x及其对应的域y,样式编码器E提取x的样式码 s = E y ( x ) s=Ey(x) s=Ey(x)。与F(映射网络)相似,样式编码器E受益于多任务学习设置, 可使用不同的参考图像x生成不同的样式码。这可以让G合成参考图像x的样式s的输出图像。
    其结构与鉴别器相同,区别在于结构图中最后一个Linear层,鉴别器是用一个Conv1x1实现,Style Encoder是用多个Linear代替。D代表了样式码S的维度。

飞桨PaddlePaddle论文复现营-stargan v2论文解读_第9张图片

  • 鉴别器Discriminator:鉴别器D是一个多任务鉴别器,网络包括k个输出分支,表示有k个域,每个分支 D y Dy Dy学习二值分类,确定图像x是其域y的真实图像还是由G生成的伪图像 G ( x , s ) G(x,s) G(x,s)。因此输出维度D被设定为1,作为real/fake的分类,用来判断图片是真是假。

训练目标

  • 对抗目标Adversarial objective
    在这里插入图片描述
  • 风格重构Style reconstruction

在这里插入图片描述

  • 风格多样性Style diversification
    在这里插入图片描述
  • 保留源图特性Preserving source characteristics
    在这里插入图片描述
  • 总体目标
    飞桨PaddlePaddle论文复现营-stargan v2论文解读_第10张图片

作者贡献

AFHQ

  • 发布了一个新的动物面孔数据集Animal FacesHQ(AFHQ)
  • 其中包括512×512分辨率的15,000张高质量图像。数据集包括猫,狗和野生动物的三个域,每个域提供5000张图像。
    飞桨PaddlePaddle论文复现营-stargan v2论文解读_第11张图片

结果展示

量化评价指标

  • Frechétinception distance (FID)衡量真实图像和生成图像之间的差异性

    • 通过加载经过预训练的Inception v3模型,使用最后一个池化层的激活函数输出值作为特征向量,计算出真实图像和生成图像在特征层面的距离。FID 越低,图像质量越好;反之,得分越高,质量越差。
    • 在这里插入图片描述
  • Learned perceptual image patch similarity (LPIPS) 衡量生成图像的多样性

    • 计算生成图像从预训练的AlexNet中提取的特征之间的距离LPIPS越大,生成图像多样性越高
    • 飞桨PaddlePaddle论文复现营-stargan v2论文解读_第12张图片
      飞桨PaddlePaddle论文复现营-stargan v2论文解读_第13张图片

生成图像

飞桨PaddlePaddle论文复现营-stargan v2论文解读_第14张图片
飞桨PaddlePaddle论文复现营-stargan v2论文解读_第15张图片

paddle复现

未完待续

pytorch代码及论文:https://github.com/clovaai/stargan-v2
StarGAN v2: Diverse Image Synthesis for Multiple Domains
百度论文复现营
参考文章:
https://blog.csdn.net/qq_26020233/article/details/106001703

你可能感兴趣的:(深度学习)