【飞桨PaddlePaddle论文复现课程】【GAN】论文解读之StarGAN v2

一、前言

论文复现课程链接:https://aistudio.baidu.com/aistudio/education/group/info/1340

这篇博客主要是对飞桨PaddlePaddle论文复现课程中 GAN 论文的解析.

 

二、论文解读

论文的任务是多域图像转换(Multiple Domain Image-to-Image translation)

涉及到2个关键概念:

Domain:一组可以分为视觉上独特类别的图像

Style:每个图像都有唯一的外观

论文动机:

【飞桨PaddlePaddle论文复现课程】【GAN】论文解读之StarGAN v2_第1张图片

【飞桨PaddlePaddle论文复现课程】【GAN】论文解读之StarGAN v2_第2张图片

2.1 创新点

StarGAN v2 的论文有cGAN, CycleGAN, StarGAN等

文献全称:StarGAN v2: Diverse Image Synthesis for Multiple Domains
文献出处:[J]. arXiv: Computer Vision and Pattern Recognition, 2019

代码:https://github.com/clovaai/stargan-v2
数据集:CelebA-HQ、AFHQ
评价标准:FID、LPIPS、AMT User Study(亚马逊机器人用户研究,即肉眼看图)

【飞桨PaddlePaddle论文复现课程】【GAN】论文解读之StarGAN v2_第3张图片

论文贡献(亮点)

  • 跳出了starGAN使用域标签向量的思维惯性,为每个域生成多个style code,通过AdaIN完成迁移,同时保证生成的多样性。
  • 介绍了自己搜集的数据集,动物脸部数据集(AFHQ)

【飞桨PaddlePaddle论文复现课程】【GAN】论文解读之StarGAN v2_第4张图片

2.2 方案解析

使用到的别的论文中的损失函数有:

【飞桨PaddlePaddle论文复现课程】【GAN】论文解读之StarGAN v2_第5张图片

StarGAN V2 对比 StarGAN:

StarGANv2,使用所提出的domain-specific style code替换域标签,前者可表示特定领域的各种风格样式。引入两个模块,一个映射网络mapping network和一个样式编码器style encoder。

【飞桨PaddlePaddle论文复现课程】【GAN】论文解读之StarGAN v2_第6张图片

【飞桨PaddlePaddle论文复现课程】【GAN】论文解读之StarGAN v2_第7张图片

StarGAN v2 方案解析:

映射网络学习将随机高斯噪声转换为样式码(style code),而编码器则学习从给定的参考图像中提取样式码。两个模块都具有多个输出分支,每个分支都提供特定域的样式码,训练时将选取其中对应domain的一个。

生成器Generator(最左边黑色):将输入图像x转换为G(x,s),s为样式码style code,可以由映射网络F或者样式编码器E提供。使用adaptive instance normalization (AdaIN) 引入s。

生成器Generator:删除了上采样residual blocks中的所有shortcut,并使用基于adaptive wing based heatmap添加了跳跃连接。

【飞桨PaddlePaddle论文复现课程】【GAN】论文解读之StarGAN v2_第8张图片

【飞桨PaddlePaddle论文复现课程】【GAN】论文解读之StarGAN v2_第9张图片

【飞桨PaddlePaddle论文复现课程】【GAN】论文解读之StarGAN v2_第10张图片

损失函数设计:

分为4部分:

【飞桨PaddlePaddle论文复现课程】【GAN】论文解读之StarGAN v2_第11张图片

【飞桨PaddlePaddle论文复现课程】【GAN】论文解读之StarGAN v2_第12张图片

 

2.3 实验解析

【飞桨PaddlePaddle论文复现课程】【GAN】论文解读之StarGAN v2_第13张图片

【飞桨PaddlePaddle论文复现课程】【GAN】论文解读之StarGAN v2_第14张图片

生成的图像结果:

【飞桨PaddlePaddle论文复现课程】【GAN】论文解读之StarGAN v2_第15张图片

2.4 评价

有关GAN的论文中,比较突出的现象是cherry-picking,即生成的图像中只选部分好的展示。另外即使是正常比例看起来比较好的图片,放大后的细节,和真实也有很大差距。

2.5 代码解析

【飞桨PaddlePaddle论文复现课程】【GAN】论文解读之StarGAN v2_第16张图片

【飞桨PaddlePaddle论文复现课程】【GAN】论文解读之StarGAN v2_第17张图片

【飞桨PaddlePaddle论文复现课程】【GAN】论文解读之StarGAN v2_第18张图片

 

参考:

1)https://blog.csdn.net/WhaleAndAnt/article/details/105093047

2)百度飞桨顶会论文复现营PPT

你可能感兴趣的:(深度学习,计算机视觉,深度学习)