百度飞桨PaddlePaddle论文复现——StarGANv2论文解读

百度顶会论文复现营

百度飞桨Paddle Paddle顶会论文复现营

论文解读

解读视频

PyTorch代码及论文

Github

Motivation

多领域

  • 考虑到每个域中的不同风格样式的图像。设计和学习此类模型会变得很复杂,因为数据集中可能有大量的style(每个图像都有唯一的外观)和domain(一组可以分为视觉上独特类别的图像)。
  • 目前图像转换方法都仅考虑两个域之间的映射。若有K个域,需要训练 K(K-1 )生成器来处理每个域与每个域之间的转换。
  • StarGan缺乏多样性。由于每个域都由预先定义标签来表示,所以没有掌握数据分布的多样性 (mutil-modal) 本质。

Methodology

StarGan v2

  • 使用所提出的domain-specific style code替换域标签,前者可表示特定领域的各种风格样式。引入两个模块,一个映射网络mapping network和一个样式编码器style encoder
    百度飞桨PaddlePaddle论文复现——StarGANv2论文解读_第1张图片

  • 映射网络学习将随机高斯噪声转换为样式码(style code),而编码器则学习从给定的参考图像中提取样式码。两个模块都具有多个输出分支,每个分支都提供特定域的样式码,训练时将选取其中对应domain的一个

  • Generator
    将输入图像x转换为G(x,s),s为样式码style code,可以由映射网络F或者样式编码器E提供。使用adaptive instance normalization (AdaIN) 引入s
    删除了上采样residual blocks中的所有shortcut,并使用基于adaptive wing based heatmap添加了跳跃连接

  • 映射网络Mapping network
    网络包括k个输出分支,表示有k个域,给定隐变量z和对应的域y,生成样式码

  • Style encoder:
    网络包括k个输出分支,表示有k个域,给定图像x及其对应的域y,编码器E提取x的样式码

  • Discriminator:
    网络包括k个输出分支,表示有k个域,每个分支都学习一个二元分类,确定图像x是域y的真实图像还是G生成的伪图像,因此输出维度D被设定为1,作为real/fake的分类

训练目标

  • 对抗目标Adversarial objective
    在这里插入图片描述

  • 风格重构Style reconstruction
    在这里插入图片描述

  • 保留源图特性Preserving source characteristics
    在这里插入图片描述

  • 总体目标

百度飞桨PaddlePaddle论文复现——StarGANv2论文解读_第2张图片

Results

AFHQ

  • 发布了一个新的动物面孔数据集Animal FacesHQ(AFHQ)
  • 包括512×512分辨率的15,000张高质量图像。数据集包括猫,狗和野生动物的三个域,每个域提供5000张图像。
    百度飞桨PaddlePaddle论文复现——StarGANv2论文解读_第3张图片

量化评价指标

  • Frechétinception distance (FID)衡量真实图像和生成图像之间的差异性
  • Learned perceptual image patch similarity (LPIPS) 衡量生成图像的多样性
    百度飞桨PaddlePaddle论文复现——StarGANv2论文解读_第4张图片

人类评价

百度飞桨PaddlePaddle论文复现——StarGANv2论文解读_第5张图片

生成图像

百度飞桨PaddlePaddle论文复现——StarGANv2论文解读_第6张图片

代码解读

Github

最后…大家快来参加百度paddle paddle顶级论文复现营吧!手把手教学!

你可能感兴趣的:(百度飞桨PaddlePaddle论文复现——StarGANv2论文解读)