Encoding in Style: a StyleGAN Encoder for Image-to-Image Translation 阅读笔记

Encoding in Style: a StyleGAN Encoder for Image-to-Image Translation

 代码

https://github.com/eladrich/pixel2style2pixel

 相关工作

一、W空间和W+空间:

1、(styleGAN和StyleGAN2)W空间:将一个真实图像编码到一个512维的向量wW空间,很难准确重构。

以往的方法往往是遵循“invert first, edit later”(先反转,再编辑)的原则:

首先将图像转换为StyleGAN的潜在空间,然后以语义上有意义的方式编辑潜在代码,以获得新的代码,然后StyleGAN使用该代码生成输出图像

2、(styleGAN encoder;styleGAN2 encoder)W+ 空间:一个扩展的潜在空间;利用额外的encoder生成18个不同的512维w向量的拼接(concatenation);然后输入到预训练的styleGAN generator中,生成图像。此类方法往往需要在W+空间对于每一个图像都进行优化;通过encoder在W+空间推断一个近似向量作为好的初始点,然后进行后续优化。

二、GAN Inversion 

GAN 反演 首次被提出:Jun-Yan Zhu, Philipp Krahenb ¨ uhl, Eli Shechtman, and ¨Alexei A Efros. Generative visual manipulation on the natural image manifold. In European conference on computer vision, pages 597–613. Springer, 2016

三种常见的反演方法:

  1. 直接优化潜在向量以最小化给定图像的误差,
  2. 训练编码器将给定图像映射到潜在空间
  3. 两者结合的混合方法

三、Latent Space Manipulation 潜在空间编辑

一般的方法往往遵循,先反转再编辑的步骤,本文提出的方法将输入图像编码到相应的(期望的)输出潜在(output latent)中,允许处理不在StyleGAN域中的输入

四、Image-to-Image图像到图像转换(略)

论文贡献

1、提出一种可以生成一系列style code的编码器,该系列style code构成了W+空间,可以输入到预训练的styleGAN 生成器,进行图像编辑。

提出的编码器可以直接将真实图像嵌入到W+空间,而不需要任何的优化。该encoder,基于一个Feature Pyramid Network(特征金字塔网络),从不同的金字塔尺度提取风格向量;然后直接输入到预训练好的styleGAN生成器的对应尺度层。

2、存在一个局限:输入的真实图像必须存在着一个可以编辑的潜在编码。为了解决这一问题,提出了一种将提出编码器和预训练styleGAN generator 相结合的image-to-image translation(图像转换)的通用框架

使用从编码器网络的最后一层获得的512维向量,直接将给定的输入图像编码为W+,从而获得18个风格向量(意思是获得18个相同的风格向量嘛?)。但是此类方法,获得的图像在更精细的方面存在不足。StyleGAN中也表明,不同的style input ,对应于不同的细节级别,大致可以分为粗粒度、中粒度和细粒度三个级别。

 网络结构

Encoding in Style: a StyleGAN Encoder for Image-to-Image Translation 阅读笔记_第1张图片

Encoding in Style: a StyleGAN Encoder for Image-to-Image Translation 阅读笔记_第2张图片

紫色框--实际上通过随机抽样向量wR512,并通过复制w生成在w +中的,相应的潜在代码。style-mixing 如下图所示。

Encoding in Style: a StyleGAN Encoder for Image-to-Image Translation 阅读笔记_第3张图片

损失函数

 像素损失:

 

感知损失(感知相似度):

正则化损失:鼓励生成的style code 与styleGAN的平均style code的一致性

identity 损失:保证身份信息的一致性。 R表示预训练的ArcFace网络

总的损失函数:

数据集

AFHQ Cat and AFHQ Dog datasets

CelebA-HQ dataset

FFHQ dataset

 评价指标

重构图像质量: Similarity # LPIPS # MSE # Runtime

Human Perceptual Study

 实验结果

StyleGAN Inversion styleGAN 反演)

Encoding in Style: a StyleGAN Encoder for Image-to-Image Translation 阅读笔记_第4张图片

 

目录

 代码

 相关工作

论文贡献

 网络结构

损失函数

数据集

 评价指标

 实验结果



你可能感兴趣的:(StyleGAN,深度学习,生成对抗网络,图像处理)