[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation

注:拉到最后有视频版哦~

论文地址:https://github.com/eladrich/pixel2style2pixel

这次给大家介绍一篇CVPR2021的论文,主要讲的是基于StyleGAN的encoder网络,能做inversion,图像翻译等任务

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation_第1张图片

我会从这7个方面开始我的讲解

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation_第2张图片

背景

首先是背景,GAN在图片生成领域取得了很好的效果,尤其是现在最经典的StyleGAN,同时StyleGAN又有解耦合的latent space,有很多方法已经能通过操纵latent space来做语义编辑了,同时这种方法的生成器的fix的,不用训判别器

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation_第3张图片

动机

动机是inversion任务非常困难,想要一种又快又好的inversion方案很有挑战,同时传统的图像翻译任务一般一种任务需要一个网络

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation_第4张图片

研究目标

研究目标是能直接把真实图片嵌入到latent space中,不需要额外优化,同时该网络能解决多个图像翻译任务

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation_第5张图片

方法

下面来讲方法,首先是loss,我觉得这个是一个挺弱但是挺有用的创新,就是在传统的pix level的MSE和perception level的LPIPS上加了一个人脸识别的ID loss

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation_第6张图片

然后是网络这边,想做的是图片到latent space的W+空间的映射,主要用到了金字塔FPN,摈弃了之前比如用resnet直接输出W+空间的latent code的这种local方法,采用了延展backbone的global方法,分别从和StyleGAN原论文中对应的coarse,medium和fine三层去进行考虑

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation_第7张图片

FPN中间的特征,将通过一个叫map2style的层,这个层的结构比较简单,起到一个映射作用,然后再进入到仿射变换层

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation_第8张图片

对于多模态的翻译任务,提出的这种通用网络也能hold住,对于某些开放问题,引入的随机量来进行style mixing的生成

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation_第9张图片

实验

先来看inversion的实验,相比ALAE和IDinvert,pSp更加真实,并保留了更细节的属性

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation_第10张图片

然后是几个消融实验,首先看嵌入的空间,嵌入的W+空间明显比W和naive W+要好,naive W+的意思是在encoder后面多加一层把512的特征向量扩展成18x512。另外,定量实验如表所示,在Similarity,LPIPS和MSE上达到SOTA

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation_第11张图片

第二个是人脸正面化的实验,先来看训练,主要在gt方面有修改,gt是否翻转是随机的,这样将迫使网络学习一个中间位置,也就是正面的脸,和其他方法的对比图见右边,pSp较好的保持人脸原有属性,同时成功将其转为正脸

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation_第12张图片

然后是条件图片生成,先来看从肖像画中恢复出人脸,可以看到pSp相比pix2pixHD和FaceDrawing,具备更真实的观感和更多样的属性变化,对侧脸这种挑战图片也能hold住

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation_第13张图片

由于条件图片生成时候引入了随机量,每次生成的图片都会有点不同,但是总体的结构是和肖像画一致的

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation_第14张图片

对于从分割图片中恢复出人脸的任务,pSp也是比之前经典的方法都要好,更加真实也更加多样

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation_第15张图片

对于超分任务,pSp这个网络也能完成,从视觉上超过其他经典方法

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation_第16张图片

对于局部编辑,在fix住随机量后也能较好实现

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation_第17张图片

对于图片插值,pSp的结果也是非常平滑的

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation_第18张图片

对于图片修补任务,pSp也能完成

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation_第19张图片

结论就是,这个新的图像翻译框架运用了fix的stylegan生成器,完成了多个翻译任务

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation_第20张图片

不足就是对于StyleGAN训练中没有的图片,效果会不好,第二是强调了全局信息,缺少了局部信息的分析

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation_第21张图片

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation

[CVPR2021]Encoding in Style a StyleGAN Encoder for Image-to-Image Translation_第22张图片

你可能感兴趣的:(论文分享,计算机视觉,生成对抗网络)