CVPR2020 GAN文章整理

以后会持续更新,希望大家能够一起探讨,共同学习,有兴趣可以私信我。

3月31日已更新,增加3篇,共22篇。

3月30日已更新,增加2篇,共19篇。

1、Interpreting the Latent Space of GANs for Semantic Face Editing

https://genforce.github.io/interfacegan/

CUHK Bolei Zhou团队的文章,第一作者Yujun Shen目前在FacekBook做Research intern。该文章主要讲对已经训练好的GAN进行编辑,训练超平面,将图像的特征和latent code对应起来,通过编辑latent code距离超平面的距离来控制图像的特征信息。主要的实验是在StyleGAN和ProGAN上进行的。目前从效果上来看尚未能够完全的将特征解耦。由于我比较关注ID信息,发现变化过程中ID信息难以维持。这篇文章挂出来比较久,应该很多人都知道了。

2、Image Processing Using Multi-Code GAN Prior

https://arxiv.org/pdf/1912.07116.pdf

和第一篇文章是相同团队的作品,所以研究内容也是一脉相承。该文章主要讲利用已经训练好额GAN网络对训练集不可见domain图像的重构,同样也是在styleGAN和proGAN上进行试验的。由于单一噪声学习到的是训练集的分布,所以为了完成对未知domain图像的重构,作者采用多个噪声输入。作者认为“每一个噪声无法重构完整的图像,但是能够重构出图像的一部分内容,所以多个噪声联合,便能够重构出完整的图像”。当然,如果在噪声域进行联合,则依然跳不出噪声的分布,所以是在生成器的中间层,多特征进行融合。最终效果也是非常好,对于不可见图像完成逼真的重构。该方法可以作为无监督的方法实现图像的超分、去噪、上色等等。具有较大的应用价值,强烈推荐。

3、Cascade EF-GAN: Progressive Facial Expression Editing with Local Focuses

https://arxiv.org/pdf/2003.05905.pdf

该文章主要实现的是人脸表情编辑。

4、Alleviation of Gradient Exploding in GANs: Fake Can Be Real

https://arxiv.org/pdf/1912.12485.pdf

GAN的判别。

5、Noise Robust Generative Adversarial Networks

https://arxiv.org/pdf/1911.11776.pdf

这篇文章讲的是在有噪声的训练集上训练GAN网络生成无噪声的图像,并且不需要预先给定噪声的分布数值。后续作者又挂出了该文章的升级版《Blur, Noise, and Compression Robust Generative Adversarial Networks》(https://arxiv.org/pdf/2003.07849.pdf)

6、PULSE: Self-Supervised Photo Upsampling via Latent Space Exploration of Generative Models

https://arxiv.org/pdf/2003.03808.pdf

这篇文章是Duke大学的文章,与第二篇文章相同,同样是实现不同domain图像的重构,我看了一下,可能没懂。我感觉作者认为噪声分布能够重构出其他domain的图像。latent code对应的一个超球面上分布,基于梯度的方法无法实现在球面的上优化,而是使得latent code向球心运动,所以为了重构出其他domain的数据,需要一些技巧在球面上移动latent code。

7、A Characteristic Function Approach to Deep Implicit Generative Modeling

https://arxiv.org/pdf/1909.07425.pdf

该文章类似于WGAN-GP,讲的是GAN的基础架构,。

8、Your Local GAN: Designing Two Dimensional Local Attention Mechanisms for Generative Models

https://arxiv.org/pdf/1911.12287.pdf

该文章讲的是一种稀疏的注意力机制,作者认为,不仅在GAN上,在其他注意力相关任务上也可以应用。

9、Semantic Pyramid for Image Generation

https://arxiv.org/pdf/2003.06221.pdf

该文章讲利用训练好的分类等提取高层语义的网络,通过不同layer的加入融合,来控制生成图像。语义信心越low,则图像越和输入接近,否则和输入变化越大,只是保留相同的语义。

10、MSG-GAN: Multi-Scale Gradient GAN for Stable Image Synthesis

https://arxiv.org/pdf/1903.06048.pdf

这篇文章和proGAN比较类似,不同的是proGAN是逐层渐进训练的,而该方法是每一层都约束,由于该文章比较早就挂出来了,网上讲解的有很多。这里便不做过多介绍。

11、From Patches to Pictures (PaQ-2-PiQ): Mapping the Perceptual Space of Picture Quality

https://baidut.github.io/PaQ-2-PiQ/

严格来说,这并不是一篇GAN的文章。而是一种图像质量的评价方法,近年来已经有很多文章研究真实的感知损失,替代在一些情况下容易失效的L1和L2 Loss。而我们知道在GAN的训练中,除了GANloss之外,其他的Loss也同样重要,所以研究感知损失,也是和GAN息息相关的。

12、CNN-generated images are surprisingly easy to spot... for now

https://arxiv.org/pdf/1912.11035.pdf

同样,该文章也不是GAN方法的文章。而是讲述如何区分真实的图像和GAN生成的图像。那么作为“强大的敌人”,如果将其引入到GAN的鉴别器中,应该对GAN质量的提高带来一定的帮助。

13、Face X-ray for More General Face Forgery Detection

https://arxiv.org/pdf/1912.13458.pdf

这篇文章与第12篇属于相同的范畴,不做不过介绍,对GAN和真实图像区分感性的同学可以看看。

14、Watch your Up-Convolution: CNN Based Generative Deep Neural Networks are Failing to Reproduce Spectral Distributions

https://arxiv.org/pdf/2003.01826.pdf

这篇文章是从频率的角度来讲GAN损失情况,也就是对真实图像和GAN生成的图像进行频谱分析,发现即便是styleGAN这种效果卓群的网络,在频域上依然与真实的图像存在差异,为此设计添加频率约束的生成网络,保证了生成图像的质量。

15、On Positive-Unlabeled Classification in GAN

https://arxiv.org/pdf/2002.01136.pdf

该文章的主要思路是,鉴别器判断图像的质量而不是图像的real和fake,通过该方式提高生成图像的质量。

16、GAN Compression: Efficient Architectures for Interactive Conditional GANs

https://arxiv.org/pdf/2003.08936.pdf

该文章讲述的是GAN的压缩方法,在保证GAN效果的同时,能够大大降低生成器的冗余,在pixel2pixel,cycleGAN等条件GAN网络上取得了显著的效果,压缩率超过了1/9。

17、BachGAN: High-Resolution Image Synthesis from Salient Object Layout

https://arxiv.org/pdf/2003.11690.pdf

从布局生成图像的方法,相较于GauGAN从语义生成图像,该方法对于用户的输入要求更低,只需要给出几个boundingbox便可以生成图像。同样任务论文,arxiv也新挂出来一篇,感兴趣的可以看看https://arxiv.org/pdf/2003.11690.pdf。这个领域应该是一个月来越得到重视的GAN的子领域。

18、Controllable Person Image Synthesis with Attribute-Decomposed GAN

https://arxiv.org/pdf/2003.12267.pdf

北大和字节跳动的文章,主要是描写人物的合成,从文章给出的图来看效果还是很好的,可以提取不同人的特征组合出一个新的人物来,实现控制一个人的姿势穿着等等。

19、Augmenting Colonoscopy using Extended and Directional CycleGAN for Lossy Image Translation

https://arxiv.org/pdf/2003.12473.pdf

主要是cycleGAN在医学图像转换中的应用,但是文章提出的训练技巧在所有的cycleGAN相关任务中应该都能够有着较好的应用,对于使用cycleGAN的人还是值得一看的。

20、Adversarial Feature Hallucination Networks for Few-Shot Learning

https://arxiv.org/pdf/2003.13193.pdf

利用条件WGAN实现特征的合成,进而实现分类的数据集扩增。

21、One-Shot Domain Adaptation For Face Generation

https://arxiv.org/pdf/2003.12869.pdf

FAIR的文章,利用已经训练好的styleGAN网络,生成和单张target image具有相同分布图像,实现数据集扩增。

22、Semantically Mutil-modal Image Synthesis

https://arxiv.org/pdf/2003.12697.pdf

华中科大的文章,利用语义生成图像,GroupDNet—— Group Decreasing Network。网络非常规地采用群卷积,并修改卷积的组数以减少解码器中的数量,从而大大提高了训练效果。

你可能感兴趣的:(CVPR2020 GAN文章整理)