[生成对抗网络GAN入门指南](11)StackGAN: Text to photo-realistic image synthesis with stacked generative advers

本篇blog的内容基于原始论文StackGAN: Text to photo-realistic image synthesis with stacked generative adversarial networks(ICCV2017)和《生成对抗网络入门指南》第七章。


一、为什么要研究StackGAN

目前大部分文本生成图像的技术都存在一个问题,就是生成图像模糊不清,主要是因为文本的多义性。之前两篇博客Generative Adversarial Text to Image Synthesis利用cGAN来用文本生成图像,GAWWN:Learning What and Where to Draw提供了辅助信息(描述物体位置等)来提升图像的清晰度,但是cGAN无法依靠自身来提高清晰度。

这里的StackGAN提出一种层级式的网络结构来实现高清清晰度的文本生成图像。将文本生成高清图像的任务拆分为两个字任务:第一个子任务是通过文本生成一个相对模糊的图像,第二个子任务是从模糊的图像生成高清图像


二、StackGAN结构

网络分为两个部分,分别为Stage-I GAN与Stack-II GAN。

Stage-I GAN:根据给定的文本描述,生成描述对象的基本形状和颜色,并通过随机噪声输入来随机绘制北京,生成一张相对分辨率低的图片。它的输入为条件文字描述和随机噪声,输出为低分辨率图片。

Stack-II GAN:主要负责修正低分辨率图像的不足,并通过再次读取文字描述来丰富图片中的细节,最终输出高分辨率图片。输入为条件文本描述与Stage-I GAN输出的低分辨率图片,输出为最终的高分辨率图片。

[生成对抗网络GAN入门指南](11)StackGAN: Text to photo-realistic image synthesis with stacked generative advers_第1张图片

 

 

你可能感兴趣的:(深度学习paper,GAN,Adversarial,Network,paper_GAN)