Image-to-Image Translation with Conditional Adversarial Networks论文阅读分享(pix2pix)

一.简介

1.1研究的主要内容

本文主要研究CGANS(条件对生成抗网络)作为图像到图像转换问题的通用解决方案,提出了pix2pix软件,并且证明了该方法可有效地从标签图合成照片,从边缘图重建对象以及为图像着色等任务。
Image-to-Image Translation with Conditional Adversarial Networks论文阅读分享(pix2pix)_第1张图片
这个图片是展示了一些图像到图像转换的结果

1.2创新点

1.证明在各种问题上,conditional GAN都能产生合理的结果。
2.提出一个足以取得良好结果的简单框架,并分析几种重要架构选择的影响
3.提出了新的discriminator (PatchGAN)

1.3论文地址和代码

1.论文地址:https://arxiv.org/pdf/1611.07004.pdf
1.代码地址:https://github.com/junyanz/pytorch-CycleGAN-and-pix2pix

二.需验证的算法(本文采用针对不同任务做出了很多实验)

(1)GAN:
在这里插入图片描述
(2)CGAN:

在这里插入图片描述
Image-to-Image Translation with Conditional Adversarial Networks论文阅读分享(pix2pix)_第2张图片
(3)L1:
在这里插入图片描述
(4)Patch GAN:
patchGAN 只能惩罚patch的结构损失,对图像中的每个N×N色块是真实的还是假的进行分类,最终取平均作为D的输出
Image-to-Image Translation with Conditional Adversarial Networks论文阅读分享(pix2pix)_第3张图片
(5)生成器结构(U-Net和Encoder-Decoder)
其中Encoder-Decoder结构是在U-Net上去掉跳跃连接形成的

注:详细网络结构和训练方法可以参考论文原文的附加材料

三.各种验证实验

3.1评估指标

Amazon Mechanical Turk (AMT) perceptual(“真实与虚假”感知研究):针对模型的生成图片与真实图像给测试者进行辨别,主要针对着色和照片生成之类的图形问题,对于人类观察者而言,合理性通常是最终目标
FCN-score:主要在真实图片训练一个语义分割的模型,对不同GAN生成图像和真实图像进行测试,看分割效果,根据分类准确度对合成照片的标签进行评分,以区分这些照片的来源。

3.2目标函数分析

Image-to-Image Translation with Conditional Adversarial Networks论文阅读分享(pix2pix)_第4张图片
分析:只用L1会导致模糊,只用CGANS会产生些假的图像,合起来一起用效果比较好

3.3FCN-score分析

Image-to-Image Translation with Conditional Adversarial Networks论文阅读分享(pix2pix)_第5张图片
分析:L1+GAN和L1+CGAN的效果差不多一样好

3.4颜色着色分析

Image-to-Image Translation with Conditional Adversarial Networks论文阅读分享(pix2pix)_第6张图片
分析:对于颜色分布问题,CGAN的颜色更接近真实分布,L1的颜色分布比较窄证实了L1鼓励使用平均的浅灰色假设

3.5生成器结构分析

Image-to-Image Translation with Conditional Adversarial Networks论文阅读分享(pix2pix)_第7张图片
Image-to-Image Translation with Conditional Adversarial Networks论文阅读分享(pix2pix)_第8张图片

分析:U-Net的效果明显好与encoder-decoder,原因是U-Net可以实现低级信息的跳跃连接

3.6PatchGAN中N大小的分析

Image-to-Image Translation with Conditional Adversarial Networks论文阅读分享(pix2pix)_第9张图片
Image-to-Image Translation with Conditional Adversarial Networks论文阅读分享(pix2pix)_第10张图片

分析:使用16×16的PatchGAN足以提升清晰的输出,并获得良好的FCN得分,但同时也会导致部分失真。 70×70 PatchGAN减轻了这些瑕疵,并获得了更好的分数。超出此比例,放大到完整的286×286 ImageGAN似乎并不能改善结果的视觉质量,实际上,其FCN得分要低得多(表3)。这可能是因为ImageGAN比70×70 PatchGAN具有更多的参数和更大的深度,并且可能更难训练。

3.7输入图像大小的分析

Image-to-Image Translation with Conditional Adversarial Networks论文阅读分享(pix2pix)_第11张图片
分析:对于任意大小输入图像,其输出结果也很好

3.8感知验证分析(着色)

Image-to-Image Translation with Conditional Adversarial Networks论文阅读分享(pix2pix)_第12张图片
分析:62参考文献在颜色转化反面效果很好,他们的方法经过专门设计,可以很好地实现着色,可以去看看原文( R. Zhang, P . Isola, and A. A. Efros. Colorful image colorization. ECCV, 2016.),本文方法是L1+CGAN

3.8语义分割分析(图像到标签)

Image-to-Image Translation with Conditional Adversarial Networks论文阅读分享(pix2pix)_第13张图片
分析:在视觉问题语义分割任务时,L1重建损失就已经足够了,所以L1表现最好,不用像图形任务要求模糊程度

四.结论

本文的结果表明,条件生成对抗网络是许多图像到图像转化任务的有前途的方法,尤其是那些涉及高度结构化图形输出的任务。这些网络会学习到适合于手头任务和数据的损失,这使得它们适用于多种任务。

注:更多实验细节内容可以参看代码地址,更多网络结构信息和训练方案可以看附加材料

欢迎各位读者能够一起交流学习!!!

你可能感兴趣的:(GAN)