【PaddlePaddle论文复现】U-GAT-IT: 基于GAN的新型无监督图像转换

非监督GAN算法U-GAT-IT大幅改进图像转换效果

复现论文题目:U-GAT-IT: Unsupervised Generative Attentional Networks with Adaptive Layer-Instance Normalization for Image-to-Image Translation(2019-7-25)
原文
论文复现课程

文章主要解决:

无监督的图像转换的问题,当两个域的图像的纹理和形状差别很大时,现有的一些经典模型(CycleGAN、UNIT、MUNIT、DRIT等)效果不佳,不能很好的到达预期效果,这些算法仅适用于两个差别较小的域,如photo2vangogh和photo2portriat,而cat2dog和selfie2anime(自拍到漫画)效果不好, 本文通过以下方法在几何变形很大的情况下,得到较好的结果:

1、首先是引入注意力机制,这里的注意力机制并不传统的 Attention 或者 Self-Attention 的计算全图的权重作为关注,而是采用全局和平均池化下的类激活图(Class Activation Map-CAM)[2] 来实现的,CAM 对于做分类和检测的应该很熟悉,通过 CNN 确定分类依据的位置,这个思想和注意力是一致的,同时这对于无监督下语义信息的一致性判断也是有作用的,这块我们后续再进行展开。

【PaddlePaddle论文复现】U-GAT-IT: 基于GAN的新型无监督图像转换_第1张图片
由上图,我们可以看到对于图像经过下采样和残差块得到的 Encoder Feature map 经过 Global average pooling 和 Global max pooling 后得到依托通道数的特征向量。创建可学习参数 weight,经过全连接层压缩到 B×1 维,这里的 B 是 BatchSize,对于图像转换,通常取为 1。

能够引导生成器G关注那些区分源域与目标域的更重要的区域,从而使得G的性能能够更好发挥,并让G对于图像整体的改变与obj.形变有更好的处理能力。

2、引入新的正则化方式AdaLIN(自适应layer norm与instance norm),其作用是帮助注意力引导模型灵活控制形状和纹理的变化量。

【PaddlePaddle论文复现】U-GAT-IT: 基于GAN的新型无监督图像转换_第2张图片
完整的 AdaLIN 操作就如上图展示,对于经过 CAM 得到的输出,首先经过 MLP 多层感知机得到 γ,β,在 Adaptive Instance Layer resblock 中,中间就是 AdaLIN 归一化。

有了上述的两项作用,使得 U-GAT-IT 实现了具有多任务下鲁棒的图像转换模型。

网络结构

【PaddlePaddle论文复现】U-GAT-IT: 基于GAN的新型无监督图像转换_第3张图片
图中的模型分为生成器(G)和判别器(D),其中生成器比判别器多了AdaLIN 和 Decoder这部分的操作。

生成器
首先是对输入端进行图像的下采样,配合残差块增强图像特征提取,接下来就是注意力模块,接着就是对注意力模块通过 AdaLIN 引导下残差块,最后通过上采样得到转换后的图像。

判别器
判别器相对于生成器而言,就是将解码过程换成判别输出。

效果图

作者在马和斑马,猫到狗,人脸到油画等不成对的图像数据集评估了方法的性能,我认为最有创意的就是作者团队创建的女性到动漫的数据集的风格场景。

由下图可以看出该方法在定量和定性方面都展示了优越的结果。

总结

论文提出了无监督的图像到图像转换(U-GAT-IT),其中注意力机制模块和 AdaLIN 正规化可以在具有固定网络架构和超参数的各种数据集中产生更加赏心悦目的视觉效果。辅助分类器获得的图像可以指导生成器更多地关注源域和目标域之间的不同区域,从而来提高条件GAN的性能。此外,自适应图层实例规范化(AdaLIN)可以进一步增强模型在不同数据集下的鲁棒性。

你可能感兴趣的:(【PaddlePaddle论文复现】U-GAT-IT: 基于GAN的新型无监督图像转换)