百度飞桨PaddlePaddle论文复现训练营——论文阅读笔记:U-GAT-IT

文章目录

  • 一、写在前面
  • 二、论文背景
  • 三、论文阅读笔记
    • 1. Introduction
    • 2. Model
      • 2.1 生成器 GENERATOR
      • 2.2 判别器 DISCRIMINATOR
      • 2.3 损失函数 LOSS FUNCTION
    • 3. EXPERIMENTS

一、写在前面

感谢百度组织这次论文复现活动,感兴趣的朋友也可以点击链接参加:

https://aistudio.baidu.com/aistudio/education/group/info/1340

二、论文背景

自 2014 年Goodfellow等人发表了最初的 Generative Adversarial Networks 论文以后,关于 GAN 的研究成为计算机业界的大热门,随后的发展脉络集中于两条主线,一条是针对GAN理论的基础研究和改进,另一条则侧重于应用,而 U-GAT-IT 这篇论文就是 2020 ICLR 上非常亮眼的作品。

  • 前置论文推荐:
    • Generative Adversarial Nets
    • UNSUPERVISED REPRESENTATION LEARNING WITH DEEP CONVOLUTIONAL GENERATIVE ADVERSARIAL NETWORKS
    • Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks

三、论文阅读笔记

1. Introduction

Image-to-image translation可以应用在很多计算机视觉任务:

  • 图像分割
  • 图像修复
  • 图像着色
  • 图像超分辨率
  • 图像风格(场景)变换等

而 GAN 的优势在于:不仅仅在模型训练的收敛速度上,同时在图像转换质量上展示了优越的结果。相比传统的 Pixel CNN、VAE、Glow 优势非常明显。所以近年关于 GAN 的研究非常多。

而“图像翻译”则是 GAN 应用的第一步:

  • 跨模态间的转换
  • 文本到图像
  • 文本到视频
  • 语音到视频等

这种端到端,希望实现一个分布到另一个分布转换,GAN 都是可以有一定的作用。

该论文提出了现在 Image-to-image translation 依然存在很多问题,比如现在只能实现人到人的转换,狗到狗的转换等,差异情况较大的就难以转换,比如在猫到狗或者是仅仅是语义联系的图像转换上的表现则不佳。

U-GAT-IT 的出现,正是为了实现跨域转换的鲁棒性

  • 两大创新点:
    • 新的注意力机制 a new attention module,采用全局和平均池化下的类激活图(Class Activation Map-CAM)来实现的,通过 CNN 确定分类依据的位置。
    • 新的自适应归一化函数 a new learnable normalization function,帮助注意力引导模型灵活控制形状和纹理的变化量。

2. Model

百度飞桨PaddlePaddle论文复现训练营——论文阅读笔记:U-GAT-IT_第1张图片

模型分为生成器和判别器,两者结构几乎相同,生成器多了 AdaLIN 和 Decoder部分

生成器,首先是对端的输入端进行图像的下采样,配合残差块增强图像特征提取,接下来就是注意力模块,接着就是对注意力模块通过 AdaLIN 引导下残差块,最后通过上采样得到转换后的图像。

判别器相对于生成器而言,就是将解码过程换成判别输出。

2.1 生成器 GENERATOR

主要涉及的关键点就是 ACM 和 AdaLIN

AdaLIN:

百度飞桨PaddlePaddle论文复现训练营——论文阅读笔记:U-GAT-IT_第2张图片

结合两种 Norm 的优势:
百度飞桨PaddlePaddle论文复现训练营——论文阅读笔记:U-GAT-IT_第3张图片

  • Layer Norm 更多考量输入特征通道之间的相关性,LN比IN风格转换更彻底,但是语义信息保存不足
  • Instance Norm 更多考虑单个特征通道的内容,IN比LN更好的保存原图像的语义信息,但是风格转换不彻底

2.2 判别器 DISCRIMINATOR

和其他的翻译模型一样,这里的判别器也是一个 multi-scale model,需要和 编码器,分类器,辅助分类器保持一致。

但是不同于其他模型的是,辅助分类器和判别器会同时训练用于鉴别图像是真实的还是生成的。

2.3 损失函数 LOSS FUNCTION

  • Adversarial loss

描述 translated images 和 target image distribution 之间的差距
在这里插入图片描述

  • Cycle loss

用于消除模式崩塌问题 mode collapse problem,用这个去限制生成器
在这里插入图片描述

  • Identity loss

用于衡量输入和输出图像的颜色分布差距
在这里插入图片描述

  • CAM loss

从辅助分类器 auxiliary classifiers 挖掘信息
百度飞桨PaddlePaddle论文复现训练营——论文阅读笔记:U-GAT-IT_第4张图片

  • Full objective

最终,同时训练:编码器,解码器,判别器,辅助分类器,以此来优化最后的目标函数
百度飞桨PaddlePaddle论文复现训练营——论文阅读笔记:U-GAT-IT_第5张图片

3. EXPERIMENTS

可以看到实际的转化效果非常好:

  • 卡通转人像

  • 适应多种转换

你可能感兴趣的:(GAN)