【研究生工作周报】(第九周)

学习目标:

  • CVPR 2020 | 几篇 image-to-image 论文
  • 李宏毅课程学习笔记 Domain Adaptation
  • 近年图像翻译的一些先进模型:
    • StarGAN v2
    • ALAE
    • HIDT
    • ConSinGAN

学习内容:

  1. 最基本的图像翻译模型UNIT,MUNIT
  2. 典型的图像翻译模型DAI2I,NICE-GAN,DUNIT
  3. StarGAN v2

学习时间:

  • 7.3~7.9

学习产出:

  • CSDN 总结博客 1 篇

Basic Image to Image Translation

  1. UNIT
    【研究生工作周报】(第九周)_第1张图片

Unsupervised Image-to-Image Translation Networks (UNIT)的特征如下:
●Two distinct domains 两个不同的domain
● Unpaired training data 数据不对应,就是一个domain中图片,没有和他对应的另外一个domain的照片
● Share the same latent space z
● Domain Invariant feature
【研究生工作周报】(第九周)_第2张图片
这里相当于一个VAE+GAN
【研究生工作周报】(第九周)_第3张图片
要找到两个domain的share latent space,通过VAE loss,GAN loss,cycle consistency loss三个方面的loss来进行训练。

  1. MUNIT
    Multimodal Unsupervised Image-to-Image Translation (MUNIT)特点
    ● Two distinct domains (Diverse image)
    ● Unpaired training data
    ● Disentangle features into content and style features
    【研究生工作周报】(第九周)_第4张图片
  • 两个Encoder,分别提取Content Feature和Style Feature,然后把它们结合,结合后做up-sampling,还原得到Reconstructed image。
  • 涉及到的loss包括域内的重构损失,跨域重构损失,对抗训练损失
    【研究生工作周报】(第九周)_第5张图片
    【研究生工作周报】(第九周)_第6张图片
    【研究生工作周报】(第九周)_第7张图片

图像翻译相关论文

1. Domain Adaptive Image-to-image Translation

【研究生工作周报】(第九周)_第8张图片
【研究生工作周报】(第九周)_第9张图片

  • 不成对训练下的图像转换image-to-image translation (I2I)在各种应用中都取得了巨大的成功。但其泛化能力仍然是一个悬而未决的问题。

  • 本文证明了现有的I2I模型不能很好地推广到训练域之外的样本,首先,当测试样本超出其有效输入域时,I2I模型可能无法正常工作。其次,如果预期输出与模型训练的结果相距甚远,则结果不可靠。

  • 为了解决这些问题,提出了一种域自适应图像到图像转换(DAI2I)框架,该框架使I2I模型适用于域外样本。框架引入了两个子模块-一个将测试样本映射到I2I模型的有效输入域,另一个将I2I模型的输出转换为预期结果。

2. Fine-grained Image-to-Image Transformation towards Visual Recognition

【研究生工作周报】(第九周)_第10张图片

  • 现有的图像转换方法主要集中在:如何在合成视觉上有让人感到自然的效果。而生成具有正确身份标签的图像具有挑战性,且相关探索少得多。

  • 在保持身份不变的情况下,对于姿势、视角或尺寸(缩放)具有较大变形的图像转换任务,更具挑战性,例如面部旋转和对象视图变形。

  • 本文的目标是对具有细粒度类别的图像进行转换,以合成保留输入图像身份的新图像,从而可以为后续的细粒度图像识别和少样本学习任务带来好处。

3. Reusing Discriminators for Encoding: Towards Unsupervised Image-to-Image Translation

【研究生工作周报】(第九周)_第11张图片

  • 训练结束后,大多数当前的图像转换框架将丢弃鉴别器。

  • 本文通过重复使用鉴别器来对目标域的图像进行编码,提出NICE-GAN。与以前的方法相比,方法具有两个好处:首先,由于不需要独立的编码组件,因此结构更紧凑;其次,这种插入式编码器直接受对抗损失训练,如果应用了多尺度鉴别器,则其信息量更大,训练更有效。

【研究生工作周报】(第九周)_第12张图片

4. DUNIT: Detection-based Unsupervised Image-to-Image Translation

【研究生工作周报】(第九周)_第13张图片

【研究生工作周报】(第九周)_第14张图片

  • 大多数图像转换方法将图像视为一个整体,这使得它们生成的效果内容丰富,却不够逼真现实。

  • 本文介绍了一种基于检测的无监督图像到图像转换(DUNIT)方法,该方法在转换过程中明确考虑了对象实例。方法为全局图像和实例分别提取各自表示,然后再将它们融合。

5. High-Resolution Daytime Translation Without Domain Labels

【研究生工作周报】(第九周)_第15张图片
【研究生工作周报】(第九周)_第16张图片

  • 对高分辨率照片中的白天变化进行建模,例如在白天,夜晚或黎明的典型光照下重新渲染同一场景,是一项具有挑战性的图像处理任务。- 本文为此任务提供了高分辨率的白天转换(HiDT)模型。HiDT结合了生成式图像转换模型和新的上采样方案,后者可以高分辨率应用于图像转换。
  • 项目地址

StarGAN v2

【研究生工作周报】(第九周)_第17张图片
StarGAN v2 由四部分组成:生成器 G G G ,映射网络 F F F ,风格编码器 E E E 判别器 D D D

  • 首先映射网络学习到目标域图像的风格编码 s ^ = F y ^ ( z ) \hat{s} = F_{\hat{y}}(z) s^=Fy^(z) ,其中 y ^ ∈ Y \hat{y}\in Y y^Y,这是映射网络学习到的目标域图像的风格编码。

  • 作为参照真实目标域图像的风格编码由风格编码器得到 s = E y ( y ) s = E_y(y) s=Ey(y),得到了风格编码 s ^ \hat{s} s^结合源域输入图像 x x x便可送入到生成器。

  • 生成器输出的就是转换后的目标域图像 G ( x , s ^ ) G(x,\hat{s}) G(x,s^),而判别器则为了区分生成的目标域图像是否是真实来源于真实目标域。

StarGAN v2模型结构:【研究生工作周报】(第九周)_第18张图片

小结

近年来,图像翻译实现了更加细致的任务实现,StarGAN v2 在 StarGAN 的基础上实现了多源域到多目标域的图像转换;ALAE 将自编码器拓展到高精致的图像转换。

HiDT 提供了多域图像转换下对图像翻译下的网络逻辑和损失函数做了细致的总结;ConSinGAN 代表了一众单幅图像训练的先进模型,实现了单幅图像训练下的图像转换任务。

你可能感兴趣的:(人工智能,python,计算机视觉)