[飞桨 PaddlePaddle] 论文阅读笔记之U-GAT-IT

[飞桨 PaddlePaddle] 论文阅读笔记之U-GAT-IT

文章目录

  • [飞桨 PaddlePaddle] 论文阅读笔记之U-GAT-IT
    • 标题:Unsupervised Generative Attentional Networks with Adaptive Layer-Instance Normalization for Image-to-Image Translation
    • 正文
      • 前人工作
      • 解决方法
      • 提出方法
      • 模型架构
      • 个人心得

标题:Unsupervised Generative Attentional Networks with Adaptive Layer-Instance Normalization for Image-to-Image Translation

课程链接:https://aistudio.baidu.com/aistudio/education/group/info/1340

附图一张(截图至百度的Paddle课程):GAN的发展脉络

[飞桨 PaddlePaddle] 论文阅读笔记之U-GAT-IT_第1张图片

正文

图到图转换广泛用于图像修复超分解析图像上色风格迁移

前人工作

根据domains中shape与texture来进行转换,适用于局部纹理的映射。但不适用于larger shape的改变。

解决方法

  1. 数据预处理:图像裁剪、图像对齐
  2. DRIT:针对数据集对网络结构、超参进行调整

提出方法

  1. 两个生成器 G s → t G_{s\rightarrow t} Gst G t → s G_{t\rightarrow s} Gts和两个判别器 D s D_s Ds D t D_t Dt
  2. 注意力模块→区分源域目标域
  3. 自适应归一化函数AdaLIN→引导注意力模块灵活地控制shape和texture,而不需要改变模型架构和超参(改进DRIT)
    [飞桨 PaddlePaddle] 论文阅读笔记之U-GAT-IT_第2张图片

模型架构

  1. **生成器:**输入图片→下采样→编码器(残差模块)→1x1卷积(relu)→上采样→ReflectionPad2d→卷积→ILN(relu)→ReflectionPad2d→卷积(Tanh)

    1. 残差模块

      1. 自适应平均池化→全连接
      2. 自适应最大池化→全连接
    2. ILN

      1. a作为输入, γ \gamma γ β \beta β作为动态计算参数。 μ I \mu_I μI σ I \sigma_I σI:通道数及对应标准差; μ L \mu_L μL σ L \sigma_L σL:分层平均值及对应标准差。
      2. 在参数更新时,进行边界限制(0-1范围),就可以使得 ρ \rho ρ接近于1(归一化)与0(LN)

      [飞桨 PaddlePaddle] 论文阅读笔记之U-GAT-IT_第3张图片

  2. 判别器:输入图片→下采样→编码器→ReflectionPad2d→conv→spectral_norm

    1. 下采样(重复N次)
      1. ReflectionPad2d→conv→spectral_norm→Leakyrelu
    2. 编码器(同上)
  3. 损失函数:Full objective

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-wMe5uf0e-1596697760014)(%5B%E9%A3%9E%E6%A1%A8%20PaddlePaddle%20%E8%AE%BA%E6%96%87%E9%98%85%E8%AF%BB%E7%AC%94%E8%AE%B0%E4%B9%8BU-GAT-IT%5D%209093c31200da4126ae1c8cb5bdbe0f7c/Untitled%202.png)]

    1. Adversarial loss:生成图片与目标图片的分布损失

      [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0IPmkWMX-1596697760015)(%5B%E9%A3%9E%E6%A1%A8%20PaddlePaddle%20%E8%AE%BA%E6%96%87%E9%98%85%E8%AF%BB%E7%AC%94%E8%AE%B0%E4%B9%8BU-GAT-IT%5D%209093c31200da4126ae1c8cb5bdbe0f7c/Untitled%203.png)]

    2. Cycle loss:图片周期性相互转换(根据真实图片生成的图片来还原图片)的损失

      [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ftaOQEK3-1596697760017)(%5B%E9%A3%9E%E6%A1%A8%20PaddlePaddle%20%E8%AE%BA%E6%96%87%E9%98%85%E8%AF%BB%E7%AC%94%E8%AE%B0%E4%B9%8BU-GAT-IT%5D%209093c31200da4126ae1c8cb5bdbe0f7c/Untitled%204.png)]

    3. Identity loss:图片平移与未平移的损失

      [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2WA95rNr-1596697760018)(%5B%E9%A3%9E%E6%A1%A8%20PaddlePaddle%20%E8%AE%BA%E6%96%87%E9%98%85%E8%AF%BB%E7%AC%94%E8%AE%B0%E4%B9%8BU-GAT-IT%5D%209093c31200da4126ae1c8cb5bdbe0f7c/Untitled%205.png)]

    4. CAM loss:源域与目标域的最大差异

      [飞桨 PaddlePaddle] 论文阅读笔记之U-GAT-IT_第4张图片

个人心得

1. 作者从图像转换领域中large shape的缺陷入手,通过增加注意力机制与引入自适应归一化层来解决这个问题。

2. 主要难点:
    
    1. addILN的实现

3. 主要疑惑:
    
    1. ReflectionPad2d与InstanceNorm2d

你可能感兴趣的:(笔记)