Frequency Domain Image Translation: More Photo-realistic, Better Identity-preserving 论文笔记

  • 作者信息

Frequency Domain Image Translation: More Photo-realistic, Better Identity-preserving 论文笔记_第1张图片

  • 当前要解决的问题

    • 基于GAN的方法使得图像到图像的翻译发生了巨大的变化,然而在使用源图像和参考图像合成新图像的任务中,现有的方法存在问题,即:合成后的图像缺乏保留源域identity(标识或身份)的能力,导致合成图像过度适应参考域,失去重要的结构特征,导致视觉效果不理想
  • 解决方法

    • 提出了一种基于频率域的图像翻译框架FDIT,利用频率的信息来增强图像生成过程

    • 主要思想:

      • 将图像分解为低频和高频成分,并在图像翻译过程中调节频率一致性
        • 低频特征可以捕获颜色和照明等信息,而高频的特征可以捕获类似identity的对象结构,即物体的锐利边缘和重要细节
        • 如下图,第一行为低频分量,第二行为高频分量,使用了高斯核(低通滤波器)分解,k表示kernel size(实验表明,在适当范围内,FDIT对于k的选择不敏感

      Frequency Domain Image Translation: More Photo-realistic, Better Identity-preserving 论文笔记_第2张图片

      • 同时分别在像素空间和傅里叶频谱空间中保留了频率信息
        • 像素空间中,通过高斯核转换为高频/低频分量,Loss使得源图像和生成图像之间的高频分量尽量接近
        • 傅里叶频率空间中,通过快速傅里叶变换(FFT)直接调节频率域的一致性
    • image-to-image翻译背景

      • 给定图像x,编码器E将其映射到潜在表示z ∈ \in Z,latent code z可以表示为z=( z C z_C zC, z S z_S zS),其中 z C z_C zC代表内容信息, z S z_S zS代表风格信息。通过L1范数损失函数使得原始输入x和生成图像G(E(x))最小化
      • 图像翻译阶段,生成器从源图像获得内容code z C s o u r c e z_C^{source} zCsource,从参考图像获得风格code z S r e f z_S^{ref} zSref,翻译后的图像由G( z C s o u r c e z_C^{source} zCsource, z S r e f z_S^{ref} zSref)给出
      • 然而现有的方法可能会受到其特征分解能力的限制,其中的 z C s o u r c e z_C^{source} zCsource可能无法捕获源图像的身份,因此与身份相关的特征可能会在翻译过程中丢失

    Frequency Domain Image Translation: More Photo-realistic, Better Identity-preserving 论文笔记_第3张图片

    • 具体流程如上图所示,左边为图像重构训练模型,右边为图像翻译生成新图像

    • 获得高频/低频图像

      • 低频:使用高斯核对输入的图像x卷积后得到低频图像 x L x_L xL

        Frequency Domain Image Translation: More Photo-realistic, Better Identity-preserving 论文笔记_第4张图片

        Frequency Domain Image Translation: More Photo-realistic, Better Identity-preserving 论文笔记_第5张图片

        • [i,j]表示图像中的空间位置,m、n表示2维高斯核的索引,m,n ∈ \in [ − k − 1 2 , k − 1 2 -\frac{k-1}{2},\frac{k-1}{2} 2k1,2k1]
      • 高频:首先将彩色图像转换为灰度图像(目的为删除与结构和identity无关的颜色与照明信息),然后减去低频信息,得到高频图像 x H x_H xH

        在这里插入图片描述

        • rgb2gray函数表示将彩色图像转换为灰度
    • 像素空间中

      • Reconstruction Loss

        Frequency Domain Image Translation: More Photo-realistic, Better Identity-preserving 论文笔记_第6张图片

      • Translation matching Loss

        在这里插入图片描述

        • z C s o u r c e z_C^{source} zCsource z S r e f z_S^{ref} zSref分别是源图像的内容code和参考域的风格code
        • 通过调节高频分量来实现翻译图像和源图像保持结构一致的目的
    • 傅里叶频率空间中

      • 首先使用FFT将图像x从像素空间映射到傅里叶空间,将离散傅里叶变换F应用于尺寸为H × \times ×W的真实2D图像I上:

        Frequency Domain Image Translation: More Photo-realistic, Better Identity-preserving 论文笔记_第7张图片

      • 为方便后续处理,将F从复数域转换为实数域,同时采用对数稳定训练

        Frequency Domain Image Translation: More Photo-realistic, Better Identity-preserving 论文笔记_第8张图片

        • 式中 ϵ = 1 × 1 0 − 8 \epsilon=1\times10^{-8} ϵ=1×108是为了数值稳定性增加的参数;Re和Im分别表示F(I)(a,b)的实部和虚部
          • +1为了让log大于等于0,1+ ϵ \epsilon ϵ让log大于0
      • Reconstruction Loss

        在这里插入图片描述

      • Translation matching Loss

        在这里插入图片描述

        • 其中 F H R ( x ) = F R ( r g b 2 g r a y ( x ) ) ⋅ M H \mathcal{F}_H^R(x)=\mathcal{F}^R(rgb2gray(x))·M_H FHR(x)=FR(rgb2gray(x))MH M H M_H MH是频率掩膜(Frequency mask)
    • Frequency mask(下文关于频谱部分引用自这篇博文:图像的傅里叶变换的频谱特征)

      • 理解:由于离散傅里叶变换具有周期性,因此只取一个周期如下图所示

      • 为便于频域的滤波和频谱分析,常常在变换之前进行频谱中心化

        • 中心化后,可以看到中间最亮的点是最低频率;越往外频率越高

        • 同时,频谱能级分布如上图所示,DC所占能量最大最多,频率越高的部分,能量越少。三个圈分别包含了大约85%、93%和99%的能量
      • 因此本文中的Frequency mask选择如图3所示

        Frequency Domain Image Translation: More Photo-realistic, Better Identity-preserving 论文笔记_第9张图片

        • 低频mask是一个半径为r的圆,而高频mask是互补区域,具体半径通过经验估计,如分辨率256x256的图像,半径选择为21,低频mask内的能量占整个频谱总能量的97.8%
  • 总体Loss

    在这里插入图片描述

    • L o r g \mathcal{L}_{org} Lorg是任何图像翻译模型的原始损失函数,为简便本文使用 λ 1 = λ 2 = λ 3 = λ 4 = 1 \lambda_1=\lambda_2=\lambda_3=\lambda_4=1 λ1=λ2=λ3=λ4=1
  • 实验结果

    Frequency Domain Image Translation: More Photo-realistic, Better Identity-preserving 论文笔记_第10张图片

    • 在5个数据集和多个任务中评估FDIT,包括图像翻译和GAN反演,结果表明,FDIT能有效保持源图像identity,并产生逼真的图像。与之前的最佳方法相比,平均FID分数降低了5.6%

你可能感兴趣的:(一个字,GAN!,计算机视觉,生成对抗网络,图像处理)