一些基于 cycle consistency loss的unpaired methods 就像DualGAN, CycleGAN and DiscoGAN 是非常受欢迎的。然而,对于需要high-level视觉信息转换的翻译任务来说仍然是非常具有挑战性的。我们提出了一种学习将faces in the wild从 the source photo domain转换到具有不同样式的target caricature domain的方法,该方法也可用于其他高级别的图像翻译任务。
我们的动机是设计一个具有多个鉴别器的对抗训练,以提高GAN鉴别器在特征表示方面的能力。通过使用我们提出的方法,the photos of faces in the wild可以被翻译成具有学习的通用夸张艺术风格的漫画,同时仍然保持原始逼真的表达。
我们原先的CGAN的目标函数表示为 L c ( G , D ) = E x , y ∼ p d a t a ( x , y ) [ l o g D ( x , y ) ] + E x ∼ P d a t a ( x ) [ l o g ( 1 − D ( x , G ( x ) ) ) ] L_c(G,D)=E_{x,y \sim p_{data}(x,y)}[logD(x,y)]+E_{x \sim P_{data}(x)}[log(1-D(x,G(x)))] Lc(G,D)=Ex,y∼pdata(x,y)[logD(x,y)]+Ex∼Pdata(x)[log(1−D(x,G(x)))]
关于这个知识点详细可见论文[1]
L c y c ( G 1 , G 2 ) = E x ∼ P d a t a ( x ) [ ∣ ∣ G 2 ( G 1 ( x ) ) − x ∣ ∣ 1 ] + E y ∼ P d a t a ( y ) [ ∣ ∣ G 1 ( G 2 ( y ) ) − y ∣ ∣ 1 ] L_{cyc}(G1,G2)=E{x \sim P_{data(x)}}[||G_2(G_1(x))-x||_1]+E_{y \sim P_{data(y)}}[||G_1(G_2(y))-y||_1] Lcyc(G1,G2)=Ex∼Pdata(x)[∣∣G2(G1(x))−x∣∣1]+Ey∼Pdata(y)[∣∣G1(G2(y))−y∣∣1]
(ps:此处的公式我们使用L1 loss来计算)
为了进一步减小域间映射函数的空间间隔,我们将perceptual loss L p L_p Lp应用于模型中。(我们采用的是content loss,也称为perceptual similarity loss或feature matching。)
我们将perceptual loss应用于我们的模型,然后是cycle consistence loss,并计算来自不同域的不成对图像之间的perceptual loss,以推动生成器捕获特征表示。
为了提高图像的鲁棒性,丰富域间图像转换的多样性,在翻译之前,我们设计了一个noise-added training procedure。
步骤:
x = x i ∗ α + ( 1 − α ) ∗ n x=x_i * \alpha+(1-\alpha)*n x=xi∗α+(1−α)∗n
这里,我们将α定义为原始图像占最终图像的比例。
x i x_i xi为原始输入;n 表示均匀分布(uniform distribution) P n o i s e P_{noise} Pnoise的噪声.
根据加入了auxiliary noise input 我们的 L c L_c Lc需要做相应的改变,公式如下所示。
L c ( G , D ) = E x , y ∼ P d a t a ( x , y ) [ l o g D ( x , y ) ] + E x ∼ P d a t a ( x ) , n ∼ P n o i s e ( n ) [ l o g ( 1 − D ( x , G ( x , n ) ) ] L_c(G,D)=E_{x,y \sim P_{data(x,y)}}[logD_(x,y)]+E_{x \sim P_{data(x)},n \sim P_{noise(n)}}[log(1-D(x,G(x,n))] Lc(G,D)=Ex,y∼Pdata(x,y)[logD(x,y)]+Ex∼Pdata(x),n∼Pnoise(n)[log(1−D(x,G(x,n))]
传统的训练方法通常只有一个generator和一个discriminator。与之不同的是,我们设计了两种不同的discriminator来捕获不同层次的信息。
coarse discriminator
目的是鼓励生成基于全局风格和结构信息的图像合成,用于领域翻译。
fine discriminator
目的是实现特征匹配,帮助生成更合理、更精确的图像,而精细匹配则是对人脸细节的训练,例如嘴唇和眼睛。
γ和σ是平衡各损失对目标贡献的参数。(γ = 10 and σ = 2.0)
如图2所示,我们使用Conv-Residual blocks-Deconv作为生成器,直接在输入和输出之间共享低级和高级信息。
我们提出的模型在配对的脸部照片漫画数据集上以受监督的不成对方式进行训练,名为IIIT-CFW-P2C数据集,这个数据集是在由IIIT-CFW重建的。
IIIT-CFW数据集包含了来自名人的8928张卡通图片以及1000张真实人脸照片。然而,它不适用于使用一些成对的方法对照片到漫画翻译任务的训练,因为脸部照片和面部照片不是成对的。因此,我们通过搜索匹配数据集和因特网作为比较实验的训练集,重建了一个具有1171对配对图像的图像数据集。在这里我们使用其中800对进行训练,其余的用来作为测试。
我们使用IIIT-CFW-P2C数据集将本文提出的模型与以往的模型进行实验结果的对比。
Qualitative evaluation:(定性评估)
Quantitative evaluation:(定量评估)
在该实验中我们验证coarse discriminator和fine discriminator缺一不可。
中间那一列是没有使用cycle consistency loss
[1].Unpaired Image-to-Image Translationusing Cycle-Consistent Adversarial Networks。
[2].Globally and locally consistent image completion