无监督图像迁移网络是计算机视觉领域的一个技术难题,即给定一张源域图像,如何在没有其他图像样本的情况下,学习相应目标域图像的条件分布。当处理多维条件分布时,现有的方法是在过度简化的假设条件下,通过绘制源域图像和确定的、一对一的目标图像来进行建模。
然而,上述方法无法用来生成给定源域图像的多种多样的目标图像。因此,本文提出了一种多维无监督图像迁移网络框架。
本文中假定代表图像可以被分解成域不变的内容代码,并能捕获特定于域的属性。为了能将图像迁移到另一个域中,本文通过对任意目标域图片的风格空间进行采样,并利用获得的风格代码生成内容代码。
代码:https://github.com/nvlabs/MUNIT
首先假设图像的潜在空间可以分解为内容空间和风格空间。进一步假设,不同领域的图像共享一个共同的内容空间,但不共享风格空间。为了将图像转换为目标域,我们将其内容代码与目标样式空间中的随机样式代码重新组合。
上图说明了论文提出方法,首先将每个域Xi中的图像进行编码后放入一个共享的内容空间C和特定于域的风格空间Si,每个编码器还有逆向解码功能。
其次,为了把域X1中的图像(例如一只美洲豹)迁移到域X2中(例如各种家猫),我们在目标风格空间(家猫风格)使用随机的风格代码重组了输入图像的内容代码,不同的风格代码生成不同的输出结果。
使用GAN将迁移图像的分布与目标域中的真实图像对齐。
在计算出每个域中图像的风格和每个风格对应的样本个数后,我们将每种风格作为一个单独的域进行处理。并使用多域图像迁移学习绘制每个风格对图像,进而实现多维迁移。
本文借助图像的内容特征和风格特征,提出的模型解决了单一样本的目标风格迁移和由图像集才能生成目标风格的弊端。
本文受到了最近兴起的非耦合表示学习(disentangled representation learning)框架的启发。虽然很难定义图像的内容和风格,而且不同的图像要使用不同的定义,因此,我们将内容定义为下属空间,将风格定义为底层空间。
损失函数包括bidirectional reconstruction loss和adversarial loss
保证encoder和decoder是逆过程。
包括image reconstruction和latent reconstruction。
image reconstruction:给定一个从数据分布采样的图像,我们应该能够在编码和解码后重建它。
latent reconstruction:给定在转换时从潜在分布采样的潜在代码(内容和风格),我们应该能够在解码和编码之后重构它。
使用GANs来匹配迁移图像到目标数据分布的分布。换句话说,我们的模型生成的图像应该与目标域中的真实图像难以区分。
G是生成器,D是判别器。
其中,λx, λc, λs are weights that control the importance of reconstruction terms.
Discriminator:使用Mao提出的LSGAN objective,采用Wang等提出的多尺度鉴别器来指导生成器产生真实的细节和修正全局结构。
Mao, X., Li, Q., Xie, H., Lau, Y.R., Wang, Z., Smolley, S.P.: Least squares generative
adversarial networks. In: ICCV. (2017)
Wang, T.C., Liu, M.Y., Zhu, J.Y., Tao, A., Kautz, J., Catanzaro, B.: Highresolution
image synthesis and semantic manipulation with conditional gans. In:
CVPR. (2018)
个人偏好
LPIPS距离
条件初始得分(Conditional Inception Score,CIS)