目录
一、背景
二、简介
三、相关工作
四、生成性的先验蒸馏法
五、基于对抗学习的图像转化
六、实验结果
七、总结与讨论
尽管图像转换有了发展,但要实现巨大的视觉差异还是较为困难。具有预训练类别条件的生成性先验GANs(如BigGAN)被用来学习丰富的内容对应关系,可以进行跨域较大的丰富内容的转换。
本文提出一个新框架,生成性先验引导的无监督的图像转换 (GP-UNIT)Generative Prior guided Unsupervised Image-to-image Translation。新方案由粗到精:提炼生成性先验,捕获一个可以在抽象语义层面连接目标的粗略级别内容表示,在此基础上自适应地学习细级别的内容特征,以获得更准确的多级内容对应。
优势:提升图像转换算法的质量与适用性,在鲁棒性、高质量、多样化的图形生成中效果很好。
无监督的图像转换(UNIT):没有先验数据
主流的UNIT:假设转换的领域之间有转换关系,并利用循环一致性来建立转换的映射。虽然在跨域小的情况下效果较好,如马转斑马,但当跨域较大(形状外观差异较大)时这种方法效果急剧下降,如人脸转动物脸。
在差异较大的领域进行转换,需要在更高的语义层面进行。如人脸转猫脸时,应利用人和猫之间更可靠的面部组件如眼睛的对应关系,而不是利用局部纹理。在跨域更大的情况下,如动物转人造物体,则需在更高的抽象语义层面来确定转换关系,如通过物体方向与物体在图像中布局。
在不同的语义层面建立转化,会降低UNIT模型找到不同语义之间的准确对应关系,训练此模型需要的这种复杂的对应关系,常不存在或不可收集。
通过生成性先验能克服上述问题,取得可喜成果。生成跨越图像对来挖掘出GAN的独特先验,并利用此来指导模型建立有效的、适应性强的跨类内容映射。
BigGAN:覆盖了大量的领域,成熟应用于多领域间转化。
劣势:虽覆盖的领域广,但每个领域的质量与多样性发展受限制。
新方案:任务分解为由粗到精阶段
提出生成性先验引导的无监督的图像转换GP-UNIT框架,提高【原近领域的无监督的图像转换UNIT】与【BigGAN生成性先验】的质量与适用性。
无监督的图像转换(UNIT):
无监督:CycleGAN提出循环一致性结论,以建立双向关系。为了更好地捕获领域不变特征,通常使用内容编码器和风格编码器分别提取领域不变内容特征和风格特征。
差异巨大的领域学习表征:COCO-FUNIT提出内容条件的风格编码器,防止转换与目标无关的外观信息。TGaGa使用地标来建立几何映射。TraVeLGAN提出连体网络来取到跨领域的共享语义特征。而U-GAT-IT使用一个注意模块集中注意区分两个域的重要信息。但这些方法对各种转换任务的适应性较差,对此提出新方案:由粗到细,在高度抽象的语义上进行粗级跨域的内容映射,在此基础上再逐步学习适应目标的精细级别的关联。
对抗性图像生成:GAN使用辨别器与生成器竞争的方式,对抗性地逼近真实的图像分布。StyleGAN用生成先验,通过限制生成的图像要在生成空间内,来确保高质量的图像质量。然而StyleGAN是无条件的,只在单一领域或距离较近的领域适用。BigGAN可以在不同的领域中协同处理图像,但往往质量与域内多样性较差。为解决这问题,本文把BigGAN生成的数据提炼出生成性先验,并将此应用于图像的转换中 ,以此提升生成图像的质量。
BigGAN生成的对象尽管来自多个领域,但由于是由同样的噪音潜码z生成的,所以也具有高度的内容相关性。图2显示了BigGAN的生成空间,特征是三个噪音潜码(z1,z2,z3),横跨五个领域。其中每个潜码是指对应关系,如狗和猫间可以观察到细粒度的对应关系,如面部特征和身体姿势。而鸟和车辆的对应关系则不同,可以在方向和图像布局方面观察到粗略的对应关系。尽管领域差异大,但是在高度抽象的语义层面也会有对应关系。
具有相同潜码的对象,在最初的几层是共享相似的代码表征,在此基础上再添加领域的细节。使用这种生成性先验的方式来建立起稳健的映射(使用BigGAN来做丰富的跨领域先验)。缺点有:
StyleGAN具有高质量与多样性的特点,常应用于在一个领域内通过潜码进行属性转移,但只能在单一的领域,不适合我们的任务。后来通过微调可实现StyleGAN的跨域转换,但跨域距离较小。
我们的框架能解决此问题,不是直接约束噪音潜码或图像空间,而是从BigGAN中提炼出一个通用的生成性先验,能独立地标记和训练转换的模块。以此实现多模式翻译(图3(a)),对ImageNet以外的类别进行生成(图3(b)),并在遥远的领域之间建立稳健的映射(图3(c))。
使用一个解码器F,根据它的内容编码器Ec提取的内容特征Ec ( x )、一个样式编码器Es提取的样式特征Es ( x )和域标签lx来恢复外观x。
进一步利用F的浅层Fs来预测x ( 即由 HTC从 x中提取的实例分割图 xs )的形状。这样的辅助预测可以方便地对数百个领域进行训练。
除形状和外观重构外,我们进一步通过3种方式对内容特征进行正则化,以便提升泛化性:
目标函数是:
对于Larec,Lsrec和Lreg的一元损失,我们还使用ImageNet 和CelebA - HQ 的真实图像进行训练,使Ec更通用。
(L1范数是指向量中各个元素绝对值之和,L2范数定义为向量所有元素的平方和的开平方。)
L1范数损失函数,也被称为最小绝对值偏差(LAD),最小绝对值误差(LAE)。总的说来,它是把目标值(Yi)与估计值(f(xi))的绝对差值的总和(S)最小化:
L2范数损失函数,也被称为最小平方误差(LSE)。总的来说,它是把目标值(Yi)与估计值(f(xi))的差值的平方和(S)最小化:
L1范数与L2范数作为损失函数的区别能快速地总结如下:
给定第一阶段预先训练好的固定内容编码器Ec,我们按照第二阶段的标准转移范式来构建我们的翻译网络。由于预先训练好的Ec为内容相似度提供了很好的度量,我们的框架不需要对Ec循环训练,只需要训练出Es即可。
如图4(b)所示,我们的翻译网络接收到内容输入x∈X和风格输入y∈Y,网络分别提取其内容特征Ec(x)和风格特征分别Es(y)。然后生成器G通过AdaIN对Ec(x)进行调节以匹配y的样式,最终生成转化结果yˆ= G( Ec(x),Es(y) )。yˆ的逼真性通过一个辨别者D的对抗性训练得到加强。
生成的yˆ要符合y的类型,同时保留x原有的内容特征,表述为style loss Lsty和content loss Lcon。其中fD是定义为D的中间层特征上的平均值的样式特征。
语义上接近域的内容对应关系需很细致,不能仅用抽象内容特征来描述。为了解决这一问题,我们提出了一个动态跳转连接模块,该模块将中间层特征从传递到G,并预测掩码m,以此选择有效的元素来建立精细级内容对应。
动态跳转链接的灵感来自于循环神经网络GRU选择转移单元。GRU很聪明的一点就在于,使用同一个门控z就同时可以进行遗忘和选择记忆。
其中[·,·]表示连接。与具有相同的维数,既服务于通道注意,也服务于空间注意。此外,对应用L1范数使其更稀疏,由此达到。只选择源领域中最有用的内容线索。
新增重构损失Lrec:来衡量y和之间的L1和预知损失,
Lrec=L1(y,)。直观地说,我们希望一个图像的类型特征能够借助其内容特征精确地重构自己,从而使网络训练稳定。
为了在没有该类型图像的情况下,直接采样潜在类型特征进行多模态生成,我们在后处理基础上,使用最大似然准则训练一个映射网络,将单位高斯噪声映射到潜在类型分布上。
每四个类组成一个包含2.4K训练图像的域。我们使用“鸟->车”作为极端案例来测试GP-UNIT处理压力测试的能力。
我们对图5和图6中6种最先进的方法进行了可视化比较。相比较而言,我们的方法与上述方法相比,在男性<->女性任务上具有可比性,在其他挑战性任务上表现出一致的优越性。
进行质量和多样性的定量比较。FID 和LPIPS 分别用于评价生成数据与真实数据的图片质量与多样性。对于支持多模态转化的方法( MUNIT, COCO-FNIT, StarGAN2, GPUNIT),我们每次测试会生成10个配对翻译结果,我们从随机抽取潜在代码或示例图像来计算它们的平均多样性LPIPS距离。表1报告了所有测试图像的平均定量结果,与图5一致,即我们的方法效果达到或优于对比的方法,在困难任务上的优势更加明显,获得了最好的总体FID图像质量和LPIPS多样性。并发现GP-UNIT倾向于保留输入图像的背景。这种性质不利于多样性,但在某些应用中可能是有用的。虽然StarGAN2在Cat→Human Face上产生了逼真的人脸( 获得最好的FID图像质量 ),但它忽略了与输入猫脸的姿态对应关系( 内容一致性低于 GP-UNIT ),如图5所示。
我们进一步进行用户研究来评估输入输出内容的一致性和整体转化性能。共有25名被试参与本研究,从这6种方法中选出他们认为最好的结果,并对50组结果进行了2500次选择。表2总结了平均偏好得分,其中所提方法在内容一致性和整体性能方面都受到显著的偏好。
消融实验类似于“控制变量法”。假设在某目标检测系统中,使用了A,B,C,取得了不错的效果,但是这个时候你并不知道这不错的效果是由于A,B,C中哪一个起的作用,于是你保留A,B,移除C进行实验来看一下C在整个系统中所起的作用。
如图7 ( a )所示,如果我们在第二阶段与所有其他子网络一起从头开始训练我们的内容编码器Ec,就像大多数图像翻译框架一样,这个变种无法保存诸如眼睛位置等内容特征。相比之下,我们的预训练内容编码器预先成功地利用了生成器来更高效地构建有效的内容映射。指出了粗级内容特征的必要性,只有在此基础上才能学习有效的细级特征。因此,生成性先验是我们内容对应学习由粗到细方案成功的关键。
如图7 ( b )所示,在没有动态跳转连接( DSC )的情况下,模型不能保持鼻子和眼睛在内容图像中的相对位置。我们用全模型预测的掩模的第135和301通道有效地定位了这些特征,内容映射更为准确。
图8分析了学习到的多层次的跨域对应关系。最抽象的只给出布局线索。如果我们只使用 ( 通过将掩模和 同时设置为0 ),则会导致得到的虎和狗脸没有细节。
因此,我们的全多级内容特性使我们能够模拟极细级的长晶须。正如预期的那样,在更远的人和狗脸之间没有发现这种精细的对应关系,从而阻止了来自源域不必要的外观影响( 如图 5中生成的猫脸上的衣服 )。需要注意的是,这种合理的、适应性强的语义注意仅仅是通过先前的生成来学习的,没有任何明确的对应监督。
图9研究了损失file:///C:/Users/Administrator/Desktop/a.png函数的影响。
在第一阶段(内容编码器Ec)
在第二阶段(风格编码器)
图10展示了物种转移、季节转移和面部造型三个应用。即使MS-COCO长颈鹿、Yosemite景观和Art肖像不在ImageNet 1000类中,同时也不被第一阶段的内容编码器所观测到,我们的方法能够很好地支持这些领域,并产生逼真的结果。
图11显示了我们根据头部姿态图像数据库中的参考人脸在不同角度下合成的真实人脸和猫脸。为了转移身份和防止低水平的内容联系,我们添加了identity loss,并在计算Lrec时不使用DSC。
图13给出了我们方法的三个典型失败案例。
在本文中,我们在GAN生成之前建立了一个通用的UNIT框架。
我们的研究表明,提出的两阶段框架能够在高语义水平上表征内容的对应关系,以应对遥远域之间具有挑战性的多模态转化任务。这样做的一个优点是,只要进行域监督(即只知道每个图像所属的域),就可以发现这些内容的对应关系。
我们在第6.2节进一步发现,精细级别的内容关系仅通过生成任务就可以习得。这可能暗示了深度神经网络的一种有趣的行为,即通过从粗到细的方式自动查找和集成跨域的共享外观特征,以重建各种对象。它提出了一种生成学习的潜能:
参考:
欧氏距离,l2范数,l2-loss,l2正则化_Accelerating的博客-CSDN博客_l2范数计算公式范数、L1范数和L2范数的基本概念_lioncv的博客-CSDN博客_l2范数欧氏距离,l2范数,l2-loss,l2正则化_Accelerating的博客-CSDN博客_l2范数计算公式