图像风格转换是一个不确定的问题,大量的解决方案可以满足相同的条件(内容和风格)。尽管已经有一些努力通过引入另一种多样性损失来改善风格转移的多样性,但它们的概括性受到限制,多样性有限,可扩展性差。在本文中,我们解决了这些限制,并提出了一种简单而有效的多样化任意风格转移的方法。我们的方法的关键思想是一种叫做深层特征扰动(deep feature perturbation,DFP)的操作,它使用正交随机噪声矩阵来扰动深层图像特征图,同时保持原始风格信息不变。我们的DFP操作可以很容易地集成到许多现有的基于WCT(增白和着色变换)的方法中,并使它们能够为任意的风格产生不同的结果。实验结果表明,这种不需要学习的通用方法可以在保持风格化质量的同时大大增加多样性。
风格转移,或用另一个人的风格重新绘制一个现有的图像,在学术界和工业界都被认为是一项具有挑战性但又相互影响的任务。最近,Gatys等人的开创性工作[7, 6, 8]已经证明,从预先训练的深度卷积神经网络(DCNN)中提取的特征图之间的相关性(即Gram矩阵)可以很好地代表图像的风格。此后,人们在许多方面做出了重大努力,包括效率[29, 12, 16]、质量[15, 31, 21, 10]、通用性[2, 5, 11, 19, 26, 22]、用户控制[1, 9]和逼真度[23, 20, 32]等。然而,尽管取得了显著的成功,这些方法往往忽略了一个重要的方面,即多样性,因为许多应用(如艺术创作和创意设计)都需要满足不同用户的偏好。
在多样性方面,一个常见的解释是,图像风格转移是一个欠确定的问题,大量的解决方案可以满足相同的内容和风格,就像不同的方法产生的结果可能都是视觉上的愉悦和感知上的正确。然而,香草风格转移机制中缺乏有意义的变化[8, 12, 29]阻碍了多样性的出现,因为基于优化的方法经常收敛到类似的局部最优,而前馈网-工程只对固定的输入产生固定的输出。
虽然具有挑战性和意义,但不幸的是,这个问题几乎没有得到足够的重视,只有少数人在努力解决这个问题。例如,基于前馈网络,Li等人[18]引入了一个发散性损失,对小批量不同样本的特征相似性进行惩罚。Ulyanov等人[30]将生成的分布与Julesz en- semble[13, 35]上的准均匀分布之间的Kullback-Leibler分歧最小化。尽管他们的方法在一定程度上可以生成二维纹理样本或风格化的图像,但他们仍然受到三个主要的限制:
(1) 泛化能力受限。一旦训练完成,他们的前馈网络就被束缚在一个特定的风格上,不能被推广到其他风格。
(2) 有限的多样性。由于他们的多样性是通过惩罚有限数据集的小批次的变化来学习的,而且多样性损失的权重应设置为一个小值,所以多样性的程度是有限的。
(3) 可扩展性差。将他们的方法扩展到其他方法上需要对训练策略和网络结构进行难以解决的修改,这对一些基于学习的方法如[11]可能是有用的,但不适合最近的无学习方法[19, 26, 20],因为这些方法以一种风格无关的方式转移任意的风格。
面对上述挑战,我们重新思考多样性问题,我们将使用的一个重要见解是,被广泛用作图像样式表示的格拉姆矩阵[8]可以对应无限多的不同特征图,而从这些特征图中重建的图像就是我们正在寻找的多样化结果。显然,多样性的问题现在已经转化为如何用相同的格拉姆矩阵获得不同的特征图的问题。受Li等人[19]的工作启发,我们提出了一种简单而有效的方法,即深度特征扰动(DFP),以实现多样化的任意风格的转移,该方法分解了格拉姆矩阵,并通过增白和着色变换(WCTs)来分离它们的匹配。我们的多样性是通过使用正交噪声矩阵来扰动从DCNN中提取的图像特征图,同时保持原始风格信息不变。也就是说,尽管被扰动的特征图彼此不同,但它们都有相同的格拉姆矩阵。为了便于理解,我们将格拉姆矩阵视为风格代表,并定义具有相同格拉姆矩阵的不同特征图共享相同的特定风格特征空间。
在这项工作中,我们的DFP是基于WCT[19]的框架,所以它可以很容易地被纳入许多基于WCT的方法[19, 26, 20],并使它们能够产生多样化的结果,而无需任何额外的学习过程。请注意,这种无需学习的过程与上述需要用预先定义的风格进行学习的多样化方法有根本的不同。因此,我们的方法能够实现多样化的任意风格转移。
这项工作的主要贡献有三个方面。
基于Gram的方法。Gatys等人[7, 6, 8]首先提出了一种算法,用于任意的风格转移和纹理合成,该算法基于在迭代优化框架内对从预先训练的DCNN中提取的深度特征图之间的相关性(即Gram矩阵)进行匹配,但一个主要缺点是效率不高。为了解决这个问题,Johnson等人[12]和Ulyanov等人[29, 30]对前馈生成网络进行了快速训练,但这些方法需要每次为新的风格重新训练网络,这是不灵活的。针对这一限制,一些方法[5, 33, 2, 18, 25]被提出来,将多种风格纳入一个单一的网络,但它们仍然局限于固定数量的预设风格。最近,Huang和Belongie[11]进一步允许在一个单一的前馈网络中进行任意样式传输。
基于WCT的方法。最近,Li等人[19]提出了利用一系列的特征变换,以无风格学习的方式实现快速的任意风格转移。他们将风格转换的任务重新表述为一个图像的重新构建过程,内容图像的特征图在中间层根据其风格统计(即Gram矩阵)进行白化,然后着色以表现出风格图像的相同统计特性。这种方法本质上是一种基于Gram的方法,但它通过矩阵分解分割Gram矩阵,并通过增白和着色变换(WCTs)分离它们的匹配,从而为我们的深度特征扰动提供了机会。此外,Sheng等人[26]将其与风格互换[3]相结合,以实现更高质量的语义级风格转移。Li等人[20]和Yoo等人[32]将其发展为快速的照片逼真风格转移。最近,Li等人[17]从理论上推导出转换矩阵的形式,并通过前馈网络直接学习它。Lu等人[22]通过将其视为最优传输问题得出了一个闭合形式的解决方案。在我们的工作中,以最具代表性的[19, 26, 20]为例,提出的方法可以很容易地集成到无学习的WCT过程中,并使这些方法产生不同的结果,这将在第5节中展示。
多样化的方法。我们的方法与[18]和[30]密切相关。Li等人[18]引入了多样性损失,以使前馈网络能够产生不同的结果。它明确地测量了生成的结果之间在视觉上的变化,并在一个小批量中对其进行惩罚。Ulyanov等人[30]提出了一个新的表述,允许训练生成式网络,该网络对Julesz集合进行采样[13, 35]。具体来说,其学习目标的多样性项与Li等人[18]的学习目标相似,后者通过对生成的图像进行相互比较来量化批次中的多样性不足。尽管这些方法在一定程度上可以产生多样化的输出,但它们仍然存在通用性受限、发散性有限和可扩展性差的问题,正如我们在第1节所介绍的。
我们提出的方法是基于WCT[19]的,可以很容易地集成到基于WCT的方法中,使它们能够产生多样化的结果。不像以前的发散性方法[18, 30]需要为每一种风格训练一个独立的网络,我们的多样性是免学习的,适用于任意的风格。此外,在没有额外限制的情况下,我们的方法可以产生无限多的具有满意质量和独特多样性的脚本。
定义一个图像的风格是一个相当棘手的问题,到目前为止,还没有达成统一的结论。
非正式地,风格可以被看作是视觉属性的一个系列,如颜色、笔触和线描等。最近,Gatys等人[7, 6, 8]为艺术图像提出了一种新的风格表示法(Gram矩阵)。在他们的工作中,图像的风格由从预先训练的DCNN中提取的深度特征图之间的关系来表示。给定一个图像~x 作为输入,从VGG模型[28]的某一层(我们仅以一层为例)提取的矢量特征图被表示为F∈RC×HW,其中H、W是原始特征图的高度和宽度,C是通道数。图像 ~x 的风格可以表示为:
其中Fik和Fjk是第i个和第j个滤波器在位置k的激活,F T是F的转置矩阵。
很明显,对于一个确定的格拉姆矩阵G,可能有大量的特征图与之对应。让Fl表示第l层中图像的矢量特征图。如果Fl的格拉姆矩阵与G相匹配,则Fl被认为是第l层中的样式G。 正式地说,给定损失函数:
我们定义满足以下条件的特征图属于G的同一特定风格的特征空间
其中F是一组特征图。属于同一S的特征在风格特征上是感知上相等的。
特别是,有时我们不需要它们的格拉姆矩阵矩阵完全相等,那么我们就可以得到宽松的约束,
其中,特征图在风格特征上是近似等同的。
在这项工作中,我们的深度特征扰动可以很容易地实现第一个约束条件(公式(3)),而方法[18,30]只满足第二个约束条件(公式(4))。也就是说,通过我们的方法得到的不同扰动特征图的格拉姆矩阵可以完全相等。
我们的深度特征扰动(DFP)是基于Li等人[19]的工作,并纳入其增白和着色变换(WCT)过程,以帮助产生二元风格化的结果。我们的方法的流水线如图1所示,其中多样化的风格转移主要是由扰动增白和着色变换(PWCT)实现的,它包括两个步骤,即增白变换和扰动着色变换。
白化变换。给定一对内容图像Ic和风格图像Is,我们首先提取它们的矢量VGG特征图Fc = Φ(Ic) ∈ RC×HcWc和Fs = Φ(Is) ∈ RC×HsWs在某一层Φ(例如,Relu 3 1),其中Hc,Wc(Hs,Ws)是内容(风格)特征的高度和宽度,C是通道的数量。我们首先通过减去其平均矢量mc对Fc进行居中处理。然后用增白变换(公式(5))将Fc变换为ˆFc,其中的特征图是相互不相关的(即,ˆFc ˆFc T = I),
其中,Dc和Ec是由格拉姆矩阵FcF Tc∈RC×C的奇异值去构成(SVD)得到的(公式(1)),即FcF Tc = EcDcETc。Dc是特征值的对角线矩阵,Ec是特征向量的相应正交矩阵。
扰动着色变换。我们首先通过减去其平均矢量ms对Fs进行居中。在[19]中使用的着色变换形式本质上是白化步骤的逆过程,即使用公式(6)来变换ˆFc,这样我们就可以得到满足Fs的相同Gram矩阵的ˆFcs(即,ˆFcs ˆFcs T = FsF Ts)。
其中Ds和Es是由Gram矩阵FsF Ts∈RC×C的SVD得到的,即FsF Ts = EsDsETs。Ds是特征值的对角线矩阵,Es是相应的特征向量的正交矩阵。
着色变换的目的是使ˆFcs的Gram matrix与Fs的相同。根据我们在第3节的分析,这两个特征图共享相同的特定风格的特征空间。理论上,ˆFcs应该有大量的可能性,但公式(6)只产生了其中的一个。为了尽可能地遍历这些解决方案,我们建议使用深度特征扰动。
我们的深度特征扰动的关键思想是将一个正交的噪声矩阵纳入公式(6),以扰动特征ˆFcs,同时保留其格拉姆矩阵。显然,有三个地方可以插入噪声矩阵,即D 1 2s和ETs之间,ETs和ˆFc之间,以及的右侧。我们最终在D 1 2s和ETs之间插入正交噪声矩阵,因为这可能消耗最少的计算和运行时间(我们将在第5.2节讨论)。
我们首先根据D 1 2s和ETs的形状得到一个随机噪声矩阵N(例如,从标准正态分布中采样,我们将在第5.2节讨论)。假设D 1 2s的形状是(C - k)×(C - k),其中k是小奇异值的数量(例如,小于10-5,Li等人[19]建议去除这些小奇异值以获得更高质量的结果),而ETs的形状是(C - k)×C,那么N的形状是(C - k)×(C - k)。为了获得正交噪声矩阵,我们应用SVD分解N,即N=EnDnV Tn,并直接使用正交矩阵Z=En∈R(C-k)×(C-k)。最后,我们在公式(6)的D 1 2s和ETs之间插入Z。我们新的扰动着色变换被表述如下:
由于 ZZT = I,我们可以推论如下:
在我们后来的实验中,我们发现仅使用我们的扰动着色变换可能会降低风格化的质量。这可能是因为ˆFcs(公式(6))不仅包含来自EsD 1 2s ETs的风格信息(格拉姆矩阵),而且还包含来自ˆFc(公式(5))的一些内容信息。一些来自ˆFc(公式(5))的内容信息。虽然我们的特征扰动(公式(7))可以保持风格信息不变,但内容信息可能会受到噪声矩阵的影响,表现为质量的下降。幸运的是,在基于WCT的方法[19, 26, 20]中,ˆFc中的内容信息并不是最终结果中内容的决定因素,因为在这些方法中,ˆFcs主要作为风格特征,并与内容特征Fc混合,以平衡风格和内容(与我们的公式(9)类似)。为了在保持原始质量的同时增加多样性,我们引入了一个多样性超参数λ,以提供用户对它们之间权衡的控制。
然后,我们用风格的平均向量ms来重新集中ˆFcsn ′,即ˆFcsn ′ = ˆFcsn ′ + ms。最后,我们将ˆFcsn ′与内容特征Fc混合,然后再将其送入解码器。
其中超参数α作为用户控制风格化强度的权重,如[19]。
多级风格化。我们遵循[19]中使用的多级粗细风格化,但用我们的PWCT代替他们的WCT,如图1(b)所示。事实上,我们不需要在每一级都添加噪声。我们将在第5.2节讨论这个问题。
讨论。事实上,优化[18, 30]的发散性损失可以被看作是我们方法的次优近似值,这在第3节中已经分析过。但是,由于多样性损失只是在有限的数据集的小批次上进行优化,而且权重应该设置为一个小值(否则会严重降低质量),所以多样性的程度是有限的。相比之下,不同的正交噪声矩阵可以是无数的和多样的,所以我们的方法的结果可以有无穷的可能性,有明显的多样性。此外,我们的方法是自由学习的,可以对任意风格有效,而[18, 30]的多样性损失需要每次对每种风格进行优化。
我们将我们的深度特征扰动纳入三个现有的基于WCT的方法,这些方法用于不同的风格转换任务,即[19]用于艺术风格转换,[26]用于语义层面的风格转换和[20]用于照片写实风格转换。除了用我们的PWCTs替换WCTs外,我们没有修改其他任何东西,如预先训练的模型、预处理或后处理操作等。如果没有特别说明,在所有实验中,我们的多样化版本的风格化权重α与原始版本一致,随机噪声矩阵N从标准正态分布中取样。我们对多样性超参数λ进行微调,以使我们的质量与以前的工作相似,即[19]为0.6,[26]为0.5,[20]为1。我们将在下面的章节中讨论这些设置。我们的代码见:https://github. com/EndyWon/Deep-Feature-Perturbation。
单级扰动与多级扰动的对比。我们研究了单级扰动和多级扰动对两个基于WCT的方法[19, 20]的影响,因为它们都使用多级风格化(而方法[26]只使用单级风格化)。为了只扰动特定的层次,我们将所选层次的多样性超参数λ设置为默认值(即[19]为0.6,[20]为1),其他层次为0。如图2最上面一行所示,当我们从最深层次(I5)到最浅层次(I1)分别扰动时,质量相应下降。这种现象在图3的第一行也存在。我们分析原因可能是,较深的层次塑造了更多的低频粗特性,而较浅的层次塑造了更多的高频细特性,所以在较浅的层次中加入噪声会影响最终结果的像素表现。在最深的层次进行扰动可以达到与原始方法相当的风格化质量(见图2的I5和图3的I4)。另一方面,多级扰动将噪声引入多个层次,如图2和图3的底行所示。我们可以看到,引入过多的噪声是不必要的,会降低风格化的质量。我们还比较了Ta-ble 1的运行时间。注意,对于方法[20],我们只考虑风格化的时间。与原始方法相比(第2列),当我们对较浅的层次进行扰动时,增量的运行时间会减少。然而,最深层次的扰动只增加了非常少的时间(黑体字)。
多样性和质量之间的权衡。在公式(8)中,我们引入了一个多样性超参数λ,以提供用户对多样性和质量之间权衡的控制。不同的方法可能需要不同的λ值。在这一部分,我们展示了不同的λ值对方法[19, 26, 20]的影响,同时保持它们的默认风格化设置。对于方法[19]和[20],我们只对最深层次进行扰动,正如前几节所建议的。对于方法[26],我们对其瓶颈层进行了扰动,因为它只使用了单层样式化。结果显示在图4、5和6。我们可以看到,多样性的程度随着λ值的增加而上升,但是对于方法[19]和[26](图4和5),当应用大的λ值时,质量明显下降。然而,这个问题在方法[20]中没有出现(图6),这可能是因为这个方法[20]包含了一个平滑步骤,以消除明显的人工痕迹,它在一定程度上促进了多样性的出现,这也将在后面的5.3节中通过定量比较得到验证。对于权衡,我们最终分别采用[19]、[26]和[20]的默认λ值为0.6、0.5和1。
多样性和风格化强度之间的关系。多样性也与风格化的强度有关。以方法[19]为例,图7展示了这两个方面的重新关系。比较上面两行,我们可以看到,对于我们默认的多样性设置(λ=0.6),它在风格化强度α≤0.6的情况下效果很好,但对于那些具有较大α值的情况,它破坏了内容结构。我们在最下面一行设置一个较大的多样性强度(λ=1),我们可以观察到,对于那些风格化强度较低的情况(如α≤0.4),它仍然工作良好。也就是说,我们可以为较小的风格化强度设置一个较大的多样性强度。 事实上,正如我们在第4节中所分析的,我们的多样性可能会影响来自ˆFc的内容信息(公式(5)),所以当λ的值过高时,内容结构会被风格模式所淹没,这在最后两列中得到了验证。因此,应该考虑风格化强度(α)和多样性强度(λ)之间的权衡。然而,在实践中,用户只需要首先确定不同方法的最佳风格化强度α(通常是默认的),然后调整适当的λ值以保持质量。此外,在每一种方法中,我们的结果都验证了恒定的λ值可以在不同的内容和风格输入上稳定地工作。
插入正交噪声矩阵的位置。在第4节中,我们提到在公式(6)中插入正交噪声矩阵的三个位置,即D 1 2s和ETs之间,ETs和ˆFc之间,以及ˆFc的右侧。我们对他们每个人都进行了同样的实验,发现在定性比较中没有区别。但在定量比较中,如运行时间和计算要求,有一些差异。这主要是由于噪声矩阵的大小不同而导致的矩阵乘法计算的不同。正如我们在第4节所分析的,当我们在D 1 2s和ETs之间插入正交噪声矩阵Z时,Z的大小只有(C -k)×(C -k),其中C是通道数,k是D 1 2s中小奇异值的数量。对于其他两种情况,由于ETs和ˆFc的形状分别是(C -k)×C和C×HcWc(其中Hc,Wc是内容特征的高度和宽度),如果我们把它插入ETs和ˆFc之间,Z的大小应该是C×C,如果我们把它插在ˆFc的右边,则是HcWc×HcWc。一般来说,对于最深的层次,C - k < C < HcWc,所以我们最终将Z插入D 1 2s和ETs之间,因为这可能消耗最少的计算和运行时间。
正交噪声矩阵和生成的结果之间的关系。为了验证正交噪声矩阵Z在我们的DFP中的重要性和必要性,我们将其与原始随机噪声矩阵N进行比较,同时讨论其采样分布的影响。结果如图8所示,我们可以看到,使用原始的随机噪声矩阵会产生低质量的结果(见底行第2至4列)。[19]和[26]得到的结果就像纹理和噪声的组合,淹没了内容信息。与前两者相比,[20]即使有原始随机噪声扰动,也能尽可能地保持内容信息。这可能是因为它由两个步骤组成,第二步去除明显的伪影以保持内容图像的结构。但正如结果所示,质量仍然明显下降。与之前的实验类似,我们也调整了原始随机噪声扰动的α和λ的值,但不良的生成效果仍然无法得到缓解。为了探索正交噪声矩阵采样分布的影响,我们在方法[19]中使用单态分布而不是标准的正态分布(见上行最后一列),在方法[26]中改变正态分布的平均值和标准偏差(见下行最后一列)。我们可以看到,生成的图像与默认的图像没有明显的差异,这表明影响结果的关键因素是噪声Z的正交性,而不是其采样分布。
在本节中,我们将DFP纳入方法[19, 26, 20],并从定性和定量两方面将其与其他多样化的风格转换方法[18, 30]进行比较。对于方法[18]和[30],我们用默认配置运行作者发布的代码或预训练的模型。对于我们的方法,我们使用第5.1节中描述的默认设置。
定性比较。我们在图9中显示了定性比较的结果。我们观察到,[18]和[30]只产生了细微的多样性(例如,脸部的轻微变化),不包含任何有意义的变化。相比之下,对于使用我们的DFP的方法,结果显示出明显的多样性(例如,脸部、头发、背景,甚至眼睛)。与原始输出相比,采用我们的DFP获得的结果几乎没有质量上的下降。
定量比较。我们分别计算样本对在像素空间和深度特征空间的平均距离来衡量多样性。对于每个方法,我们使用6张内容图像和6张风格图像来获得36个不同的组合,对于每个组合,我们获得20个输出。每种方法产生的输出共有6840对(每对具有相同的内容和风格),我们计算它们之间的平均距离。
在像素空间中,我们直接计算RGB通道中的平均像素距离,可以表述如下:
其中~x1 和~x2 表示计算像素距离的两个图像。W和H是它们的宽度和高度(它们应该有相同的分辨率)。
在深度特征空间中,我们使用Zhang等人[34]提出的LPIPS(Learned Perceptual Image Patch Similarity)指标。它计算AlexNet[14]特征空间(conv1 5,在Imagenet[24]上预训练)的距离,用线性权重来更好地匹配人类的感知判断。
如表2所示,[18]和[30]在Pixel和LPIPS距离中都产生了低的多样性分数。如果没有我们的DFP,原始方法[19, 26, 20]就不能产生多样化的结果。通过加入DFP,这些方法显示出极大的多样性改进。请注意,由于方法[26](+我们的DFP)在转移样式时仍然受到一些语义限制,而方法[20](+我们的DFP)包含一个平滑步骤来消除细节影响,它们的多样性得分低于方法[19](+我们的DFP)的分数。
在这项工作中,我们将深度特征扰动(DFP)引入美白和着色变换(WCT),以实现多样化的任意风格转移。通过纳入我们的方法,许多现有的基于WCT的方法可以产生多样化的结果。实验结果表明,我们的方法可以在保持风格化质量的同时大大增加多样性。在这个阶段,我们只探索了基于WCT的方法,但这种免学习和通用的范式可能会在未来激发一系列更巧妙和有效的工作。此外,WCT也被广泛用于其他许多领域,如图像到图像的翻译[4],GANs[27]等。因此,我们相信我们的方法也可以为这些研究领域提供一个很好的灵感。