Two-Stage Peer-Regularized Feature Recombination for Arbitrary Image Style Transfer(CVPR 2020)——论文阅读

论文下载

摘要

本文介绍一种神经风格迁移模型,所提出方案即使在零样本设置下也可以产生高质量的图像,且在更改内容几何形状时具有更大的自由度。通过引入Two Stage Peer-Regularization Layer,图卷积层将潜空间中的风格和内容重新组合在一起。与绝大多数现有方法不同,模型不依赖于任何预训练网络来计算感知损失,且直接在潜在空间进行循环损失优化。

引言

神经样式转移(NST)研究如何构建模型,这些模型可以转换输入图像(或视频)的视觉外观以匹配所需目标图像的样式。 例如,用户可能希望将给定的照片转换为仿佛梵高画了场景一样。
NST在深度学习社区中取得了巨大的发展,并跨越了多种应用,例如一天内不同时间的图像转换,艺术品和照片之间映射,面部表情迁移,转换动物种类等。
尽管它们的受欢迎程度和质量通常很高,但是当前的NST方法并非没有局限性。 首先,Gatys等的方法在每次迁移的过程都需要一个新的优化过程,这对于许多实际场景来说是不切实际的。 另外,他们的方法在很大程度上依赖于预训练的网络,通常是从分类任务中借用的,这些网络已知是次优的,并且最近被证明偏向于纹理而不是结构。 为了克服这个第限制,基于深度神经网络的方法被提出,在单个前馈步骤中近似冗长的优化过程,从而使模型适合于实时处理。
其次,当使用神经网络克服Gatys等方法的计算负担时,由于常规模型在将多种样式编码到网络的权重中的能力有限,因此需要针对每个所需样式图像训练模型。 这极大地缩小了该方法在无法先定义样式概念且需要从示例中推断出的用例中的适用性。 关于第二个限制,最近的工作试图将特征空间(潜在空间)中的样式和内容分开,以允许概括为以附加输入图像或图像集为特征的样式。当前的技术水平允许控制所应用的样式化量,在不同样式之间进行内插以及使用遮罩将图像的不同区域转换为不同样式。
除了研究用于改善NST的新网络体系结构之外,研究还产生了更合适的损失函数来训练模型。 预训练的VGG19分类器的感知损失在此任务中非常常用,因为它可以捕获图像的高级特征。 但是,这种假设受到质疑。 Cycle-GAN提出了一种新的周期一致性损失,它不需要输入图像和目标图像之间一一对应,从而减轻了数据标注的沉重负担。
图像样式传递的问题具有挑战性,因为图像的样式既由局部属性(例如,对象的典型形状等)表示,又由全局属性(例如,纹理等)表示。 在过去提出的许多建模图像内容和样式的方法中,在低维潜在空间中对信息进行编码已显示出非常有希望的结果。 因此,论文作者主张通过局部聚集像素级特征并通过使用度量学习来分离不同样式来在潜在空间中对该层次结构建模。
在结构良好的潜在空间中,样式和内容被完全分离,可以通过在输入和条件样式图像之间的潜在空间中交换样式信息来轻松执行传输,而无需在解码器权重中存储转换。这样的方法在特征归一化方面是独立的,并且进一步避免了对有问题的预训练模型的需求。
但是,图像的内容和样式不是完全可分离的。图像内容的几何形状会有所变化,具体取决于所使用的样式。最近,Kotovenko等人提出了一种在对抗环境下的内容转换器模块,其中模型分两个阶段进行训练。首先,对样式转换网络进行优化。然后将其固定,并优化内容转换器模块,学习考虑与给定样式相关的几何形状变化。
本文介绍了NST设置,其中样式由一组输入图像在外部定义,以允许从任意域进行转移,并通过从输入样式图像中引入能够重新组合全局和局部样式内容的新颖的特征正则化层来解决具有挑战性的零样本样式转移方案。它是通过借鉴几何深度学习(GDL)的思想并在潜在空间中的特征图上对等点的像素级图建模而实现的。
论文的主要贡献包括:1)使用自定义图形卷积层的NST最新方法,该层将潜在空间中的样式和内容重新组合在一起;2)现有损失的新颖组合,可以进行端到端训练,而无需任何预先训练的模型(例如VGG)来计算感知损失;3)构建用于内容和样式信息的全局和本地组合的潜在空间,并通过度量学习在其上强加结构。

方法概述

论文的核心思想是一种基于区域的机制,类似于StyleSwap,在输入和目标样式图像之间交换样式,同时保留语义内容。为了成功实现这一点,必须将样式和内容信息很好地分开解耦。 作者提倡使用度量学习来直接强制不同样式之间的分离。此外,为了解决绑定到某种样式的内容的几何变化,作者将样式转换建模为两个阶段的过程,首先执行样式转换,然后在第二步中相应地修改内容几何。
Two-Stage Peer-Regularized Feature Recombination for Arbitrary Image Style Transfer(CVPR 2020)——论文阅读_第1张图片
论文的系统架构如上图所示。为防止主解码器对其权重进行编码,在训练过程中使用了辅助解码器来分别优化编码器和解码器的参数。黄色模块被训练为自动编码器(AE)以重建输入。而绿色模块训练为GAN以使用来自带有固定参数的黄色模块的编码器来生成输入的样式化版本。两个模块的优化与鉴别器交错在一起。此外,根据Martineau等人的分析,相对论平均GAN(Ra-GAN)被用作对抗损失公式,与传统上使用的GAN损失相比,它表现出更稳定的效果和更自然的图像表现。
Two-Stage Peer-Regularized Feature Recombination for Arbitrary Image Style Transfer(CVPR 2020)——论文阅读_第2张图片
上面这张图解释了peer regularization的过程,原文中只显示了图片,并没有引用。但也助于理解算法思想。
具体的一些实现细节如公式实验可以阅读原文。

你可能感兴趣的:(论文阅读)