深度学习【23】图像风格化总结

1、基于优化的方法

基于优化的方法,是在Image Style Transfer Using Convolutional Neural Networks提出的。也是图像风格转换的开山之作。
该论文最大的创新点是,找出了能够表征风格和内容的特征。这些特征都是从已经训练好的VGG19抽取出来的。表征内容的特征是由VGG19中的多层卷积层的输出构成的;而表征风格的特征是由VGG19中多层卷积层的输出,并计算gram矩阵得来的。具体怎么算可以参考论文。
在得到内容和风格特征的计算方法后,该论文直接优化一张随机初始化的图像。目标是使该图像的内容特征与要被风格化的内容图像的内容特征一致;以及,使该图像的风格特征与目标风格图像的风格特征一致。
缺点是太慢了,因为要风格化一张图片就要运行一次L-BFGS优化算法。

2、任意内容图像单一风格

Perceptual Losses for Real-Time Style Transferand Super-Resolution
提出了学习一个网络来实现风格画。
该论文主要创新点是利用一个学习好的网络来风格化一种风格,但是可以对任意内容图像进行风格化;同时还改进了基于优化方法的损失函数,简单来说就是除以卷积层输出的大小(C×H×W)。

Precomputed Real-Time Texture Synthesis with Markovian Generative Adversarial Networks
该论文也是基于前馈网络的方法,但是是采用了马尔科夫模型的原理来训练一个GAN;即在训练D网络的时候,输入是一张图片(论文中是从VGG提取的特征)的一小块并判断这个小块是生成的还是真是的。该论文也采取了一些措施来加速风格化,分别是,1、使用带步长的卷积层代替polling层,2、预先计算风格图片的特征。

大致流程:内容图像经过VGG进行特征抽取,送入G网络并输出风格图像,风格图像分别经过VGG网络抽取出风格特征和内容特征。最后将合成图片的风格特征和风格图像的风格特征输入到D网络得到GAN的损失函数,并将合成的图片的内容特征和内容图像的内容特征输入MSE损失函数。这两个损失函数共同更新网络的参数(主要是G网络和D网络)。

Texture Networks: Feed-forward Synthesis of Textures and Stylized Images
多尺度前馈网络,比如要风格化一张128×128的图片。网络的输入为4张图片尺度分别为16×16, 32×32, 64×64, 128×128。这样网络就有4层(每一层包含上采样+通道合并+卷积),每一层的输入分别来自上一层的输出和不同尺度的图片经过卷积后的输出。可以看看论文的图片,更直观一点。

Multimodal Transfer: A Hierarchical Deep Convolutional Neural Network for Fast Artistic Style Transfer
多模型组合在一起,为了生成更高分辨率更清晰的图片。分别由风格化模块,enhance模块,refine模型以及损失函数模块构成。其中风格化模型由处理RGB和处理亮度模块构成。

Improved Texture Networks: Maximizing Quality and Diversity in Feed-forward Stylization and Texture Synthesis
该论文通过优化一个KL散度损失函数同时加入IN层,来提升风格化图像的质量和多样性。这边比较重要的点是IN层,为后面的同一网络同时风格化多种风格打下了基础。IN层跟BN一样都是归一化层。都要计算均值和方差,但IN层计算的是卷积层每一层输出的每个通道数据自身的均值和方差。具体可查阅原始论文。

3、任意内容图像多风格

A LEARNED REPRESENTATION FOR ARTISTIC STYLE
该论文在IN的基础上做了改进,加入了类似BN的 γ γ β β 缩放和平移因子,也就是风格特征的方差和均值,称为CIN(条件IN)。这样一来,网络只要在学习风格化的同时学习多种不同风格的 γ γ β β ,并保存起来。在要风格化某一风格的时候,只要将网络的所有 γ γ β β (网络中所有有用到CIN层的地方)替换成对应风格的 γ γ β β
该方法还能实现同一内容图像风格化成多种风格的融合,这只要将多种风格特征的 γ γ β β 进行相应的线性融合便可,具体参考论文的实验部分。
该论文只能同时风格化有限的风格种类(论文中为32种),因为其需要保存所有风格种类的 γ γ β β 参数。

Diversified Texture Synthesis with Feed-forward Networks
是通过加入不同的风格图片ID,并加入嵌入层,来达到实现多种风格的目的。有点类似语音合成中的基于说话人ID搞成词向量作为网络的输入信息之一。

4、任意内容图像任意风格

Fast Patch-based Style Transfer of Arbitrary Style
提出了style swap层来达到实现任意内容图像任意风格转换的目的。style swap简而言之就是,内容图像和风格图像经过一个卷积网络处理后,在最后的输出层中同时提取多个内容特征块和风格特征块,然后交互风格特征块和内容特征块。实现起来会比较麻烦,具体可参考论文。在交换之后再用一个网络合成风格化图像。

Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization
该论文在CIN的基础上做了一个改进,提出了AdaIN(自适应IN层)。顾名思义,就是自己根据风格图像调整缩放和平移参数,不在需要像CIN一样保存风格特征的均值和方差,而是在将风格图像经过卷积网络后计算出均值和方差。该方法会比上一种方法简单得多,也比较好实现。

你可能感兴趣的:(深度学习)