读后感:Controlling Perceptual Factors in Neural Style Transfer

本论文是对2016年的《Image Style Transfer Using Convolutional Neural Networks》进行的一次改进,引入了对空间定位、颜色信息和交叉空间规模的控制。

引入这些控制是基于以下三个假设的:

First, one might separately describe different styles in different regions, such as in the sky as compared to the ground.(不同的区域有不同的风格表示)

Second, one might describe the colour palette, and how it relates to the underlying scene, separately from factors like image composition or brush stroke texture.(颜色是与scene是有关的(也就是和内容是有关的),与图片的组成或者笔刷风格是独立的。)

Third, one might describe fine-scale spatial structures, such as brush stroke shape and texture, separately from coarse-scale structures like the arrangements of strokes and the swirly structure in the sky of the painting.(精细的结构(例如画笔的形状和纹路)与粗糙的结构(画笔的分布或者旋涡结构)是独立的。)

Spatial Control

首先定义R个guidance channels,第r个content guidance channel等于1的区域应该从第r个style guidance channel等于1的区域获得风格。


guidance channels









该公式可以理解为我只获取风格图片中相关位置的feature maps相关性,并且只更新内容图片对应位置的feature maps(当然这是在白噪声图片上做的更新的)。

随之还提出了一种Guided Sums的方式高效率地解决空间控制的问题。但是这种方法效率是高了,但是效果却不太好。

主要的做法是:



这样我就只需要算一次Gram Matrix就行了。(第一种控制方法,对于每一个guidance channels都要算一个Gram Matrix)




Colour Control

1.Luminance-only transfer

简单概括就是把NST应用在两个明度通道的图片上进行风格迁移,生成出风格化的明度图片后,在把内容图片的颜色和该明度图片结合在一起。如果风格图片和内容图片的明度直方图相差很大的话,可以通过


每个像素都做这样的操作

将风格图片的明度直方图match到内容的明度直方图中(均值和方差都一样)。

2.Colour histogram matching

简单概括就是,给定风格图片xs和内容图片xc,先把风格图片xs的颜色转换成内容图片的颜色生成xs'。再把xs'替换掉xs,和xc一起输入到NST中,算法不变。(这里的颜色转换算法有很多种,本文用的是线性方法)

A是3*3的矩阵,ps是3*1的向量为原像素点,b是3*1的向量


3.总结

这两种方法各有各的优劣地方,colour-matching自然受到从内容图片到风格图片进行颜色迁移到底有多好的限制。颜色分布通常不能完美匹配,导致输出图像的颜色与内容图像的颜色不匹配。相反,luminance-only却能够很好地保存内容图片的颜色。然而,却抛离了明暗度和颜色的相关。虽然这通常是很难以发现的,但是对于笔触突出的风格来说,这可能是一个问题,因为单笔笔画可能以不自然的方式改变颜色。




Scale Control

1.Scale control for style mixing

论文的目标是为不同的尺度选择不同的风格。 例如,我们想要将一幅绘画的细小笔触与另一幅图像的粗尺度的角形几何形状结合起来。

本论文通过将细调样式图像应用到粗调样式图像来实现这一点。具体做法就是用coarse-style的图片初始化优化算法,并且删除content loss。Gram Matrices也只要“conv1 1” 和 “conv2 1”两层,把fine-scale的图片风格迁移到coarse-style的图片中,这样coarse-style图片中的fine-scale-texture则会完全被代替。这是基于这样的观察,即当初始化图片规模比风格特征更大时,优化使图像结构保持完整。(个人感觉)




2.Scale control for efficient high resolution

存在的NST方法并不能对高分辨率的图片有很好的支持,原因是因为风格化是发生在接受域上的,因此如果结点得接受域太小的话(比图片小很多),则不能感受到大的图片结构,永远只能得到小的图片结构。因此可能并不能对内容图片有太大的变化。

本论文具体做法是先把高清的xc和xs下采样到甜蜜点附件,然后合成出一张图片。再把这张图片上采样到高清大小,然后再用这张图片初始化NST,再用高清图xc和xs对这张图片进行修改。这样较大的变化是通过低清图的风格迁移去做的,而较小的变化和修正是通过高清图的风格迁移去做的。这样做有个优势是比直接进行高分辨率的传播更新需要更少的迭代次数。并且理论可以通过多次迭代去产生一个超高分辨率风格迁移的图片,仅会受输入图片的size和内存所影响。

本文还介绍了如何对Fast Neural Style Transfer算法进行控制(由于FNST我还没看,因此这部分并没有看)。

结论

本文作者假设了图片的风格是包括空间、颜色和规模这些方面的,而且提出了方法去在NST中控制这些元素,使得现有方法更加有质量和灵活性。同时作者提出了一个新的开放式问题,就是如何去预测结合哪些风格将会产生一个新的、可感知好看的风格。

你可能感兴趣的:(读后感:Controlling Perceptual Factors in Neural Style Transfer)