图像风格迁移总结

图像分割迁移总体上分类2大类:基于优化的方法和基于decoder的方法。下面按照发展阶段梳理:

文理合成的第一篇论文
《Texture Synthesis by Non-parametric Sampling》
非参数化的暴力求解法

-------------------------------------------------------------------------------------------

《Image style transfer using convolutional neural networks》
背景:第一篇使用CNN计算进行风格迁移的文章

总体技术思路:
             (1)基于optimization-based的迭代优化技术。
             (2)使用CNN的特征提取能力,底层特征图提取内容、文理等细节,高层特征图提取结构布局等风格。
             (3)限制合成图和风格图之间的风格损失,限制合成图和内容图之间的内容损失,保证合成图的风格趋于风格图,内容趋于内容图。

Gram矩阵:同个layer不同特征图之间的相似度可以衡量图片风格之间的差异,Gram矩阵等价于(没有去中心化的)协方差矩阵

总损失=风格损失(Gram矩阵损失)+内容损失+总变分损失。

-------------------------------------------------------------------------------------------

《Instance Normalization: The Missing Ingredient for Fast Stylization》
背景:
    (1)发现不使用IN归一化技术,风格迁移存在问题:训练数据越多,效果反而越差;训练次数越多,效果没有提升等问题。
    (2)用于风格迁移,发现batch normalization存在伪影等问题,训练不稳定。
目的:IN实例归一化,以单个样本(实例)作为归一化目标,不在多个样本(batch)之间执行0均值、1方差的跨样本归一化。

-------------------------------------------------------------------------------------------

《Combining Markov Random Fields and Convolutional Neural Networks for Image Synthesis》
背景:
    计算生成图和风格图的之间差异时,不能只考虑pixel像素级别,还需要考虑空间布局限制(patch级别)。

技术方案:基于optimization-based技术,需要不断反向传播。

MRF特性:马尔科夫随机场,当前像素点和相邻像素点存在关联,即使用最近邻算法寻找合成图和风格图之间的最相似patch。

Loss=MRF损失+内容损失+总变分损失。

MRF损失:(1)选用relu3_1和relu4_1作为目标特征图,合成图各个patch和风格图的所有patch逐一匹配寻找最相似的patch,然后计算合成图patch和风格图patch之间的MSE,对合成图上全部【patch的损失】累加求和。
         (2)patch大小3×3,stride=1的密集滑窗采样
         (3)怎么处理反向传播:预计算风格图的patch集合作为卷积核,参与合成图的卷积计算。
内容损失:选用rele4_2,合成图和内容图之间的特征图计算MSE。
中变分损失:x轴和y轴方向相邻像素计算差值求和(先abs再sum),保证图像平滑性。

提升合成图质量:multi-resolution多分辨率-特征金字塔结构,由低分辨率到高分辨率,低分辨率的合成图作为高分辨率的输入。

优点:舍弃Gram矩阵,使用MRF限制空间布局特征,使得提升内容质量。速度一般,可以任意风格合成。

-------------------------------------------------------------------------------------------

《Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization》
背景:基于优化的方法,可以对任意风格迁移,但速度太慢了。

技术方案:(1)基于encoder-AdaIN-decoder结构,decoder端直接生成目标合成图。
          (2)作者发现特征图的均值和方差也可以刻画风格
          (3)将风格图的均值μ和方差σ对齐到合成图的均值μ和方差σ上,通过计算前后μ和σ的差异来限制合成图的风格。

总损失 = 内容损失 + 风格损失          
        (1)内容损失:以relu_4_1特征图为目标,计算合成图和内容图之间的mse
        (2)风格损失:以rule1_1、rule2_1、rule3_1和relu4_2特征图为目标,计算内容图执行AdaIN操作后的μ和σ,与风格图的μ和σ之间的mse,累加全部layer的均值和方差的mse损失。

优点:速度快,任意风格合成。        
        
-------------------------------------------------------------------------------------------

《Arbitrary Style Transfer with Style-Attentional Networks》
背景:存在任意风格迁移,但合成图局部失真,不够精细问题。

技术方案:本质上还是属于decoder的方法,但融合了attention机制。
attention的做法:计算内容图各个空间像素点和风格图各个空间像素大的相似度(softmax)得到mask特征图(尺寸为b×h×w),将mask特征图和风格图特征图对应空间位置相乘得到结合attention的内容-风格特征图。

 

更多学习笔记可以关注我的微信公众号「kelly学挖掘」,欢迎交流。


-- 未完待续 --

 

你可能感兴趣的:(python技术基础,人工智能)