Perceptual Losses for Real-Time Style Transfer and Super-Resolution阅读(一)

一、文章出处

Perceptual Losses for Real-Time Style Transfer and Super-Resolution,arxiv地址:https://arxiv.org/abs/1603.08155。

 

二、文章内容

因为在实训中只需要做风格转换的部分,并且这篇文章的最大贡献之一也是实现了实时的风格转换。

上一篇阅读的文章,虽然效果好,但对于每一张要生成的图片,都需要初始化,然后保持CNN的参数不变,反向传播更新图像,得到最后的结果。性能问题堪忧。所以在此项工作中作者建立了一个生成网络来保留图片生成的信息,这样每次生成图片就只要进行一次前向传播即可,而不用在进行三四十分钟的训练了。

下面这个网络图是论文的精华所在。图中将网络分为Transform网络和Loss网络两种,在使用中,Transform网络用来对图像进行转换,它的参数是变化的,而Loss网络,则保持参数不变,Transform的结果图,风格图和内容图都通过Loss Net得到每一层的feature激活值,并以之进行Loss计算。

Perceptual Losses for Real-Time Style Transfer and Super-Resolution阅读(一)_第1张图片

这里的架构值得我们好好学习,为什么作者要这么设计,在作者的文章中说的很好,虽然不是公式描述,但是在直观上也给我们带来了不少收获。

网络细节的设计大体遵循DCGAN中的设计思路:

  • 不使用pooling层,而是使用strided和fractionally strided卷积来做downsampling和upsampling,
  • 使用了五个residual blocks
  • 除了输出层之外的所有的非residual blocks后面都跟着spatial batch normalization和ReLU的非线性激活函数。
  • 输出层使用一个scaled tanh来保证输出值在[0, 255]内。
  • 第一个和最后一个卷积层使用9×9的核,其他卷积层使用3×3的核。

这样设计的主要原因有以下几点

首先的有点是减少了计算量,原文中的描述是:

Perceptual Losses for Real-Time Style Transfer and Super-Resolution阅读(一)_第2张图片

在计算量一定的情况下,可以使用一个更大的网络。

其次,是使得有效的感受野增大,原文描述如下:

Perceptual Losses for Real-Time Style Transfer and Super-Resolution阅读(一)_第3张图片

高质量的风格转换需要改变图片的一块地方,那么就要求输出中的每个像素都有输入中的大面积的感受野。

最后,是残差网络的运用。何凯明的残差网络简直神奇。

残差连接可以帮助网络学习到identify function,而生成模型也要求结果图像和生成图像共享某些结构,因而,残差连接对生成模型正好对应得上。

如下,是文章具体的网络架构:

Perceptual Losses for Real-Time Style Transfer and Super-Resolution阅读(一)_第4张图片

你可能感兴趣的:(创新实训)