A Neural Algorithm of Artistic Style 阅读(二)

接上文A Neural Algorithm of Artistic Style 阅读(一)的损失函数详解。

对于content loss来说,因为VGG结构能够提取图片的高层图片,在generated image 和 content image之间通过已经训练好的VGG网络取CONV4_2层的feature map输出,利用最小平方差来计算二者的距离,

虽然公式里面有一个1/2,是为了之后求导x^2之后形式上的方便。有没有都没有所谓。

而对于style loss来说,Gram矩阵的使用很有研究的必要。重建style,是根据不同filter得到的激活值之间的相关性来重建的,因为style在图像中的表现就是纹理特征,即是像素之间的相关性。所以再把i,j层的feature map转换成向量形式后做内积就可以得到Gram矩阵。

其实Gram矩阵就是协方差矩阵换了个名字,Gatys的几篇论文其实没有解释为什么用Gram矩阵,因为给不了证明。

如果用协方差(也就是Gram矩阵)来进行约束隐藏层特征的话,重建出来的特征虽然有些会保持,但是有些可能位置会打散。比如最右侧的一张图,人还是人,但是重建出来相当于“拼图”效果了。这是因为协方差本身就是去除了位置信息。 那么既然协方差可以用于纹理生成,那么如果我们加上 “让生成图的隐藏层特征与原图尽量一样,另一方面让生成图的打散特征与画的打散特征尽量相似”,这就是用神经网络做风格转换的最初想法。这也比较符合“风格”的定义,毕竟风格不应该具有位置信息,一种风格应该是与位置无关的。

我个人觉得Gram这个矩阵的研究意义还是很大的。

四、文章核心

1、使用现成的识别网络,提取图像的不同层级的特征。如文章中自己提到的那样,这项工作的最关键的一点就是能够把content image,style image在高层次上分开来。说明识别这项任务看似到最后使用一个全连接层做的是分类任务,但是其实在卷积的过程中包括了很多丰富的信息。

2、高层次相应可以描述文章的内容

3、使用梯度下降方法调整输入响应,在特定层次获得特定的相应。

你可能感兴趣的:(创新实训)