chapter-12-可视化与理解

特征可视化


目前来说CNN对我们来说都是一个黑箱子,这一节我们深入CNN内部来观察其构成。

第一层卷积层由16个3×7×7的卷积核构成。由于图像是RGB三通道的,所以我们的卷积核也是三通道,于是我们可以将每一个卷积核视作一幅图片,进而了解其想要得到的东西:有向边。
chapter-12-可视化与理解_第1张图片
第二层卷积层由20个16×7×7的卷积核构成。虽然这里我们无法用RGB图像来表示,但我们可以尝试用一个有16个灰度级的图像来表示。但这并没有什么意义,因为第二层的输入数据并非人类能够理解的图片,而是一些从原始图片中提取出的特征。所以,我们需要更好的方法来了解第二层的意义。

在最后一层,我们有一个1000类的得分表,来告知我们图片的分类得分。而在前一层,我们用一个4096的向量(根据神经网络类型不同)来表示图片并输入到最后一层。

在最后一层发生了什么呢?
在这里插入图片描述
前面我们提到了像素空间的最近邻法,如上图左边所示,检测待训练图片的对应位置像素与已知种类的像素的差,并计算损失,损失低于阈值的就归于一类。CNN的最后一层也做的是类似的事,不过不同的是,这里计算的是经过计算的特征与预设特征间的差,或者说是输入图片与各个种类在【;gfv’fgvsrfgty-ooO3d特征空间的差。

但我们仍可以较直观地观察它,我们使用t-SNE方法对图像经过计算后得到的4096维向量降维为二维,可以得到下图。可以看出,在相同位置的图像有着明显的相似度。
chapter-12-可视化与理解_第2张图片
我们也可以可视化中间层:
chapter-12-可视化与理解_第3张图片
另外一种可视化的思路是遮挡:
chapter-12-可视化与理解_第4张图片
使用不同大小和位置的滑块遮挡图像,观察分类概率的变化,来判断对判定特定事物,什么特征是重要的。图像里越深的颜色对应概率下降越多的部位。

另一个思路是显著图:和遮挡的思路类似,计算每个像素变化后分类的变化,选取使变化最大的像素,提取这些像素。
chapter-12-可视化与理解_第5张图片
另一个思路是引导式反向传播:对于一个特定的图像,改变像素的值,观察某些神经元的变化,和显著图的思路是相似的,区别在于不再观察分类值,而是神经元的值:
chapter-12-可视化与理解_第6张图片
首先输入一幅白图片或经过处理的噪音图片,然后正向传播计算分类值,再反向传播得到每个像素的特定神经元的梯度,最后向着增加梯度的方向对像素值进行改变。
chapter-12-可视化与理解_第7张图片
再这样做时,往往会增加一个正则化项以防止图像过度拟合神经元的特征,从而变得太过奇怪。

通过这种方法我们还可以愚弄图像,我们给定一幅图片,并告诉算法这是另一类物体,让算法修改这副图片以使它符合我们给定类别的特征。结果表明,这是可以做到的,而且处理过的图片与原图片的差异非常小:
chapter-12-可视化与理解_第8张图片

DeepDream

chapter-12-可视化与理解_第9张图片

特征反演

首先使用CNN运行一个网络,记录其中一个特征值,然后根据该特征重构图像,从而了解该特征抓取的图像类型。
chapter-12-可视化与理解_第10张图片
可以看出,随着层数的加深,纹理特征仍努力保留,但颜色却发生了很大的变化。

纹理合成

chapter-12-可视化与理解_第11张图片
将一张图片传入一个已经训练好的CNN,选定其中一层激活,其大小是CHW,可以看做是H x W 个C维向量。从这个激活图中任意选取两个C维向量,做矩阵乘法可以得到一个矩阵。然后对激活图中任意两个C维向量的组合,都可以求出这样一个矩阵。把这些矩阵求和并平均,就是Gram Matrix。

Gram Matrix其实是feature之间的偏心协方差矩阵(即没有减去均值的协方差矩阵)。其计算了每个通道特征之间的相关性,考察哪些特征是此消彼长的,哪些特征是同时出现的。我们认为Gram Matrix度量了图片中的纹理特性,并且不包含图像的结构信息。事实上,使用协方差矩阵代替Gram Matrix也能取得很好的效果,但是Gram Matrix有更高效的计算方法:将激活图张量CHW展开成C*HW的形式,然后将其乘以其转置,即得到gram矩阵。(https://www.cnblogs.com/coldyan/p/8403506.html)

然后我们类似特征反演的思想,生成与原始图像具有相同gram矩阵的图像。
chapter-12-可视化与理解_第12张图片
这里的损失是各层损失的加权和。

风格迁移

这一思想给我们新的启发:如果选择两幅风格不同的图片,并将其中一幅作为内容图像,另一幅作为风格图片;我们最小化前者的特征重构损失,及后者的gram矩阵损失,在进行一些轮的迭代后,我们就能得到一幅同时拥有前者的空间结构和后者纹理结构的图片。
chapter-12-可视化与理解_第13张图片
chapter-12-可视化与理解_第14张图片

你可能感兴趣的:(chapter-12-可视化与理解)