Visualizing and Understanding Convolutional Networks翻译总结

Zfnet

论文:《Visualizing and Understanding Convolutional Networks》

1.     概述

这篇论文主要的贡献是将卷及神经网络的隐藏层的特征进行可视化,后面通过可视化的展示来分析如何构建更好的网络结构。最后还描述了该网络中的每层对整体分类性能的贡献,还对了该模型在其他数据集上取得的成绩:仅仅是对softmax分类器重新训练,该模型击败了Caltech-101和Caltech-256测试集的历史最好的成绩。

论文主要是参考了Alexnet网络模型,通过改变该模型的一些参数(核大小、步长等),选出了分类效果最好的结构作为最终的模型,然后仅仅重新训练模型末端的softmax分类器,评估该模型在其他数据集上的分类效果。其最有用的还是将特征数据进行可视化了。

2.     可视化过程

之前的Alexnet网络中每一个卷积层的操作有如下四个步骤:

1.      卷积运算

2.      矫正运算(ReLU函数)

3.      池化运算

4.      归一化运算

     论文将中间层特征反向映射到像素空间中,观察得到什么输入会导致特定的输出,可视化过程是基于反卷积网络实现的,如图1所示就是其网络结构。反卷积网络可以看成卷积网络的逆过程,其卷积核是卷积网的卷积核的转置它们拥有相同的卷积核和pooling函数(准确来说是逆函数),因此反卷积网就是将输出特征逆映射成输入信号。

首先,输入图像通过卷积网模型,每一层都会产生特定的特征。然后将反卷积网中观测层的其他链接权值全部置零,将卷积网观测层产生的特征当作输入,输入到对应的反卷积层,依次进行以下操作:

1) Unpooling;

2) 矫正;

3) 反卷积;

UNpooling

在卷积网中,池化操作是不可逆的,论文中用了一种近似的方法来计算max pooling的逆过程。在池化的过程中,用maxlocations“switch”表格记录下每一个块的最大值的位置,在unpooling过程中这里将最大值标注回记录所在位置,其余位置设置为0。

矫正

在卷积网络中,为保证特征有效性,论文通过relu非线性函数来保证所有输出都为非负数,这个约束对反卷积过程依然成立,因此将重构信号送入reluc函数中。

反卷积

卷积网使用学习得到的卷积核与上层输出做卷积,得到特征。为了实现逆过程,反卷积网使用相同的卷积核的转置作为核,与矫正后的特征进行卷积运算。

Visualizing and Understanding Convolutional Networks翻译总结_第1张图片

图1 特征数据可视化结构

3.     卷积网可视化

特征可视化

如图2所示是训练结束后,模型各个隐藏层提取的特征,图所示的是给定输出特征时,反卷积产生的最强的9个输入特征。将这些计算所得的特征,用像素空间表示后,可以清晰地看出:一组特定的输入特征(通过重构获得),将刺激卷积网产生一个固定的输出特征。图2的右边是对应的输入图片,和重构特征相比,输入图片和其之间的差异性很大,而重构特征只包含那些具有判别能力的纹理结构。例如,第5层第1行第2列的9张输入图片各不相同差异很大,而对应的重构输入特征则都显示了背景中的草地,没有显示五花八门的前景。

每一层的可视化结果都展示了网络的层次化特点。第2层展示了物体的边缘和轮廓,以及与颜色的组合,第3层拥有了更复杂的不变性,主要展示了相似的纹理,第4层不同组重构特征存在着重大差异性,开始体现了类与类之间的差异,第5层每组图片都展示了存在重大差异的一类物体。

Visualizing and Understanding Convolutional Networks翻译总结_第2张图片

图2 特征可视化

特征不变性

图3所示,5个不同的例子,它们分别被平移、旋转和缩放。图5右边显示了不同层特征向量所具有的不变性能力。在第一层,很小的微变都会导致输出特征变化明显,但是越往高层走,平移和尺度变化对最终结果的影响越小。卷积网无法对旋转操作产生不变性,除非物体具有很强的对称性。

Visualizing and Understanding Convolutional Networks翻译总结_第3张图片

图3

4.     网络结构

论文主要是参考Alexnet网络进行了一些参数的调整,其中用到的方法几乎是一样的,所以这里就不再详细描述。

你可能感兴趣的:(深度学习)