Inverting convolutional networks with convolutional networks文献解读

文献传送门
本文的主要思想:通过训练一个网络,来对CNN所提取的特征进行实时重建,从而可以知道输入图像中的哪些信息被保留在所提取的特征中(CNN提取了输入图像的哪些特征).
摘要:特征表达,尤其是卷积神经网络所提取的深度特征表达,已经在许多任务中取得了非常大的进步。然而,这些提取到的特征往往很难对其进行分析和理解。本文提出一种研究图像深度表达的新方法,即训练一个上卷积神经网络(Up-Convolutional Neural Network),对所提取的图像特征进行反演重建。以ImageNet为训练数据训练一个深度网络,然后将该方法应用在这个深度网络的每一层特征上,对其进行反演重建,可以对特征表达的性质做深入了解。更令人惊叹的是,对更高层的特征进行反演,可以得到输入图像的颜色和大概轮廓信息,甚至对预测类别概率进行反演也能得到这一结论。

相关工作

本文中所采用的DeconvNet与Zeiler和Fergus所提出的反卷积不同(参考文献).后者是通过将高层的激活值反向传播以观察是输入图像中的哪一部分负责激活的。除了高层激活外,这一重建过程还需要用到中间最大池化层的最大值位置的额外信息。这一信息在该方法中至关重要。因此该方法不能算真正意义上的重建高层特征。另一个与DeconvNet相似的可视化方法是Springenberg等人提出的(参考文献),也是用到了中间层的激活值信息。

Mahendran和Vedaldi(参考文献)使用梯度降的方法来反演图像特征表达Φ。给定特征向量$\Phi_0$.
目标是要寻找一幅图像x使得损失函数最小。损失函数就是Φ与Φ(x)之间的欧氏距离,再加上表示自然图像先验的正则化项。本文的方法与该方法不同在有本质的不同:后者优化的是特征向量之间的差异,而不是图像重建误差之间的差异。它要解决的问题是“生成一幅其特征表达与给定特征向量尽可能相接近的像图”,而不是“生成一幅图像,使得它与产生给定特征向量的图像尽可能的相似”。一般来讲,Mahendran和Vedaldi所寻找的是 使得 ,而本文所要找的是 使得 。

通过反演方法可视化传统计算机视觉特征表达的研究有很多,如HOG[] ,DSIFT,Local Binary Descriptors ,Bag-of-Visual-Words等。然而这些方法要么是针对特定的特征表达,要么只限于浅层特征表达。而本文提出的方法还能应用到深层特征表达上。

网络模型

提取图像特征所用的网络为AlexNet.输入图像尺寸为227*227.
对AlexNet网路第5层卷积层的特征进行重建的网路结构如下表所示:

layer CONV1 CONV1 CONV3 UCONV4 UCONV5 UCONV6 UCONV7 UCONV8
processing steps conv1 lrelu1 conv2 lrelu2 conv3 lrelu3 uconv4 lrelu4 uconv5 lrrelu5 uconv6 lrelu6 uconv7 lrelu7 uconv8
out sise 6 6 6 12 24 48 96 192
out channels 256 256 256 256 128 64 32 3

你可能感兴趣的:(Inverting convolutional networks with convolutional networks文献解读)