OBJECT DETECTORS EMERGE IN DEEP SCENE CNNS论文分析

OBJECT DETECTORS EMERGE IN DEEP SCENE CNNS 论文分析

第一部分:

1.论文发现在对场景进行分类时,相比于直接对目标分类(例如Imagenet数据集),会出现更多表示方式是object的形式。
2.在一次前向传播中,网络可以同时完成目标定位和场景分类。
3.除了目标可以作为一种表示形式,表示形式还可以是纹理、part

每层图像激活的数值如何计算?图像在该层特征图的所有像素值相加,加和即为激活的数值。

神经网络效果显著的本质来源于其学习到的表达方式

第三部分:了解网络自然而然学习到的表示

1.简化图像,从输入图像的角度出发,通过在输入图像上做改变,通过准确率判断改变区域是否对分类有效,但是我们并不清楚卷积层中具体的单元学习了什么。

评价是基于图像的

采用的方法:使用一个正确的分类的图像,对图像进行简化,使其在更少的保留视觉特征的同时,还能保持较高的分类分数。并且还能高亮出导致高分类分数的元素.
具体方法1:首先创建一个边缘和区域的分割,在每次迭代中产生正确分类分数下降最小的区域,直到图像不能完成正确分割。希望能够获得使网络正确分类的最小信息量。
具体方法2:受到第一个方法的启发,使用SUN数据库的全标注图像生成使网络正确分类的最小信息量
这些结果表明,目标表示是由网络构建的表示的重要组成部分,用于获取场景分类的判别信息。
OBJECT DETECTORS EMERGE IN DEEP SCENE CNNS论文分析_第1张图片

3.更好的探究卷积层中具体的单元学习了什么,可视化cnn不同单元unit的接受域(低分辨率的有效区域放大到图像分辨率)的尺寸和形状

评价是基于unit

提出了一种数据驱动的方式去估计每一层的每一个单元的接受域(在CNN中,第n层特征图中一个像素,对应第1层(输入图像)的像素数,即为该层的Receptive Field,简称RF),比反卷积(Zeiler, M. and Fergus, R. Visualizing and understanding convolutional networks. In ECCV, 2014. )的方法简单。
具体做法,对于给定的unit(在不同的层),都对应着一个激活区域(输入图像在该层的特征图),对激活区域进行打分,挑选出分值最高的前K张图。对于这k张图,我们想要知道到底是图像上的哪些区域,导致了不同层中unit激活区域分值高,因此我们在图像上随机掩盖某些小区域(11 * 11),送入网络中和原始图像对比激活分值的变化,如果激活分值差异明显的,就说明掩盖的区域很重要,根据这一差异为每个图像构建差异图(近似看成另一种的特征图)。我们根据前k个图片掩盖前的激活区域(某个layer特征图的部分区域)和前k个图片掩盖后的激活区域(某个layer特征图的部分区域)进行计算,生成该unit对应的最后的RF。
总结一下:
1.给定某层的unit
2.挑选一些在这个unit处激活程度很高的图像
3.对图像进行小区域的掩盖,查看掩盖是否影响了这些unit处的激活数值,同时在这些unit处产生了新的激活分布
4.结合之前的激活分布和新的激活分布来重新计算unit处的激活区域,并将低分辨率的激活区域放大到图像分辨率获得unit对应的RF
OBJECT DETECTORS EMERGE IN DEEP SCENE CNNS论文分析_第2张图片
将不同层的某些unit通过上述方法计算出的RF进行可视化可以看到,层越深,感受野越大,更加趋向于一个目标。
OBJECT DETECTORS EMERGE IN DEEP SCENE CNNS论文分析_第3张图片

你可能感兴趣的:(OBJECT DETECTORS EMERGE IN DEEP SCENE CNNS论文分析)