本文是2010年斯坦福大学andrew ng他们团队的作品;让人莫名其妙的是,本文有两个版本,两个版本略有差别版本1:http://www.icml2011.org/papers/551_icmlpaper.pdf ;2:http://web.stanford.edu/~asaxe/papers/Saxe%20et%20al.%20%202010%20%20On%20Random%20Weights%20and%20Unsupervised%20Feature%20Learning.pdf
一:本文想法来源
最近随机无预训练的权值特征学习结构在目标识别中获得了很好的结果,例如在caltech101中,随机权值获得了53%,unsupervised pretraining +finetuning准确率为54.2%;得出随机权值的结果只是稍逊于pretraining+finetuning的结果。
基于此提出两个问题:
1:为什么随机权值有时会有这么好的结果
2:pretraining +finetuning的贡献是什么?
本文结构和结论:
1.介绍本文的C-P(Convolution and Pooling)
2.给出定理实验证明,C-P结构本质上有对特征有:“选择性和形变的不变性“,即使是随机权值
3.通过实验证明pretraining +finetuning和随机权值在结果上的关系:分类结果大部分由网络结构决定,pretraining +finetuning和随机权值(多个随机权值网络的平均分类结果)的结果具有很大相关性,pretraining +finetuning可以适当地提高随机权值分类结果。所以找到好的网络结果很重要。
4.通过3的结论得出,可以通过随机权值的方式来验证网络结构的好坏,这样可以节省时间,然后选择最好的网络,在通过pretraining +finetuning来进一步提高分类结果。
二.C-P结构
卷积方式:通过k*k的filters来卷积原始输入图像,得到卷积后的特征图;
Pooling方式:本文没有采用均值pooling和max pooling,本文采用的是先求平方,在求和的方式。
卷积的方式来选择特定的输入特征,Pooling方式对输入的小程度形变具有鲁棒性;C-P结构融合了卷积和Pooling,所以兼具特征选择性和形变的不变性。
三.理想输入的特点
Jarrett通过梯度计算,发现理想的输入常常是“正弦”的和抗形变的;为了找到随机权值偏爱的理想输入,通过分析c-p结构来寻找。
结构偏爱的输入特征,因该是能够最大化激活P层单元的特征,由于P层的不变形,所以理想的输入应该是一类具有微小形变的相似特征。
直觉上,c-p结构的抗性变性由于p层是容易获取的;对于特征的选择性,我们期望,特征的选择性应该和结构中filter是相似的,。即,filter是高度选择性的,那么理想输入应该是接近正弦的,;如果filter是离散,随机的,对应的理想输入应该是离散,随机的。然而,这种直觉是错误了,不论filter是什么样的,其偏爱的理想输入都是接近正弦的。
为了证明上面的结论,作者考虑了valid卷积和circular卷积两种情况,并通过傅里叶变换(傅立叶变换,表示能将满足一定条件的某个函数表示成三角函数(正弦和/或余弦函数)或者它们的积分的线性组合)提出了2个理论,看了好几遍,也没看懂;所以只能介绍结果。
上面的式子反映了circular Convolution +square pooling结构的两个重要性质。
1).理想输入的“频率”是filter中“频率”值最大的,所以结构具有“频率”选择性。
(frequency of the optimal input ,翻译为理想输入的频率感觉有些别扭,但是又不道怎么理解更好; 原文The frequency of the optimal input is the frequency ofmaximum magnitude in the filter f)
2). 由于上式中φ为指定,所以具有抗形变性.
2.1circular卷积的理想输入是近似最理想的,对于一般卷积
上面的结论计算了circular卷积的理想输入,(怎么计算了,我也不明白);由于circular卷积和valid卷积只有在边缘部分有些不同,所以我们期望circular卷积的理想输入应该也是valid卷积的理想输入,通过理论和实验证明他们相互近似,如下图,两个版本的论文,给出了不同的对比效果图,在相同的滤波器下,对应的理想输入相似。
valid卷积+平方pooling结构在filter中最大频率的反馈是近似理想的,这个结果也适合任意的filter,所以随机的filter也可以获得很好的结果。
众所周知,频率选择性和抗形变性,是识别问题的两个关键因素,很多识别系统通过人工的滤波器(Gabor filters)来达到选择性和抗形变性,然而这种“特制”的filter在卷积+平方Pooling结构中不是必要的;在C-P结构中,即使是随机filter也可以起到和相同的作用。
2.2卷积效果评价
在不同网络结构下,对比卷积和非卷积Pooling网络;11个不同的网络结构,滤波器大小{4*4,8*8,12*12,16*16},pooling大小{3*3,5*5,9*9},filter间隔{1,2};
实验结果表明,随机权值卷积比随机权值非卷积网络好(作者没有说非卷积网络是什么);实验还发现,随机权值无论符合什么分布(均值,正太……)都不影响分类结果,只要分布的中心为0。
最后,作者还注意到,非卷积网络,也比其他采用序列化像素的结构要好。此外,一些其他卷积非卷积结构也达到了很好的分类效果,这可能是由于其他结构中特有的因素,例如filter位置,非线性变换等因素,所以,卷积是众多结构因素中一个重要的部分。
四.pretraining和fine tuning的贡献
本文通过TICA算法来进行pretraining,fine tuning使用l-bfgs算法,迭代80次。结果对比分析发现,网络结构好坏是影响结果的关键因素,好的网络结构可以使随机权值和训练权值都达到很好的结果;fine tuning可以提高分类结果,可以使结果达到最好,但是需要在好的网络结构下。
五.快速地选择结构
由于随机权值网络的分类结果和训练权值的分类有着正相关的关系,都是有网络结构决定的,所以我们在评价一个网络结果时,可以使用随机权值网络的平均分类准确率来初步评价,选取最好的网络结构。
六.区别结构和学习的贡献
本文证明了当前最好的特征学习系统获得的结果,仅仅是来源于他们的结构。通过下表我们发现,在NORB数据集上,卷积网络普遍获得很好结果,说明网络结构很重要。
我的一些疑惑和理解:
1,本文并没有想其他文章一样去探究一个跟好的网络结构,而且是他就学习算法和卷积网络分别的重要性;从而为我们提出了一条快速选择最优网络的方法。即随机多个网络结构求平均的分类准确率依据平均的准确率作为网络结构的选择的依据。
2,通过实验证明,卷积网络结构的C-P结构对于特征不变形很重要,Pretraining+finetuning作用更多的是锦上添花;说明选择好的结构很重要。
3,本文对比了随机权值和Pretraining+finetuning的分类结果,并没有考虑纯监督学习,感觉上分类结果应该在两者之间,但是感觉有必要探究一下随机权值,监督学习,Pretraining+finetuning三种方法在相同网络结构情况下,和数据量的关系,就像上一篇博文总介绍的,随着数据量增加时,随机权值分类结果收敛较快,而监督学习的方法收敛相对较慢结果较好,Pretraining+finetuning收敛结果和数据量的关系感觉可以探讨一下,毕竟对于特别大的数据集有没有必要Pretraining+finetuning,以及上面作者的结论是否还成立。
4,本文的C-P网络结构,采用的是卷积后采用平方操作,可以增加非线性同时,还可以消除mean-p正负抵消的情况,,感觉在增加一个局部归一化层会比较好,因为平方操作会增大数据的方差,泛化性能不好(个人见解,未经实验验证);