[机器学习] UFLDL笔记系列是以我学习UFLDL Tutorial(Andrew Ng老师主讲)时的笔记资料加以整理推出的,内容以无监督特征学习和深度学习为主,同时也参考了大量网上的相关资料。
本文的理论部分主要整理自UFLDL的“Sparse Coding”章节和一些经典教材,同时也参考了网上的一些经典博客,包含了Sparse Coding的一些基本概念、优化方法、数学推导和应用场景,供读者参考。
文章小节安排如下:
1)Sparse Coding的基本原理
2)Sparse Coding的训练与应用
3)Sparse Coding的Autoencoder Interpretation
4)Topographic Sparse Coding
5)参考资料
稀疏编码算法是一种无监督学习方法,它用于寻找一组“超完备基(over-complete bases)”来更高效地表示样本数据。换句话收,稀疏编码算法的目的就是找到一组基向量Φϕ,使得我们能将输入向量 x 表示为这些基向量的线性组合:
回顾一下PCA中如何计算一组完备基向量:
1)计算协方差矩阵
这里第二部中得到的U就是所求的完备基(complete bases)。
因为稀疏编码目的是找到一组超完备基,即 k>n,所以就无法直接通过原始数据得到特征矩阵 U(一组完备基向量),进而也就无法直接得到系数 a,所以我们需要次啊用学习的方式来找到这一组超完备基。
这里把“稀疏性(sparsity )”定义为:只有很少的几个非零元素或只有很少的几个远大于零的元素。
要求系数向量 a 是稀疏的意思就是说:对于一个输入向量的基向量组合,我们只想有尽可能少的几个系数远大于零。
选择使用具有稀疏性的分量来表示我们的输入数据是有原因的,因为绝大多数的感官数据(sensory data),比如自然图像,可以被表示成少量基本元素(atomic elements)的叠加,在图像中这些基本元素可以是面或者线。同时,比如与初级视觉皮层的类比过程也因此得到了提升。
关于稀疏性的讨论,可以参考:[机器学习] UFLDL笔记 - Autoencoders and Sparsity(http://blog.csdn.net/walilk/article/details/78168358)
稀疏编码的代价函数定义如下:
简单来说,Sparse Coding是将输入数据重构为一组超完备基向量的线性组合,然后这些基向量前面的系数所构成的向量就是输入数据的新特征。
一般情况下要求超完备基向量的个数k非常大(远大于输入数据的维度n),因为这样的基向量组合才能更容易的学到输入数据内在的结构和特征。其实在常见的PCA算法中,是可以找到一组基来分输入数据X的,只不过那个基的数目比较小(小于等于输入数据维度),所以可以得到分解后的系数a是可以唯一确定,而在sparse coding中,k太大,比n大很多,其分解系数a不能唯一确定。
另外,Sparse Coding在实际使用过程中速度很慢,这是因为即使我们在训练阶段已经把输入数据集的超完备基学习到了,在测试阶段时还是要通过凸优化的方法去求得其特征值(即基组合前面的系数值),所以这比一般的前向神经网络速度要慢。
稀疏编码算法涉及超完备基Φ(字典)和系数向量a的学习,因此训练是由两个独立的优化过程组合起来的。每次迭代分两步:第一个是固定字典Φ,逐个使用训练样本x来优化系数 ai ,第二个是固定系数向量a,一次性处理多个样本对字典Φ进行优化。
不断迭代,直至收敛,这就可以得到一组能够良好表示训练样本x的超完备基,也就是字典。
关于系数向量a的优化:
使用 L1 范式作为稀疏惩罚函数,对 a(j)i的学习过程就简化为求解“由 L1 范式正则化的最小二乘法问题”,这个问题函数在域 a(j)i内为凸,已经有很多技术方法来解决这个问题。
使用对数形式的稀疏惩罚函数,则可以采用基于梯度算法的方法,如共轭梯度法。
关于字典Φ的优化:
使用 L2 范式约束来学习基向量,同样可以简化为一个带有二次约束的最小二乘问题,其问题函数在域 Φ 内也为凸。
根据前面的的描述,稀疏编码是有一个明显的局限性的,这就是即使已经学习得到一组基向量,如果为了对新的数据样本进行“编码”,我们必须再次执行优化过程来得到所需的系数a。这个意味着在测试中,实现稀疏编码需要高昂的计算成本,尤其是与典型的前馈结构算法相比,例如稀疏自编码器(http://blog.csdn.net/walilk/article/details/78168358)。
稀疏编码用于表示的形象描述如下:
在Sparse Autoencoder中,我们试着学习得到一组权重参数 W (以及相应的截距 b ),通过这组参数W可以得到输入样本的稀疏特征向量,也就是隐层的激励值向量,由此也就得到了输入样本的稀疏表示;
UFLDL中说“稀疏编码可以看作是稀疏自编码方法的一个变形”,这一点我确实还不太理解。确切地说,在稀疏编码算法中,我们直接利用样本数据 x 进行特征学习,学习一个用于表示样本数据的稀疏特征 s(对应前面说的向量a),和一个将特征s从特征空间转换到样本数据空间的基底 A(对应前面说的超完备基Φ)。
基于上面的理解,我们重定义Sparse Coding的代价函数如下:
为了理解重构代价项,我们将该代价函数与PCA进行对比。
矩阵 A 是一组超完备基向量组成的,每一列是一个基向量,向量 s 是稀疏特征向量。这里其实跟PCA中数据近似还原计算的非常类似,PCA的数据近似还原计算如下:
注意,在UFLDL教程中代价函数的重构代价项没有*(1/m),这是不对的,如下:
这里着重讲解一下权重衰减项的意义。
如果只有前面两项(重构代价项和稀疏惩罚项),那么就存在一个问题:
如果将系数向量s中各项系数值减到很小,且将字典A中每个基向量的值增加到很大,这样第一项的代价值基本保持不变,而第二项的稀疏惩罚值却会相应变小。也就是说只要将所有系数都减小同时基向量的值增大,那么就能最小化上面的代价函数。在这种情况下,所有的系数a都变得很小,即:它们都大于0但接近于0,而这并不满足我们对系数向量的稀疏性要求:系数向量s中只有少数系数远远大于0,而不是大部分系数都接近于0。
所以为了防止这种情况发生,我们需要保证字典A中基向量的元素值都不会变得太大,这就是权重衰减项的意义。
1. 随机初始化A
2. 重复以下步骤直至收敛:
a. 根据上一步给定的A,求解能够最小化J(A,s)的s
b. 根据上一步得到的s,求解能够最小化J(A,s)的A
理论上,Sparse Coding通过上述迭代方法求解目标函数的最优化问题最终得到的稀疏特征向量与通过Sparse Autoencoder学习得到的稀疏特征向量是差不多的。
首先看一下大脑皮层中的特征秩序,摘录自UFLDL-Topographic Sparse Coding。
举个例子,视觉特征,如前面所提到的,大脑皮层 V1 区神经元能够按特定的方向对边缘进行检测,同时,这些神经元(在生理上)被组织成超柱(hypercolumns),在超柱中,相邻神经元以相似的方向对边缘进行检测,一个神经元检测水平边缘,其相邻神经元检测到的边缘就稍微偏离水平方向,沿着超柱,神经元就可以检测到与水平方向相差更大的边缘了。
受该例子的启发,我们希望学习到的特征也具有这样“拓扑秩序(topographically ordered)”的性质。这对于我们要学习的特征意味着什么呢?直观的讲,如果“相邻”的特征是“相似”的,就意味着如果某个特征被激活,那么与之相邻的特征也将随之被激活。
通过Sparse Coding已经可以得到样本数据的稀疏表示。进一步,我们通过分组的方式,来使得学习得到的特征集中各项之间具有某种“秩序(orderly)”。
具体而言,假设我们将特征组织成一个方阵。我们就希望矩阵中相邻的特征(adjacent features)是相似的。实现这一点的方法是将相邻特征按“经过平滑的L1范式惩罚(the smoothed L1 penalty)” 进行分组,如果按 3x3 方阵分组,则是用:
这部分是我在实现Sparse Coding时候的一些实验笔记。
1)优化算法对结果是有影响的。比如,对于拓扑稀疏编码,优化算法为cg,特征个数为121,小图像块大小为16*16时,cg算法得到的结果比lbfgs算法更好。
2)patch大小对结果是有影响的。比如,拓扑稀疏编码算法,特征个数为121,采样patch大小为8*8时,如果用lbfgs算法就得不到结果,而用cg算法就可以得到上面的结果。
3)规律:随着迭代次数的增加,代价函数值应该是越来越小的,如果不是,就永远不会得到正确结果。如果代价函数不是越来越小,可能是优化算法的选择有问题,或者小图像块的选择有问题,具体情况具体分析,有多种原因。当然更本质的原因,还没弄清楚。
4)训练集中的10张512*512的灰度图像是已经白化后的图像,故它的值不是在[0,1]之间。以前实验的sampleIMAGES函数中要把样本归一化到[0,1]之间的原因在于它们都是输入到稀疏自动编码器,其要求输入数据为[0,1]范围,而本节实验是把数据输入到稀疏编码中,它并不要求数据输入范围为[0,1],同时归一化本身实际上是有误差的(因为它是根据3sigma法则归一化的),所以本节实验修改后的sampleIMAGES函数中,不需要再把随机抽取20000张小图像块归一化到[0,1]范围,即:要把原来sampleIMAGES函数中如下代码注释掉:patches = normalizeData(patches);。实际上这一步非常重要,因为它直接关系到最后是否可以得到要求的结果图。
non-topographic的结果我找不到了……这里贴上UFLDL的:
Sparse Coding
http://ufldl.stanford.edu/wiki/index.php/Sparse_Coding
Sparse Coding: Autoencoder Interpretation
http://ufldl.stanford.edu/wiki/index.php/Sparse_Coding:_Autoencoder_Interpretation
Exercise:Sparse Coding
http://ufldl.stanford.edu/wiki/index.php/Exercise:Sparse_Coding
Autoencoders and Sparsity
http://ufldl.stanford.edu/wiki/index.php/Autoencoders_and_Sparsity