《机器学习》第十一章 特征选择与稀疏学习 总结

子集搜索和评价
给定属性集,有的属性可能很关键,而有的属性可能对当前学习任务没有什么作用。我们将属性称为特征(feature),对当前学习任务有用的属性成为相关特征(relevant feature),没什么用的属性成为无关特征(irrelevant feature)。从给定特征集合中选择相关特征子集的过程成为特征选择(feature selection)。然而,欲从初始的特征集合中选取一个包含了所有重要信息的特征子集是不可能的,这样会遇到组合爆炸,可行的方法是先产生一个候选子集,再对其进行评价,基于评价结果再产生新的候选子集,直到无法找到更好的候选子集为止

冗余特征(redundant feature):这些特征所包含的信息能从其他特征中推演出来,若冗余特征没有对应完成学习任务的所需的中间概念,则应当去除

子集搜索(subset search):产生待评价的特征集合的过程为子集搜索。逐渐增加相关特征的搜索成为前向(forward)搜索,逐渐减少特征的策略成为后向(backward)搜索,结合两者的策略成为双向(bidirectional)搜索。显然这些策略都是基于贪心的,但不进行穷举,这样的问题无法避免

子集评价(subset evaluation):可通过计算属性集的信息增益(11.1)来进行子集评价,信息增益越大,意味着特征子集包含的有助于分类的信息越多

特征选择方法:常见的特征选择方法大致可分为三类:过滤式(filter)、包裹式(wrapper)和嵌入式(embedding)

过滤式选择
过滤式方法对数据集进行特征选择,然后再训练学习器,特征选择的过程与后续学习器无关,即先用特征选择过程对初始特征进行过滤,然后再用过滤后的特征来训练原型

Relief(Relevant Features):一种著名的过滤式特征选择方法,该方法设计了一个“相关统计量”来度量特征的重要性。对于每个示例,Relieg先在示例的同类样本中寻找其最近邻,称为“猜中近邻”(near-hit),再从示例的异类样本中寻找其最近近邻,称为“猜错近邻”(near-miss),由猜中近邻和猜错近邻算出相关统计量对于属性j的分量,见公式(11.3)。显然,若示例与其猜中近邻在属性j上的距离小于示例与其猜错近邻的距离,则说明属性j对于区分同类与异类样本是有益的,于是增大属性j所对应的统计量分量。得到各个属性统计量分量后,分量值越大,则对应的分类能力就越强

包裹式选择
与过滤式选择不考虑后续学习器不同,包裹式特征选择直接把最终将要使用的学习器性能作为特征子集的评价准则。换言之,包裹式特征选择的目的就是为了给特定学习器“量身定做”特征子集。一方面,由于包裹式特征选择方法直接针对学习器进行优化,因此学习器最终性能一般比过滤式更好;另一方面,由于包裹式特征选择过程中要多次训练学习器,因此计算开销要比过滤式特征选择大得多

LVW(Las Vegas Wrapper)算法:一个典型的包裹式特征选择方法,在拉斯维加斯方法框架下使用随机策略来进行子集搜索,并以最终分类器的误差作为特征子集的评价准则。分类器的误差采用交叉验证法进行估计,且LVW算法的特征子集搜索使用了随机策略,每次特征子集评价都要训练学习器,计算开销很大,因此算法设计了停止条件控制参数。

嵌入式选择与 L 1 L_{1} L1正则化
在过滤式和包裹式特征选择方法中,特征选择过程与学习器训练过程有明显的区别;与此不同,嵌入式特征选择是将特征选择过程与学习器训练过程融为一体,两者在同一个优化过程中完成,即在学习器训练过程中自动地进行了特征选择

LASSO(Least Absolute Shrinkage and Selection Operator):给定数据集,考虑最简单的线性回归模型,以平方误差为损失函数,得到式(11.5),然而式(11.5)在样本数较少时很容易陷入过拟合,因此需要为其引入正则项,正则项采用 L 1 L_{1} L1范数时,则称式(11.7)为LASSO。采用 L 1 L_{1} L1范式的原因是 L 1 L_{1} L1范式相比其他范式,更能解出线性回归模型的稀疏解,LASSO式具体的解法采用了近端梯度下降法(Proximal Gradient Descent,PGD)

稀疏学习与字典学习
当样本具有稀疏表达形式时,对学习任务来说会有不少好处,例如支持向量机之所以能在文本数据上由很好的性能,恰好是由于文本数据在使用上述字频表示后具有高度稀疏性,使得大多数问题变得线性可分。那么,若给定数据集是稠密的,应想办法将其变为恰当稀疏的数据集,这会给学习任务带来好处。未来形成这样的稀疏数据,往往需要学习出一个“字典”。为普通稠密表达的样本找到合适的字典,将样本转化为合适的稀疏表示形式,从而使学习任务变得简化,模型复杂度得以降低,通常称为字典学习(dictionary learning)

字典学习:字典学习最简单的形式见式(11.15),该式意义为:样本的稀疏表示α由字典B重构后与原始样本尽量相似,1范数是为了是表示更稀疏。字典B的列数称为字典的词汇量。与LASSO相比,该式需对求解一个字典矩阵B,可采用变量交替优化进行求解

压缩感知(compressed sensing)
现实任务中,我们常希望根据部分信息来恢复全部信息,即基于接收方收到的信号精确重构出原信号,压缩感知为解决此类问题提供了新的思路。压缩感知与特征选择不同,关注的是如何利用信号本身所具有的稀疏性,从部分观测样本中回复原信号。假定有长度为m的离散型号 x x x,以远小于奈奎斯特采样定理要求的采样率进行采样,得到长度为n的采样信号y,n< y = y = Φ x y= y=\Phi x y=y=Φx。信号传输出去后,已知y和 Φ \Phi Φ是无法解除原始信号 x x x的,因为n< x x x y y y Φ \Phi Φ组成的式(11.19)是一个欠定方程。但如果我们把 y = Φ x y=\Phi x y=Φx改写成 y = Φ Ψ x = A x y=\Phi \Psi x=Ax y=ΦΨx=Ax,此时若s具有稀疏性,则这个问题能够很好的解决

你可能感兴趣的:(笔记,机器学习)