特征选择与稀疏学习

从给定特征集合中筛选出对当前学习任务有用的属性称为特征选择,本章假设特征集合没有冗余特征,且初始特征集合包含了所有重要信息。一般没有领域知识作为先验假设,特征选择一般做法是产生一个“候选子集”,评价出它的好坏,基于评价结果产生下一个子集再评价,直到无法找到更好的候选子集。从单个特征开始不断增加单个特征直到增加特征后结果不如增加前的子集搜索策略是“前向搜索”,每次消除一个特征的搜索是“后向搜索”,二者结合是“双向搜索”,这些都是贪心策略不能保证最优;子集评价可以根据信息增益或者对于分类任务而言可以看根据属性划分数据集和根据标签划分数据集的相似程度。将子集搜索和子集评价结合起来即得到特征选择方法,大致可分为三类:过滤式,包裹式和嵌入式

过滤式选择与后续学习器无关,一种著名过滤式 R e l i e f Relief Relief方法设置了相关统计量向量度量特征重要性,每个分量分别对应一个特征,最后根据阈值 τ \tau τ或特征个数 k k k来筛选特征。计算相关统计量的方法如下:给定训练集 { ( x 1 , y 1 ) , ( x 2 , y 2 ) , … , ( x m , y m ) } \{(x_1,y_1),(x_2,y_2),\dots,(x_m,y_m)\} {(x1,y1),(x2,y2),,(xm,ym)},对每个 x i x_i xi,在同类样本中找到最近邻 x i , n e a r − h i t x_{i,near-hit} xi,nearhit称为猜中近邻,在异类样本中找到最近邻 x i , n e a r − m i s s x_{i,near-miss} xi,nearmiss称为猜错近邻,相关统计量对于属性 j j j的分类即为 δ j = ∑ i − d i f f ( x i j − x i , n h j ) 2 + d i f f ( x i j − x i , n m j ) 2 \delta^j=\sum_i-diff(x_i^j-x^j_{i,nh})^2+diff(x_i^j-x^j_{i,nm})^2 δj=idiff(xijxi,nhj)2+diff(xijxi,nmj)2,这个式子即表明如果在属性 j j j上最近邻是同类样本, δ j \delta^j δj较大,此时属性 j j j对区分同异类样本是有增益的,如果不采样所有数据集可以加快速度,对于多分类任务有扩展变体 R e l i e f − F Relief-F ReliefF,改动仅在对于其他每个类都找到猜错近邻,然后 δ j \delta^j δj的第二项是按比例求和

包裹式选择针对给定学习器选择适宜的特征子集,它的效果更好但开销更大,典型的包裹式特征选择方法 L V W LVW LVW在拉斯维加斯框架下用随机策略进行子集搜索,如果待筛选特征过多可能给不出解

嵌入式选择将特征选择和学习器训练融合在一起进行,加入 L 1 L1 L1范数即可得到稀疏特征, L 1 L1 L1范数最优化可以通过 P G D PGD PGD和其他方法

当样本矩阵中有较多零元素时对学习任务有很多好处(比如高维稀疏样本更线性可分),且有很多高效存储方式可以节省空间。为稠密表达的样本找到合适的字典,将样本转化为合适的稀疏表示形式,从而使得学习任务简化,模型复杂度降低的方法是字典学习或稀疏编码

压缩感知的内容暂时没看

你可能感兴趣的:(学习笔记,学习,算法)