第11 章特征选择与稀疏学习

11.1 子集搜索与评价
相关特征:有用的属性
无关特征(冗余特征):没有用属性
特征选择:选出相关特征,确保不丢失重要特性
(先特征选择,然后在训练学习器)

为什么要特征选择呢?
1.遭遇维数灾难
2.降低学习难度

特征选择方法:
1.不可行方法:遍历所有子集
2.可行方法:产生初始候选子集(子集搜索),然后评价候选子集的好坏(子集评价),之后基于评价结果产生下一个候选子集。

子集搜索:前向搜索,后向搜索和双向搜索
前向搜索:最有子集最初为空集,逐渐增加相关特征
后向搜索:从完整特征集合开始,逐渐减少无关特征
双向搜索:每一轮逐渐增加相关特征,同时减少无关特征。

子集评价:
1.特征子集A 实际上确定了对数据集D 的一个划分,每个划分区
域对应着A 上的一个取值
2.样本标记信息Y 则对应着对D 的真实划
3.通过估算这两个划分的差异,就能对A 进行评价与Y 对应的划分的差异越小, 则说明A 越好
4.信息烟仅是判断这个差异

特征选择方法分为三种:过滤式,包裹式和嵌入式

11.2 过滤式选择:
过滤式方法:先特征选择,再训练学习器,特征选择与后续学习器无关.这相当于先用特征选择过程对初始特征进行“过滤,再用过滤后的特征来训练模型.

Relief算法:先用一个向量度量特征,每个分量对应初始特征,这样特征子集可以用分量之和来表示。通过阈值或数量K来最终选择特征。

同类样本:猜中近邻
异类样本:猜错近邻

在一个样本J属性,分别求出猜中近邻,猜错近邻的距离dist1,dist2。
若dist1

指出了用于平均的样本下标.实际上Relief 只需在数据集的采样上而不必在整个数据集上估计相关统计量。
Relief 的时间开销随采样次数以及原始特征数线性增长,因此是一个运行效率很高的过滤式特征选择算法。

11.3 包裹式选择
定义:已经给定一个学习训练器,然后通过学习器量身定做特征子集。
优点: 从最终学习器性能来看,包裹式特征选择比过滤式特征选择更好。
缺点:由于在特征选择过程中需多次训练学习器, 因此包裹式特征选择的计算开销通常比过滤式特征选择大得多。

LVW算法:是一个典型的包裹式特征选择方法.它在拉斯维加斯方法框架下使用随机策略来进行子集搜索,并以最终分类器的误差为特征子集评价准则。
LVW 算法中特征子集搜索采用了随机策略,而每次特征子集评价都需训练学习器,计算开销很大, 因此算法设置了停止条件控制参数T 然而,整个LVW 算法是基于拉斯维加斯方法框架,若初始特征数很多(即IAI 很大)、T 设置较大,则算法可能运行很长时间都达不到停止条件.

拉斯维加斯方法是随机化方法.若有时间限制, 则拉斯维加斯方法或者给出满足妥求的解,或者不给出解, 若无时间限制,则能给出满足要求的解。

11.4 嵌入式选择与L1正则化
嵌入式特征选择:是将特征选择过程与学习器训练过程融为一体, 两者在同一个优化过程中完成,即在学习器训练过程中自动地进行了特征选择.

你可能感兴趣的:(机器学习(西瓜书),机器学习,算法,人工智能)