机器学习 第十一章 特征选择与稀疏学习

第十一章 特征选择与稀疏学习

  • 特征选择:子集选择、子集评价

    • 过滤式选择
    • 包裹式选择
    • 嵌入式选择:用L1Z正则化
  • 稀疏表示:

    • 字典学习
    • 压缩感知

11.1 子集搜索与评价

  • 特征的分类

    • 相关特征: 对当前学习任务有用的属性
    • 无关特征: 与当前学习任务无关的属性(会增加构建学习器的难度)
    • 冗余特征*: 其所包含信息能由其他特征推演出来(有用的不需要去掉,使得学习算法更有利求解)
  • 特征选择的一般方法:

    • 遍历所有可能的子集 ——> 计算上遭遇组合爆炸,不可行
    • 可行方法:
      • 产生初始候选子集
      • 评价候选子集的好坏
  • 两个关键环节:

    • 子集搜索(贪心算法)
      • 前向搜索:逐渐增加相关特征
      • 后向搜索:从完整的特征集合开始,逐渐减少特征
      • 双向搜索:每一轮逐渐增加相关特征,同时减少无关特征
    • 子集评价
      • 使用信息增益,选择信息增益大的属性

11.2 常见的特征选择方法

  • 将特征子集搜索机制与子集评价机制相结合,即可得到特征选择方法

1. 过滤式

  • 先用特征选择过程过滤原始数据,再用过滤后的特征来训练模型;特征选择过程与后续学习器无关
  • Relief (Relevant Features) 方法 [Kira and Rendell, 1992]
    • 为每个初始特征赋予一个“相关统计量”,度量特征的重要性
      在这里插入图片描述
      在这里插入图片描述
  • 同类样本属性尽可能相似,不同类上属性差异越大越好。

2. 包裹式

  • 特征选择与算法结合,量身定制。不同分类算法选出的特征不一致。

  • 从最终学习器性能来看,包裹式特征选择比过滤式特征选择更好;计算开销通常比过滤式特征选择大得多

  • LVW包裹式特征选择方法:

    • LVW(Las Vegas Wrapper)[Liu and Setiono, 1996] 在拉斯维加斯方法框架下使用随机策略来进行子集搜索,并以最终分类器的误差作为特征子集评价准则
  • 基本步骤:

    • 在循环的每一轮随机产生一个特征子集
    • 在随机产生的特征子集上通过交叉验证推断当前特征子集的误差
    • 进行多次循环,在多个随机产生的特征子集中选择误差最小的特征子集作为最终解*
    • *若有运行时间限制,则该算法有可能给不出解

3. 嵌入式

  • 嵌入式特征选择是将特征选择过程与学习器训练过程融为一体,两者在同一个优化过程中完成,在学习器训练过程中自动地进行特征选择
  • 求解L1范数正则化的结果是得到了仅采用一部分初始特征的模型。即,基于L1Z正则化的学习方法就是一种嵌入式特征选择方法(因为L1不易于获得“稀疏解”),其特征选择过程与学习器训练过程融为一体。
  • 可以使用近端梯度下降去求解L1正则化问题。

11. 5稀疏表示与字典学习

  • 稀疏表达的优势:
    • 文本数据线性可分
    • 存储高效

1. 字典学习

  • 为普通稠密表达的样本找到合适的字典,将样本转化为稀疏表示,这一过程称为字典学习
    机器学习 第十一章 特征选择与稀疏学习_第1张图片
  • 可以采用变换交替优化的策略来求解上式,B&ai,用户能通过设置词汇量k的大小来控制字典的规模,从而影响到稀疏程度。

11.6 压缩感知

  • 利用部分数据恢复全部数据

你可能感兴趣的:(机器学习)