《机器学习实战》1章-机器学习概览

前言:

 本文是对蜥蜴书第二版第一章学习概要。

一、什么是机器学习

利用经验E来学习任务T,性能是P,如果针对任务T的性能P随着经验E不断增长,则称为机器学习。 -Tom Mitchell

二、机器学习分类

Ⅰ、按照是否有监督

  • 有监督学习

    有标签

  • 无监督学习

    无标签

  • 半监督学习

    部分有标签

  • 强化学习

    有奖惩。

Ⅱ、按照是否动态增量学习(持续学习)

  • 在线学习

    不良的数据可能会使系统性能降低。

  • 批量学习

Ⅲ、按研究对象

  • 基于实例学习
  • 基于模型学习

三、机器学习的挑战

Ⅰ、数据数量

Ⅱ、数据是否具有代表性

  • 极端数据的取舍
  • 重要数据是否缺少

Ⅲ、低质量数据

  • 错误、异常、噪声
  • 缺少重要特征

Ⅳ、无关特征

  • 选择有用的特征
  • 对特征进行提取与整合
  • 收集新数据创建新特征

Ⅴ、过拟合

正则化:regularization 通过约束模型使其更简单,降低过拟合的风险。

超参数:hyper-parameter
是在开始学习过程之前设置值的参数,而不是通过训练得到的参数数据。
 通常情况下,需要对超参数进行优化,给学习机选择一组最优超参数,以提高学习的性能和效果。

  • 简化模型
    1. 选择较少参数模型,
    2. 减少属性
    3. 约束模型
  • 收集更多数据
  • 减少噪声,修复错误数据,清除异常值。

Ⅵ、欠拟合

  • 选择更多参数、更强大的模型
  • 更好的特征集
  • 减少约束。

三、测试与验证

样本分成独立的三部分

  • 验证集(validation set ) 25%

    验证集用来确定模型参数

  • 训练集(train set)50%

  • 测试集(test set)25%

    测试集则检验最终选择最优的模型的性能如何。

当样本总量少的时候,上面的划分就不合适了。

常用的是留少部分做测试集。然后对其余N个样本采用K折交叉验证法。

  • 留一法

就是将样本打乱,然后均匀分成K份,轮流选择其中K-1份训练,剩余的一份做验证,计算预测误差平方和,最后把K次的预测误差平方和再做平均作为选择最优模型结构的依据。特别的K取N,就是留一法(leave one out)。

你可能感兴趣的:(机器学习,人工智能,机器学习)