西瓜书读书笔记之绪论

1.1 引言

定义:

  • Arthur Samuel:不显式编程地赋予计算机能力的研究领域。
  • Mitchell:假设用P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E在T中任务上获得了性能改善,就说关于T和P,该程序对E进行了学习。
  • 周志华:机器学习的主要内容:关于在计算机上从数据中产生“模型”的算法,即“学习算法”。

1.2 基本术语

数据:

西瓜书读书笔记之绪论_第1张图片

分类:

西瓜书读书笔记之绪论_第2张图片

泛化能力:学得模型适用于新样本的能力。

学习器:学习算法在给定数据和参数空间上的实例化。

1.3 假设空间

  • 广义的归纳学习相当于从样例中学习,狭义的归纳学习则要求从训练数据中学得概念,亦称概念学习或概念形成。
  • 学习过程可以看作在所有假设组成的空间中进行搜索的过程,目标是找到与训练集“匹配”的假设。假设的表示一旦确定,假设空间及其规模大小就确定了。
  • 由于样本训练集有限,可能有多个假设与训练集一致,即存在一个训练集属于的假设集合,称为“版本空间”

1.4 归纳偏好

  • 定义:学习过程中对某种类型假设的偏好,称为“归纳偏好”。
  • 版本空间启发我们,任何一个学习算法必有归纳偏好,否则它将被看似“等效”的假设迷惑,无法产生确定的学习效果。
  • 可以将其看作进行假设选择的启发式或价值观。  
  1. 奥卡姆剃刀:若有多个假设与观察一致,选择最简单的那个。问题在于简单究竟是主观评价还是客观存在。
  2. 多释原则:保留与经验观察一致的所有假设。这与集成学习吻合。
  •  NFL定理表明,归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能。

你可能感兴趣的:(机器学习)