周志华机器学习第一章总结及课后答案参考

1. 引言

  • 机器学习是这样一门学科,它致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。在计算机系统中,“经验”通常以“数据”形式存在,因此机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型(model)”的算法,即“学习算法”。有了学习算法,我们把经验数据提供给他,就能基于这些数据产生模型。因此机器学习是研究“学习算法“的学问。

2.基本术语

  • 数据集(data set):这组记录的集合
  • 示例或样本(instance):每一条记录,关于一个事件或对象的描述
  • 属性或特征(attribute):反映事件或对象在某方面的表现或性质的事项,例如:色泽,根蒂。
  • 属性值(arrtribute value):属性上的取值,例如:青绿,乌黑,……
  • 属性空间(arrtribute space),样本空间(sample space),输入空间:属性张成的空间
  • 学习(learning),训练(training):从数据中学得的模型的过程
  • 训练数据(training data):训练过程中使用的数据
  • 训练集(training set):训练样本组成的集合
  • 假设(hypothesis):学得模型对应了关于数据的某种潜在的规律
  • 真相,真实(ground-truth):上述中潜在规律的自身
  • 标签,标记(label):关于示例结果的信息
  • 样例(example):拥有了标记信息的示例
  • 标记空间(label sapce):所有的标记集合Y
  • 分类(classification):预测的如果是离散值,如”好瓜“”坏瓜“,此类学习任务称为分类
  • 回归(regression):若预测的是连续值,例如西瓜的成熟度0.95,0.37
  • 根据训练数据是否拥有标记信息,学习任务大致分为两大类:监督学习(supervised learning)和无监督学习(unsupervised learning)
  • 泛化( generalization):学得的模型适用于新样本的能力
  • 概念学习:归纳学习有狭义和广义之分,广义的归纳学习大体相当于从样例中学习,而狭义的归纳学习则要求从训练数据中学得概念。概念学习中最基本的是布尔概念学习,即对”是“”不是“这样的 可表示为0/1的目标概念的学习。
  • 归纳偏好( inductive bias):机器学习算法在学习过程中对某种类型假设的偏好
  • 奥卡姆剃刀:是一种常用的,自然科学研究中最基本的原则,即”若有多个假设与观察一致,则选最简单的那个“。奥卡姆剃刀原则主张选择与经验一致最简单的假设。
  • 没有免费的午餐( No Free Lunch Theroem):总误差与学习算法无关。但是NFL定理有一个重要前提:所有”问题“出现的机会相同,或所有问题同等重要,但实际情形并非如此。故NFL定理最重要的寓意,是让我们清楚的认识到,脱离具体问题,空泛地谈论”什么学习算法更好“毫无意义。

3.习题

待更新……

你可能感兴趣的:(机器学习笔记)