周志华西瓜书学习笔记----绪论

文章目录

  • 前言
  • 一、算法处理数据的流程
  • 二、假设空间是什么?
  • 三、归纳偏好


前言

这篇文章将记录西瓜书中绪论的学习。


一、算法处理数据的流程

在我们训练一个模型前我们需要准备一些数据,训练集是历史数据。
周志华西瓜书学习笔记----绪论_第1张图片
当我们有一批新的数据时(测试集),我们将这些数据输入训练过的模型来得到每个数据对应的标签
周志华西瓜书学习笔记----绪论_第2张图片

二、假设空间是什么?

在我们使用数据集进行机器学习时,我们能用到的数据是有限的,而我们需要利用有限的数据通过算法拟合出一个能够广泛适用于这一类数据的模型。例如书中给出的数据表:
周志华西瓜书学习笔记----绪论_第3张图片
这个数据集很小,其中色泽,根蒂和敲声是属性,好瓜是标签,因此这个数据集应该使用监督学习(给出了标准答案label)。如果我们假设三个属性分别有3,2,2种取值,那么整个假设空间就有4x3x3+1=37种组合方式(因为每个属性的取值还可以是任意,且最终可以有空取值)。

  • 也就是说,假设空间是样本的所有可能的取值组合,如下

周志华西瓜书学习笔记----绪论_第4张图片
那么什么是假设?假设是假设空间中某一个取值组合,假设是一种判断的依据,是算法根据训练集得出的结论,例如基于上述训练集可能会得到好瓜是色泽任意,根蒂蜷缩和敲声浊响的假设,也可以得到好瓜是色泽任意,根蒂蜷缩和敲声任意的假设,这些假设会形成版本空间,版本空间中的每个假设都可以解释训练集的数据,但算法最终只会给出一个模型(一种假设)

  • 版本空间是能够解释训练的所有假设

三、归纳偏好

如何只给出一种假设?周志华西瓜书学习笔记----绪论_第5张图片

例如模型通过学习给出了这样一个版本空间,通过设置偏好来取出其中一个假设,例如我们认为声音是无关紧要的,那么算法就会选择左上角的假设。

你可能感兴趣的:(学习,机器学习,深度学习)