【机器学习西瓜书阅读笔记】(一)基础概念

目录

    • 思维导图
    • 定义
    • 基本术语
    • 分类
      • 根据标签的存在与否
    • 假设空间、版本空间
      • 假设空间
      • 版本空间
    • NFL没有免费午餐定理
    • 参考文献

思维导图

【机器学习西瓜书阅读笔记】(一)基础概念_第1张图片

定义

假设P在用来评估计算机程序在某任务T上的性能,若一个程序通过利用经验E在T中任务上获得了性能的改善,则我们就说关于T和P,该程序对E进行了学习

  • 经验(E):通常以数据的形式存在——(色泽=浅白;根蒂=蜷缩;敲声=浊响)
  • 任务(T):我的任务是挑好的西瓜
  • 性能(P):挑的西瓜好不好

基本术语

  • 属性(or特征):参考如上的经验E,其中【色泽、根蒂、敲声】就是属性 。
  • 记录:(色泽=浅白;根蒂=蜷缩;敲声=浊响)就是一条记录(ps:也就是一条数据,多个这种记录的集合就称为数据集
  • 维数:每个记录包含的属性个数。
  • 训练样本:训练过程中使用的数据称为训练数据,其中每个样本称为一个训练样本,简单理解就是训练样本是为了建立模型而存在。(其集合称为训练集)
  • 测试样本:模型建立后,用来评估模型预测性能好不好而存在。(其集合称为测试集)

分类

根据标签的存在与否

  • 传统的监督学习:每一个训练数据都有对应的标签
  • 无监督学习:所有训练数据都没有对应的标签(假设同一类的训练数据,在空间中的距离更近)
  • 半监督学习:一部分有标签,一部分没有标签(由于标注数据是一项比较繁琐的任务,所以通常会采用少量的标注数据、大量的未标注数据)

分类和回归是监督学习的代表

  • 分类:标签是离散的值【人脸识别任务–>两张照片是同一个人记为1;两张照片不是同一个人记为0–>标签:(0和1)离散】
  • 回归:标签是连续的值【预测房价任务–>训练样本:时间;标签:平均房价,房价是连续的变量】

聚类是无监督学习的代表

假设空间、版本空间

假设空间

如图是西瓜书上的一个数据集
【机器学习西瓜书阅读笔记】(一)基础概念_第2张图片
学习目标:好瓜
好瓜的影响因素:色泽、根蒂、敲声
首先明确好瓜不仅仅是以上数据集中出现的情况,学习的目的是泛化,即通过对训练集中的瓜的学习以获得对没见过的瓜进行判断的能力。学习过程可以看作一个在所有假设组成的空间中进行搜索的过程,而搜索目标是找到与训练集匹配的假设,即能够将训练集中的瓜判断正确的假设。
所以上图,其中,色泽有青绿、乌黑、浅白3种取值,根蒂有蜷缩、稍蜷、硬挺3种取值,敲声有浊响、清脆、沉闷3种取值。
那么假设空间由形如 “(色泽=?) ∧ (根蒂=?) ∧ (敲声=?)” 的所有假设组成。
除了考虑属性色泽、根蒂、敲声分别有3 、3、3种可能取值,还要考虑到一种属性可能无论取什么值都合适(用通配符*表示),另外有一种情况就是好瓜这个概念根本不成立(用∅表示)
所以假设空间的大小为:(3 + 1)×(3 + 1)×(3 + 1)+ 1 = 65 。
如图为此西瓜问题的假设空间
【机器学习西瓜书阅读笔记】(一)基础概念_第3张图片
当然笔者在<深度之眼>官方上看到一个比较通俗理解的解释,如下
【机器学习西瓜书阅读笔记】(一)基础概念_第4张图片
我们需要在模型训练过程中需要从一些候选方案中得到g,所以假设空间也就是候选方案,也就是g的候选集合。

版本空间

关键在于模型训练的方案。不同的模型方案,可以搜索到不同的假设,这个假设的集合叫做版本空间。以上西瓜训练集的版本空间如下
【机器学习西瓜书阅读笔记】(一)基础概念_第5张图片

NFL没有免费午餐定理

【机器学习西瓜书阅读笔记】(一)基础概念_第6张图片
书上这图真的说明了全部!讨论曲线的平滑性,假设越平滑意味着越简单。上图就解释了NFL,不存在a算法一定比b算法好,而且它们的期望性是相同的!没有最好的算法,只有最合适的算法。

参考文献

《机器学习》周志华著
深度之眼官方ppt

你可能感兴趣的:(#,周志华《机器学习》阅读笔记,机器学习,西瓜书)