【机器学习】啃“瓜”笔记001:啃“西瓜书+南瓜书”——第1章 绪论

文章目录

  • 啃"瓜One"——绪论
    • 1.1 前言
      • 1.1.1 机器学习
      • 1.1.2 深度学习
    • 1.2基本术语
      • 1.2.1 数据
      • 1.2.2 训练
      • 1.2.3 预测
      • 1.2.4 学习任务
    • 1.3假设空间
    • 1.4归纳偏好
      • ❄️1.4.1背景❄️
      • ❄️1.4.2 归纳偏好❄️
      • ❄️1.4.3 奥尔姆剃刀❄️
      • ❄️1.4.4 "没有免费午餐"定理( N F L NFL NFL定理)❄️
    • 1.5发展历程
    • 1.6应用现状
    • 写在最后的总结

啃"瓜One"——绪论

1.1 前言

本篇文章用于记录啃“瓜”的第1章 绪论部分,整个篇幅依据于原版的周志华老师著作的西瓜书内容。文章记录仅作用于后续的复习和回顾,如有错误,请君不吝告知,不胜感激。

1.1.1 机器学习

  • 解释:通过计算手段,从数据中学习规律,以改善系统自身的性能
  • 研究内容:在计算机中,从数据中产生模型的算法,即“学习算法”

1.1.2 深度学习

  • 解释:机器学习研究中的分支,更进一步表示为“神经网络”分支的进一步研究

1.2基本术语

1.2.1 数据

☀️数据集

  • 解释: 包含有针对某个应用场景所采集的全部数据,如西瓜数据集、莺尾花数据集等等
  • 数学符号表示 D = { x 1 , x 2 , . . . , x m } D=\{\boldsymbol{x_1}, \boldsymbol{x_2}, ..., \boldsymbol{x_m}\} D={x1,x2,...,xm},其中 m m m表示有数据量

☀️样本

  • 解释: 数据集中的每一条记录,是对一个对象或者事件的描述,如数据集中的 x i \boldsymbol{x_i} xi表示第 i i i个样本
  • 别称: 示例

☀️特征

  • 解释: 反映对象或者事件在某方面的表现或者性质通俗解释就是采集的数据对象所拥有的特征
  • 举例: 西瓜数据集中每个样本有3个特征,分别为“色泽、根蒂以及敲声”,这3个特征表示西瓜的独有属性
  • 符号表示: x i = ( x i 1 ; x i 2 ; . . . x i j . . . ; x i d ) \boldsymbol{x_i}=(x_{i1};x_{i2};...x_{ij}...;x_{id}) xi=(xi1;xi2;...xij...;xid)表示样本 x i \boldsymbol{x_i} xi d d d个属性,其中 x i j x_{ij} xij表示样本 x i \boldsymbol{x_i} xi的第 j j j个属性
  • 别称: 属性

☀️特征值

  • 解释: 每一个特征进行具体的取值
  • 举例: 还是数据集, x i 1 = x_{i1}= xi1=青绿,表示样本 x i \boldsymbol{x_i} xi第1个属性"色泽"对应的属性值为青绿,依次类比其他属性值也是如此
  • 别称: 属性值

☀️样本空间

  • 解释: 属性张成的空间称为“样本空间”,简单理解为:样本所具有的特征表示维度,所有维度构成样本空间,符号表示为 X \boldsymbol{\mathcal{X}} X

  • 特征向量: 样本空间中每一个坐标向量,即每一个样本,符号表示为 x i = ( x i 1 ; x i 2 ; . . . x i j . . . ; x i d ) \boldsymbol{x_i}=(x_{i1};x_{i2};...x_{ij}...;x_{id}) xi=(xi1;xi2;...xij...;xid)

  • 别称: 属性空间或者输入空间

1.2.2 训练

  • 训练数据: 训练过程中使用的数据(数据集),其中每一个样本称为“训练样本”
  • 训练集: 由所有"训练样本"构成的数据集
  • 假设: 数据中存在的某种规律,这种规律本身即为“真相”或者“真实”,比如数据集中,假设色泽=青绿、根蒂=蜷缩、敲声=浊响属于好瓜
  • 学习过程或训练过程: 利用已有的数据集,通过不断训练模型(或称为“学习器”),使得模型能不断找出或逼近真相

1.2.3 预测

  • 标记: 表示样本的结果信息,如好瓜、坏瓜

  • 样例: 拥有标记信息的样本称为"样例",若将标记看作为对象本身的一部分,则"样例"=“样本

    • 符号表示: 使用 ( x i , y i ) (\boldsymbol{x_i}, y_i) (xi,yi)表示第 i i i个样例,其中 y i ∈ Y y_i \in \boldsymbol{\mathcal{Y}} yiY, Y \boldsymbol{\mathcal{Y}} Y 表示所有标记的集合(标记空间或者样本空间)
  • 测试样本: 被预测的样本

1.2.4 学习任务

  • ML中主要包含有两类学习Mask:监督学习、无监督学习

☀️监督学习

  • 监督学习中包含有分类和回归

  • 分类任务

    • 解释: 模型预测的为离散值,例如“好瓜”、“坏瓜”
    • 类型: 二分类任务、多分类任务
  • 回归任务

    • 解释: 模型预测的为连续值,如西瓜成熟度0.95、0.37

☀️无监督学习

  • 无监督学习中包含有聚类

☀️补充说明

  • 泛化: 学得的模型适用新样本的能力,这也是生成或优化模型的方向
  • 独立同分布: 假设样本空间服从一个未知"分布" D D D,"喂"进模型的数据都是独立的从这个分布中获取

1.3假设空间

☀️演绎

  • 解释:一般到特殊的"特化",即从基本原理推演出具体状况,如数学中从公里到定理的推导过程

☀️归纳

  • 解释:特殊到一般的"泛化",即从具体的事实归纳出一般性规律,如ML中主流技术"从样例中学习"显然是归纳过程(归纳过程称为"归纳学习")
  • 归纳学习
    • 广义解释: 类似于从“从样例中学习”
    • 狭义解释: 从训练数据中学得概念,因此也称为“概念学习"或者"概念形成”

☀️其他内容

  • 假设空间: 样本特征所有的可能性取值的组合

  • 学习过程的另一种解释: 在所有的假设组成的空间(即,假设空间)中进行搜索的过程,搜索与训练集"匹配"的假设,即能够将训练集中的瓜判断正确的假设

  • 搜索过程: 删除与正例不一致的假设(或与反例一致的假设 )

  • 版本空间: 在搜索过程中,存在着多个假设与训练集一致,由所有满足条件的假设组成的"假设集合,即为"版本空间"

  • 举例"版本空间"
    【机器学习】啃“瓜”笔记001:啃“西瓜书+南瓜书”——第1章 绪论_第1张图片

1.4归纳偏好

❄️1.4.1背景❄️

  • 通过学习过程,我们获得针对某个问题的版本空间,而版本空间中可能存在多个假设,我们该如何选择最优的假设(或模型)呢?

❄️1.4.2 归纳偏好❄️

  • 定义: 机器学习算法在学习过程中对某种类型假设的偏好(或重视度),称为"归纳偏好"或"偏好"
  • 特性: 任何有效的机器学习算法必有其"自身的归纳偏好",否则会由于"等效假设"原因,模型无法产生正确的学习结果
  • 进一步理解: "归纳偏好"是学习算法自身可能庞大的假设空间中假设进行选择启发性和价值观
  • 注意: "归纳偏好"依赖于某种领域知识,而非特征选择(注:特征选择,基于训练样本的分析确定重视哪一种特征)
  • “归纳偏好” = 学习算法自身所做出的关于"什么样的模型更好"的假设

❄️1.4.3 奥尔姆剃刀❄️

  • 应用背景: 我们希望找到一个一般性原则,引导学习算法确定“正确性""归纳偏好”
  • 解释: 若有多个假设与观察一致,则选择最简单的那个
  • 问题: 这个最简单该如何衡量呢?

❄️1.4.4 "没有免费午餐"定理( N F L NFL NFL定理)❄️

【机器学习】啃“瓜”笔记001:啃“西瓜书+南瓜书”——第1章 绪论_第2张图片

  • 结论: 学习算法 L a 、 L a \mathcal{L}_a、\mathcal{L}_a LaLa基于不同归纳偏好分别产生的曲线 A A A和曲线 B B B,在某些问题中(图a)学习算法 L a \mathcal{L}_a La要比学习算法 L b \mathcal{L}_b Lb好,但必然存在,在那里(理解为其他的数据域,即问题情景中) L a \mathcal{L}_a La要比 L b \mathcal{L}_b Lb好,该结论适用于所有的算法

  • N F L NFL NFL定理证明:

    • 证明的过程参考南瓜书讲解,初学也建议跳过,等学完后面获取先验知识,在回顾头来学习

    • **学习算法 L a \mathcal{L}_a La**在训练集 X \boldsymbol{X} X外的所有样本的误差为:
      在这里插入图片描述
      其中 X \boldsymbol{\mathcal{X}} X表示样本空间, h h h表示满足训练集 X \boldsymbol{X} X的假设

    • 考虑二分类问题,所有可能真实目标函数 f f f(满足: X ↦ { 0 , 1 } \boldsymbol{\mathcal{X}} \mapsto \{0,1\} X{01})按均匀分布对误差求和,有
      【机器学习】啃“瓜”笔记001:啃“西瓜书+南瓜书”——第1章 绪论_第3张图片

    • 可以发现,总误差与学习算法无关!也就是不考虑学习算法 L \mathcal{L} L的性能和偏好,它们的期望性能相同

  • N F L NFL NFL定理前提:

    • 所有的"问题"出现的机会相同,或所有的"问题"具有相同的重要性
  • 总结: 关于"什么样的模型更好"的问题,我们不能泛泛而谈,要具体问题具体分析

1.5发展历程

☀️机器学习的由来

  • 前半部分主要介绍机器学习产生,以及不断发展壮大到成为一个独立的学科领域的过程

☀️机器学习的发展

  • 后半部分主要介绍介绍ML中主流技术的在各个时期的演进过程
    • 符号主义学习(二十世纪八十年代)
    • 基于神经网络的连接主义学习(二十世纪九十年代中期前)
    • 统计学习(二十世纪九十年代中期)
    • 深度学习(二十一世纪初)

1.6应用现状

  • 讨论机器学习在工业生活中的实际性应用,且举例验证机器学习应用的成果,如智能驾驶、政坛选举等
  • ML在信息科学领域和自然科学领域都存在举足轻重的 f u n c t i o n function function

写在最后的总结

  • 从出发,引申出ML的定义和概念
  • 继续以数据集为例子,介绍数据、训练、预测、学习任务中的基本术语和概念
  • 通过数据集的实例,介绍如何"从样例中学习",包含有:归纳、假设空间、学习过程、搜索过程、版本空间等内容
  • 从"如何选择版本空间中的假设"出发,引发出学习算法自身归纳偏好问题,讲解奥拉姆剃刀和 N F L NFL NFL定理
  • 总结: 在进行模型最优的选择中,我们要具体问题具体分析

㊗️君看后有所收获!欢迎您不吝赐教!

继续加油,冲!

你可能感兴趣的:(#,啃“西瓜书+南瓜书”内容,机器学习,人工智能)