西瓜书学习笔记(2021-12-28开始,进行中)

西瓜书

  • 1 绪论
    • 1.1引言
    • 1.2基本术语
    • 1.3假设空间
    • 1.4归纳偏好
  • 2 模型评估与选择
    • 2.1经验误差与过拟合

1 绪论

1.1引言

机器学习致力于研究“如何通过计算的方式,利用数据(经验)来改善系统自身的性能”。

机器学习形式化的定义:假设用 P P P来评估计算机程序在某任务类上的性能,若一个程序通过利用经验 E E E T T T中任务上获得了性能改善,则我们就说关于 T T T P P P,该程序对 E E E进行了学习

1.2基本术语

数据集data set:若干条数据记录的集合
样本sample/示例instance:每一条数据记录
属性attribute/feature:数据对象的某方面表现
属性值attribute value:数据对象在属性上的取值
属性空间attribute space/样本空间sample space/输入空间input space:属性张成的空间
特征向量feature vector:从属性空间上看,一个样本就是一个特征向量
学习learning/训练training:通过执行学习算法,从(训练)数据中学得模型的过程
假设hypothesis/学习器leaner:学得的模型。假设对应了数据的某种潜在规律
真相/真实ground-truth:数据的潜在规律本身
样例example:拥有标记label的样本。常常出现在预测类问题中。
根据训练数据是否有标记,学习任务可以分为:监督学习supervised learning和无监督学习unsupervised learning
监督学习中

  • 如果标记是离散值,则该类学习任务是分类问题。更特别的,如果标记只有两类,则是二分类问题。如果标记是两个以上的类,则是多分类问题
  • 如果标记是连续值,则该类学习任务是回归问题

无监督学习中有一类代表问题是聚类问题:自动将训练集数据进行簇划分。(但并非所有聚类都是无监督的,有标记信息的数据集也可以进行簇划分问题的探讨)

泛化能力generalization:模型适用于新样本(区别于训练样本)的能力。

1.3假设空间

学习过程可以看作在假设空间中搜索的过程。
假设的表示一旦确定,假设空间及其规模大小就确定了。
由于假设空间可能很大,而训练集可能较小,所以可能有多个假设与训练集一致,这些假设合称为"版本空间"。

1.4归纳偏好

虽然版本空间中有多个假设,但是学习算法必须产生唯一的模型/假设。所以学习算法有其归纳偏好,它反映了学习算法的价值观。
学习算法可采用的一个较常用的原则是奥卡姆剃刀原则

若有多个假设与观察一致,则选择最简单的那个。

“没有免费的午餐”定理(No Free Lunch Theorem):在视真实目标函数(真相) f f f均匀分布的情况下,不同的学习算法,即使有不同的归纳偏好,但它们关于真实目标函数 f f f的期望性能(在训练集外的误差)都相同。

但实际具体问题中,真相并不是均匀分布的,所以要根据具体问题(具体的真相),选择学习算法和其归纳偏好。另一方面,这说明:

脱离具体问题,学习算法之间无法比较好坏。

2 模型评估与选择

2.1经验误差与过拟合

你可能感兴趣的:(读书笔记,机器学习)