西瓜书第一章与第二章学习笔记

学习目标:

学习西瓜书第一章与第二章


学习内容:

第一章 绪论

1.1基本术语

模型:泛指从数据中学得的结果(机器学习得到的成果)
记录:(色泽=青绿;根蒂=卷缩;敲声=浊响),(色泽=乌黑;根蒂=稍卷;敲声=沉闷)
数据集:一组记录的集合称为一个数据集
实例,样本:指数据集中的每一条记录,每一条记录是关于一个事件或对象的描述(一个西瓜)
属性,特征:反映事件或对象在某方面的表现或性质的事项。例如“色泽”、“根蒂”、“敲声”
属性值:属性上的取值。例如“青绿”、“乌黑”等
属性空间,样本空间,输入空间:指属性张成的空间,例如把“色泽”、“根蒂”、“敲声”作为三个坐标轴,则他们张成一个三
… 维空间,这个就称为属性空间。每个西瓜都可以在这个空间中找到自己的位置
特征向量:由于空间中每个点都对应一个坐标向量,因此把一个示例称为一个特征向量

学习,训练:从数据中学得模型的过程
训练数据:训练过程使用的数据
训练样本:训练数据中的每个样本称为一个训练样本
训练集:训练样本组成的集合

分类:欲预测的是离散值。例如“好瓜”、“坏瓜”
回归:欲预测的是连续值。例如“0.95”、“0.37”
二分类:只涉及两个类别的分类,通常称其中一个类为“正类”,另一个类为“反类”
多分类:涉及多个类别的分类
预测任务:通过对训练集进行学习,建立一个从输入空间到输出空间的映射

测试:学得模型后,使用其进行预测的过程成为预测,被测试的样本称为“测试样本”
聚类:即将训练集中的西瓜分成若干组,每组称为一个“簇”,这些自动形成的簇可以对应一些潜在的概念划分

监督学习与无监督学习:根据训练数据是否拥有标记信息,可将学习任务划分为这两类
… 分类和回归是前者的代表,而聚类是后者的代表

泛化:学得模型使用于新样本的能力称为泛化能力。
… 机器学习的目标是使学得的模型能很好地适用于“新样本”,而不是仅仅在训练样本上工作的很好

1.2假设空间

假设空间可以简单的理解为所有的假设情况
我们可以把学习过程看成一个在所有假设组成的空间中进行搜索的过程,所有的目标就是找到与训练集“匹配”的假设

版本空间:可以有多个假设与训练集一致,即存在一个与训练集一致的“假设集合”,称之为版本空间

第二章 模型评估与选择

2.1 经验误差与过拟合

错误率:分类错误的样本数占样本总数的比例。 E=a/m 即m个样本中有a个样本分类错误
精度:精度=1-错误率 即 1-a/m
误差:学习器的实际预测输出与样本的真实输出之间的差异称为“误差”
训练误差,经验误差:学习器在训练集上的误差
泛化误差:学习器在新样本上的误差
我们希望得到泛化误差小的学习器。然而我们事先不知道新样本是什么样的,实际能做的是使经验误差最小化
过拟合:学习器将训练样本自身的一些特点当作了潜在样本具有的一般性质,这样会导致泛化能力下降
欠拟合:指学习器对训练样本的一般性质尚未学习好
西瓜书第一章与第二章学习笔记_第1张图片

2.2 评估方法

2.2.1 留出法

概念:直接将数据集D划分为两个互斥的集合,其中一个集合作为训练集S,另一个作为测试集T。
… 在S上训练处模型后,用T来评估其测试误差,作为对泛化误差的估计。
注1:训练/测试集的划分要尽可能保持数据分布的一致性,例如在分类任务中至少要保持样本的类别比例相似。
注2:即使给定训练/测试集的样本比例后,仍存在多种划分方式对初始数据集D进行分割。

2.2.2 交叉验证法

概念:先将数据集D划分为k个大小相似的互斥子集,每个子集都尽可能保持数据分布一致性,即从D中通过分层采样得到。
… 然后每次用 k-1 个子集的并集作为训练集,余下的那个子集作为测试集。这样就可以得到k组训练/测试集,从而可进行
… k次训练和测试,最终返回的是这k个测试结果的均值。
留一法:假定数据集D中包含m个样本,令k=m,即每一次取一个样本作为测试集。
缺点:在数据集比较大是,训练模型的开销可能是难以忍受的。

2.2.3 自助法

概念:给定包含m个样本的数据集D,对它进行采样产生数据集D,每次随机从D中挑选一个样本,将其拷贝到D中,然后
… 在将样本放回初始数据集D中,使得该样本在下次采样时仍可能被采到。重复m次,就得到包含m个样本的D
注1:自助法在数据集较小、难以有效划分训练/测试集时很好用。因此,自助法能够从初始化数据集中产生多个不同的
… 训练集,这对集成学习等方法有很大的好处。
缺点:自助法产生的数据改变了初始数据集的分布,这回引入估计偏差。

2.3 性能度量

性能度量:衡量模型泛化能力的评价标准。
错误率:指分类错误的样本占样本总数的比例。
精度:分类正确的样本数占样本总数的比例。

查准率:简单理解为Web搜索中检索出的信息有多少比例是用户感兴趣的。
查全率:简单理解为Web搜索中用户感兴趣的信息中有多少被检索出来了。
查全率与查准率是一对矛盾的度量。一般来说,查准率高时,查全率往往偏低。而查全率高时,查准率往往偏低。


学习时间:

2022年6月13日到14日


学习产出:

  • CSDN 技术博客 1 篇

你可能感兴趣的:(西瓜书,学习,机器学习,聚类)