西瓜书第一章与第二章

本文章用来记录自己学习西瓜书时的笔记,方面之后的重温复习。

Cha1 绪论

1.1 引言

  • 机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。
  • 机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型”(model)的算法,即“学习算法”(learning algorithm).
  • 计算机科学是研究关于“算法”的学问,那么类似的,可以说机器学习是研究关于“学习算法”的学问。

1.2 基本术语

  • 一组记录的集合称为一个“数据集”(data set),其中每条记录是关于一个事件或对象的描述,称为一个“示例”(instance)“样本”(sample). 反应时间或对象在某方面的表现或性质的事项,称为“属性”(attribute)“特征”(feature);属性上的取值,称为“属性值”(attribute value). 属性张成的空间称为“属性空间”(attribute space)“样本空间”(sample space)或“输入空间”。
  • 一般地,令 \small D=\left \{ x_{1},x_{2},... ,x_{m}\right \} 表示包含m个示例地数据集,每个示例由d个属性描述,则每个示例\small x_{i}= \left (x _{i1} ; x_{i2} ; ... ; x_{id}\right )是d维样本空间\small \chi中地一个向量,\small x^{i}\small \in\small \chi ,其中\small x_{ij}\small x_{i}在第j个属性上地取值,d称为样本空间的维数。
  • 若我们预测的是离散值,此类学习任务称为“分类”(classification);若预测的是连续值,此类学习任务称为“回归”(regression)
  • “聚类”(clustering),有助于我们了解数据内在的规律,能为更深入地分析数据建立基础。在学习过程中使用的训练样本通常不拥有标记信息。
  • 根据训练数据是否拥有标记数据,学习任务可大致分为两大类:“监督学习”(supervised learning)“无监督学习”(unsupervised learning),分类和回归是前者的代表,而聚类则是后边后者的代表。
  • “泛化”(generalization)能力:学得模型适用于新样本的能力。

1.3 假设空间

博客参考:《机器学习》中的假设空间和版本空间_anqijiayou的博客-CSDN博客_假设空间

cha2 模型评估与选择

 2.1 经验误差与过拟合

  •  通常我们把分类错误的样本数占总样本总数的比例称为“错误率”(error rate),即如果在m个样本中有a个样本分类错误,则错误率\small E= a/m;相应地,\small 1-a/m称为“精度”(accuracy),即“精度 = 1-错误率”。
  • 更一般地,我们把学习器的实际预测输出与样本的真实输出之间地差异称为“误差”(error),学习器在训练集上的误差称为“训练误差”(training error)“经验误差”(empirical error),在新样本上的误差称为“泛化误差”(generalizatrion error).
  • “过拟合”(overfitting)-> 在训练样本中学的太好了。
  • “欠拟合”(underfitting)-> 在训练样本中学的不够好。
  • 测试集应尽量与训练集互斥,测试样本尽量不在训练集中出现,未在训练过程中使用。

2.2 评估方法

划分训练集与测试集的方法: 

2.2.1 留出法(hold-out)

  • “留出法”(hold-out)直接将数据集D划分为两个互斥的集合,其中一个集合作为训练集S,另一个集合作为测试集T,即\small D= S\cup T\small S\cap T=\varnothing.在S上训练出模型后,用T来评估其测试误差,作为对泛化误差的估计。
  • 需要注意的是,训练/测试集的划分要尽可能保持数据分布的一致性,避免因数据划分过程引入额外的偏差而对最终结果产生影响,例如在分类任务中至少要保持样本的类别比例相似。
  • 单次使用留出法得到的估计结果往往不够稳定可靠,在使用留出法时,一般要采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估结果。
  • 缺点:若令训练集S包含绝大多数样本,则训练出的模型可能更接近于用D训练出的模型,但是由于T比较小,评估结果可能不够稳定准确;若令测试集T多包含一些样本,则训练集S与D差别更大了,被评估的模型与用D训练出的模型相比可能有很大的差别,从而降低了评估结果的保真性。这个问题没有完美的解决方案,常见做法是将大约2/3~4/5的样本用于训练,剩余样本用于测试。

2.2.2 交叉验证法

  • “交叉验证法”(cross vaildation)先将数据集D划分为k个大小相似的互斥子集,即\small D=D_{1} \cup D_{2} \cup ...\cup D_{k}\small D_{i} \cap D_{j} = \varnothing (i\neq j). 每个子集\small D_{i}都尽可能保持数据分布的一致性,即从D中通过分层采样得到。然后,每次用k-1个子集的并集作为训练集,余下的那个子集作为测试集;这样就可获得k组训练/测试集,从而可进行k次训练和测试,最终返回的是这k个测试结果的均值。
  • 交叉验证法评估结果的稳定性和保真性在很大程度上取决于k的取值。
  • k折交叉验证通常要随机使用不同的划分重复p次,最终的评估结果是这p次k折交叉验证结果的均值。
  • 留一法的评估结果往往被认为比较准确,但是在数据量大的时候,开销太大。

2.2.3 自助法

  • 自助法,给定包含m个样本的数据集D,我们对它进行采样产生数据集D':每次随机从D中挑选一个样本,将其拷贝放入D',然后再将该样本放回到初始数据集D,使得该样本在下次采样时仍有可能被采到;这个过程重复执行m次后,我们就得到了包含m个样本的数据集D',这就是自助采样的结果。
  • 使用D'做训练集,D\D'用作测试集("\"用作集合的减法);
  • 自助法在数据集较小、难以有效划分训练/测试集时很有用;自助法能从初始数据集中产生多个不同的训练集,这对集成学习等方法有很大的好处。
  • 然而,自助法产生的数据集改变了初始数据集的分布,这会引入估计偏差,因此,在初始数据量足够时,留出法和交叉验证法更常用。

2.3 性能度量

回归任务最常用的性能度量是“均方误差”(mean squared error):

 \small E(f; D)=\frac{1}{m} \sum_{i=1}^{m} (f(x_{i})-y_{i})^2

 更一般的,对于数据分布\small D和概率密度函数\small p(\cdot ),均方误差可描述为:

\small E(f; D)=\int_{x\sim D}^{} (f(x)-y)^2 p(x)dx

 概率密度函数博客:理解概率密度函数_SIGAI_CSDN的博客-CSDN博客_概率密度函数

分类函数的性能度量:

对于样例集D,分类错误率定义为:

\small E(f ; D)=\frac{1}{m} \sum_{i=1}^{m} \mathbb{I}(f(x_{i})\neq y_{i})

精度则定义为:

\small acc(f ; D)=\frac{1}{m} \sum_{i=1}^{m} \mathbb{I} (f(x_{i})=y) =1 - E(f; D).

更一般的,对于数据分布\small D和概率密度函数\small p(\cdot ),错误率与精度可分别描述为:

\small E(f ; D)=\int_{x\sim D}^{} \mathbb{I}(f(x)\neq y)p(x)dx\small acc(f; D)=\int_{x\sim D}^{}\mathbb{I}(f(x)=y)p(x)dx=1-E(f;D).

2.3.2 查准率、查全率与F1

分类结果混淆矩阵
真实情况 预测结果
正例 反例
正例 TP(真正例) FN(假反例)
反例 FP(假正例) TN(真反例)

查准率P与查全率R分别定义为:

\small P=TP/(TP+FP)\small R=TP/(TP+FN)

F1度量:

\small F1=2\times P\times R/(P+R)

\small F_{\beta }度量:

\small F_{\beta } = (1+\beta ^{2})\times P\times R\setminus (\beta ^{2}\times P)+R

你可能感兴趣的:(机器学习)