吃瓜教程 —— 第一、二章

一. 绪论

1. 初识机器学习

1.1 基本术语

  1. 数据集,作为数据记录的集合;
  2. 示例(样本),关于一个事件或对象地描述;
  3. 属性(特征),反映事件或对象在某方面的表现或性质的事项;
  4. 属性值,属性上的取值;
  5. 属性空间(样本空间、输入空间,属性张成的空间;
  6. 特征向量,空间中的每一个实例。

训练集的介绍
从数据中学得模型的过程称为"学习"或"训练", 这个过程通过执行某个学习算法来完成.训练过程中使用的数据称为"训练数据",其中每个样本称为一个“训练样本", 训练样本组成的集合称为"训练集".

1.2 建立关于“预测”的模型任务

  • 当预测对象为离散值,称为“分类”任务;当预测对象为连续值,称为“回归”任务;
  • 当预测对象涉及两个,称为“二分类”任务,其中一个为“正类”,另一个为“反类”;当预测对象为多个时,称为“多分类”任务;
  • 将数据集中的数据分成若干组,每组称为一个“簇”,即聚类任务。

1.3 学习任务的分类(按照训练集是否拥有标记信息分类)

  • 监督学习 —— 分类与回归的代表
  • 无监督学习 —— 聚类的代表

1.4 科学推理的两大基本手段

  • 归纳

从特殊到一般的"泛化")过程,即从具体的事实归结出一般性规律,例如,从已有的样例中学习;

  • 演绎

从一般到特殊的"特化"过程,即从基础原理推演出具体状况,例如,公理和推理规则的推导。

1.5 归纳偏好

机器学习算法在学习过程中对某种类型假设的偏好,称为“归纳偏好”或简称为“偏好”;
“奥卡姆剃刀”(Occam’s razor)是一种常用的、自然科学研究中最基本的原则,即"若有多个假设与观察一致,则选最简单的那个”。

二. 模型评估与选择

1. 经验误差与过拟合

1.1 基本术语

  1. 错误率,分类错误的样本数占样本总数的比例;
  2. 误差,学习器的实际预测输出与样本的真实输出之间的差异称;
  3. “训练误差"或"经验误差”,学习器在训练集上的误差;
  4. 泛化误差,在新样本上的误差。

1.2 “过拟合”与“欠拟合”

  • 过拟合,由于学习能力过于强大,以至于把训练样本所包含的不太一般的特性都学到了;
  • 欠拟合,由于学习能力低下而造成的。

2. 评估方法

2.1 留出法

留出法(hold-out)直接将数据集D划分为两个互斥的集合,其中一个集合作为训练集S,另一个作为测试集T,即D= SUT, S∩T= ∅ .在S上训练出模型后,用T来评估其测试误差,作为对泛化误差的估计。

常见做法:将大约2/3 ~ 4/5的样本用于训练,剩余样本用于测试

注意:

  1. 训练/测试集的划分要尽可能保持数据分布的一致性,避免因数据划分过程引入额外的偏差而对最终结果产生影响;
  2. 在给定训练/测试集的样本比例后,仍存在多种划分方式对初始数据集D进行分割.

2.2 交叉验证法

“交叉验证法”先将数据集D划分为k个大小相似的互斥子集。每个子集Di都尽可能保持数据分布的一致性,即从D中通过分层采样得到。然后,每次用k-1个子集的并集作为训练集,余下的那个子集作为测试集;这样就可获得k组训练/测试集,从而可进行k次训练和测试。
通常把交叉验证法称为“k折交叉验证”。k最常用的取值是10,此时称为10折交叉验证;其他常用的k值有5、20等。
吃瓜教程 —— 第一、二章_第1张图片

2.3 自助法

“自助法”以自助采样法为基础. 给定包含m个样本的数据集D,我们对它进行采样产生数据集D:每次随机从D中挑选一个样本,将其拷贝放入D’,然后再将该样本放回初始数据集D中,使得该样本下次采样时仍有可能被采到;这个过程重复执行m次后,我们就得到了包含m个样本的数据集D’,这就是自助采样的结果。

注意:

  1. 自助法在数据集较小、难以有效划分训练/测试集时很有用;此外,自助法能从初始数据集中产生多个不同的训练集,这对集成学习等方法有很大的好处.
  2. 自助法产生的数据集改变了初始数据集的分布,这会引入估计偏差.因此,在初始数据量足够时,留出法和交叉验证法更常用一些.

2.4 调参与最终模型

大多数学习算法都有些参数需要设定,参数配置不同,学得模型的性能往往有显著差别,因此,在进行模型评估与选择时,除了要对适用学习算法进行选择,还需对算法参数进行设定,这就是通常所说的“参数调节”或简称“调参”.

3. 性能度量

3.1 错误率与精度

错误率是分类错误的样本数占样本总数的比例;
精度则是分类正确的样本数占样本总数的比例。

3.2 查准率、查全率与F1

与错误率、精度等的区别个人感觉类似概率论中的条件概率。
对于二分类问题,可将样例根据其真实类别与学习器预测类别的组合划分为真正例TP、 假正例FP、 真反例TN、假反例FN四种情形,则显然有TP+ FP+TN+ FN =1样例总数。分类结果的“混淆矩阵”(confusion matrix).
吃瓜教程 —— 第一、二章_第2张图片

注意:
查准率和查全率是一对矛盾的度量.一般来说,查准率高时,查全率往往偏低;而查全率高时,查准率往往偏低.

综合考虑查准率、查全率的性能度量
“平衡点”(Break-Event Point,简称BEP),它是"查准率=查全率"时的取值.
但平衡点BEP还是过于简化了些,更常用的是F1度量:
在这里插入图片描述
F1度量的一般形式–Fß’能让我们表达出对查准率/查全率的不同偏好,它定义为
在这里插入图片描述
其中 ß >O 度量了查全率对查准率的相对重要性. ß = 1 时退化为标准的F1; ß > 1时查全率有更大影响;ß < 1时查准率有更大影响.

你可能感兴趣的:(机器学习,机器学习)