10月Datawhale组队学习:Task01:概览西瓜书+南瓜书第1、2章

       边学习边思考边记录边整理,抱着兴趣浏览,带着问题阅读,做着习题强化,理清教材的思维脉络,争取早日将机器学习知识体系化!

第1章 绪论



1.1 引言

引例:好西瓜的判定

关键知识点: 机器学习(machine learning)、模型(model)、学习算法(learning algorithm)

1.2 基本术语

示例(instance)/样本(sample):一个事件或对象,在空间中又可称为特征向量(feature vector)

属性(attribute)/特征(feature):反映事件或对象在某方面的表现或性质的事项

属性值(attribute value):属性上的取值

属性空间(attribute space)/样本空间(sample space)/输入空间:属性张成的空间

数据集(data set):训练集(training set)、测试集(testing set)

分类(classification):预测离散值,有监督学习

回归(regression):预测连续值,有监督学习

聚类(clustering):将输入数据分组,无监督学习

泛化(generalization):学得模型适用于新样本的能力

1.3 假设空间

关键词:

假设空间(hypothesis space):所有假设组成的空间

版本空间(version space):与训练集一致的“假设集合”

内容点睛:

1.假设空间的规模大小为4x4x4+1=65,虽然“色泽”“根蒂”“敲声”分别都有3种取值,但还需考虑通配符的情况,因此每个属性的取值有4种情况。除此之外,极端情况、即“好瓜”概念根本不成立也应考虑在内,因此用∅表示这个假设,将其纳入到假设空间当中。

1.4 归纳偏好(暂时略)


习题1.1

训练集结果:(色泽=青绿;根蒂=蜷缩;敲声=浊响)

版本空间:(色泽=青绿;根蒂=*;敲声=*)(色泽=*;根蒂=蜷缩;敲声=*)(色泽=*;根蒂=*;敲声=浊响)

问题:为什么三个属性值不能同时为通配符?

答:编号4说明“不是好瓜↔(色泽=乌黑;根蒂=稍蜷;敲声=沉闷)”,故(色泽=*;根蒂=*;敲声=*)显然不符合要求。

第2章 模型评估与选择



2.1 经验误差与过拟合

关键词:

错误率(error rate):分类错误的样本数占样本总数的比例

精度(accuracy):精度=1-错误率

误差(error):

训练误差(training error)/经验误差(empirical error)——学习器在训练集上的误差

泛化误差(generalization)——在新样本上的误差

过拟合(overfitting):学习器将训练样本自身的一些特点当作所有潜在样本都会具有的一般性质。过拟合无法彻底避免,是机器学习面临的关键障碍。

欠拟合(underfitting):对训练样本的一般性质尚未学好。容易克服,例如在决策树学习中扩展分支、在神经网络学习中增加训练轮数等。

模型选择(model selection):学习算法+参数配置

2.2 评估方法

关键词:

测试集(testing set):概念同“训练集”。测试集应尽可能与训练集互斥。

测试误差(testing error):概念同“训练误差”,作为泛化误差的近似。

关键知识点:

D(数据集)=S(训练集)+T(测试集)

2.2.1 留出法(hold-out)

主要思路:

将数据集划分为两个互斥的集合,其中一个作为训练集S,另一个作为测试集T。在S上训练出模型后,用T评估其测试误差,作为对泛化误差的估计。

注意问题:

1.训练/测试集的划分要尽可能保持数据分布的一致性,比如在分类任务中采取“分层采样”的方式,保留类别比例;

2.给定训练/测试集样本比例后,仍存在多种划分方式对数据集D进行分割,因此一般要采用若干次随机划分/重复进行实验评估后取平均值作为留出法的评估结果;

3.从“偏差-方差”角度来理解,测试集小时,评估结果的方差较大;训练集小时,评估结果的偏差较大。对评估结果的保真性(fidelity)没有完美的解决方案,常见做法是将大约2/3~4/5的样本用于训练,剩余样本用于测试;

2.2.2 交叉验证法(cross validation)

主要思路:

将数据集D划分为k个大小相似的互斥子集,每个子集都尽可能保持数据分布的一致性,即从D中通过分层采样得到。然后每次用k-1个子集的并集作为训练集,余下的子集作为测试集,就可获得k组训练/测试集,从而可进行k次训练和测试,最终返回的是这k个测试结果的均值。

注意问题:

1.交叉验证法评估结果的稳定性和保真性在很大程度上取决于k的取值,故又将交叉验证法称为“k折交叉验证”(k-fold cross validation);

2.与留出法相似,子集有多种划分方式,为减小因样本划分不同而引入的差别,k折交叉验证通常要随即使用不同的划分方法p次,最终的评估结果是这p次k折交叉验证结果的均值;

3.交叉验证法的一个特例:留一法(Leave-One-Out),即每个子集只包含一个样本。其优点在于只比初始数据集少了一个样本,缺点在于计算开销在数据集很大的情况下过大;

2.2.3 自助法(bootstrapping)

主要思路:

以自助采样法(bootstrap sampling)为基础,每次从D中挑选一个样本,将其拷贝放入D’,然后再将该样本放回初始数据集D中,使得该样本在下次采样时仍有可能被采到。重复执行多次,得到规模与给定数据集一样大的新数据集。

注意问题:

1.初始数据集中约有36.8%的样本未出现在采样数据集中,这些样本可用于测试;

2.自助法适用于数据集较小,难以有效划分训练/测试集的情况;

3.缺点:自助法产生的数据集改变了初始数据集的分布,会引入估计偏差;

2.2.4 调参与最终模型

主要思路:

调参(parameter tuning)

注意问题:

1.算法有穷,参数配置无穷;

2.对每个参数需选定范围与变化步长;

3.模型在训练过程中要使用所有样本;

4.模型评估与选择中用于评估测试的数据集常被称为“验证集”(validation set)用测试集上的判别效果来估计模型在实际使用时的泛化能力,而把训练数据另外划分为训练集和验证集,基于验证集上的性能来进行模型选择和调参;

2.3 性能度量

性能度量:衡量模型泛化能力的评价指标,反映了任务需求。模型好坏不仅取决于算法和数据,还决定于任务需求。

预测任务:

回归任务:均方误差(mean squared error),分样本离散情况与连续情况

分类任务:见下

2.3.1 错误率与精度

定义:

错误率:分类错误的样本数占样本总数的比例

精度:分类正确的样本数占样本总数的比例

2.3.2 查准率、查全率与F1

对于二分类问题,可将样例根据其真实类别与学习器预测类别的组合划分为真正例(true positive)、假正例(false positive)、真反例(true negative)、假反例(false negative)四种情形。

查准率 :P = \frac{TP}{TP+FP}

查全率:P = \frac{TP}{TP+FN}

 P-R图、平衡点(Break-Even Point)

2.3.3 ROC与AUC(loading)

你可能感兴趣的:(机器学习)