吃瓜教程——第1,2章

第1章 :绪论

 

1.2基本术语

一批西瓜的数据:
(色泽=青绿;根蒂=蜷缩;敲声=浊响),
(色泽=乌黑;根蒂:稍蜷;敲声=沉 闷),
(色泽=浅白;根蒂 硬挺;敲声=清脆),
……

每对括号内代表一条记录, “=”意思是"取值为"。每条记录是关于一个事件或对象(这里是一个西瓜)的描述,称为一个"示例" (instance) 或"样本" (sample),用以反映事件或对象在某方面的表现或性质的事项。

例如

"属性" (attribute) 或"特征" (feature) :"色泽";"根蒂" ;"敲声"。

"属性值" (attribute value)即属性上的取值:"青绿"; "乌黑";"浅白“。

这组记录的 集合 称为一个"数据集" (data set)。
以"色泽" "根蒂" "敲声"作为三个坐标轴,把它们张成 一个用于描述西瓜的三维空间,每个西瓜都可在这个空间中找到自己的坐标位置,这由属性张成的空间称为"属性空间" (attribute space) 、"样本空间" (sample space) 或"输入空间".
由于空间中的每个点对应一个坐标向量,因此我们也把 一个示例称为一个 "特征向量" (feature vector)。

D = {x1,x2...xm}, 表示包含 m个示例的数据集,
每个示例由 d 个属性描述(例如上面的西瓜数据使用了3  个属性),
每个示例 xi = (xi1; xi2; . . . ; xid) 是  维样本空间 X 中的一个向量,xi∈ X ;.
其中 xij 是xi在第 j个属性上的取值(例如上述第3个西瓜在第2 个属性上的值是"硬挺" ),
称为样本xi的"维数" (dimensionality)。

通过执行某个学习算法从数据中学得模型的过程称为"学习" (lear ning) 或"训练" (training)。
训练过程中使用的数据称为"训练数据" (training data),
其中每个样本称为一个"训练 样本" (training sample)。
训练样本组成的集合称为"训练集" (training set)。
学得模型对应了关于数据的某种潜在的规律,因此亦称"假设" (hypothesis);
这种潜在规律自身,则称为"真相"或"真实" (ground-truth) ,学习过程就是为了找出或逼近真相。
本书有时将 模型 称为"学习器" (learner) ,可看作 学习算法在给定数据和参数空间上的实例化

要建立这样的关于"预测" (prediction) 模型,我们需获得训练样本的 "结果" 信息,
例如" ((色泽:青绿;根蒂=蜷缩; 敲声=浊响),好瓜)" .
这里关于示例结果的信息,"好瓜",称为"标记" (label);

拥有了标记信息的示例,则称为"样例" (example)。

(xi,yi) 表示第i个样例其中 yi∈ Y是示例 xi 的标记,

Y是所有标记的集合,亦称"标记空间" (label space)或"输出空间

若我们欲预测的是离散值,例如"好瓜" "坏瓜",此类学习任务称为 "分类" (classification);
若欲预测的是连续值,例如西瓜成熟度 0.95 0.37,此类学习任务称为"回归" (regression).
对只涉及两个类别的"二分类" (binary classification) 任务,通常称其中一个类为 "正 类" (positive class),另一个类为"反类" (negative class);
涉及多个类别时,则称为"多分类" (multi-class classification)任务。

一般地,预测任务是希望通过对训练集{( x 1,  y 1) , ( x 2 , y 2) ,..., ( x m, y m)} 进行学习,
建立一个从输入空间 到输出空间  的映射 : X   Y 。
对二分类任务,通常令 = {-1,+ 1} 或者  {0,1 };
多分类任务, I I >2;
对回归任务, Y = 为实数集。

  

学得模型后,使用其进行预测的过程称为"测试" (testing) ,
被预测的样本称为"测试样本" (testing sample).
例如在学得 后,对测试例  可得到其预测标记 y= f( x )。

根据训练数据是否拥有标记信息,划分为两大类"监督学习"和"无监督学习" (supervised learning) 和"无监督学习" (unsupervised learning) 。 "聚类" (clustering) 有助于我们了解数据内在的规律,能为更深入地分析数据建立基础。

机器学习的目标是使学得的模型能很好地适用于"新样本"。
学得模型适用于新样本的能力,称为"泛化" (generalization) 能力.
具有强泛化能力的模型能很好地适用于整个样本空间.

通常假设样本空间中全体样本服从一个未知"分布" (distribution) D ,我们获得的每个样本都是独立地从这个分布上采样获得的,即"独立同分布" (independent and identically distributed ,简称 i.i.d.). 一般而言,训练样本越多,我们得到的关于D 的信息越多,这样就越有可能通过学习获得具有强泛化能力的模型。

1.3 假设空间

归纳 (induction) 与演绎 (deduction )是科学推理的两大基本手段.
归纳 (induction)是从特殊到一般的"泛化" (generalization) 过程,即从具体的事实归结出一般性规
律。例如"从样例中学习"显然是一个归纳的过程,因此亦称"归纳学习" (inductive learning) 。
演绎(deduction )则是从一般到特殊的"特化" (specialization)过程,即从基础原理推演出具体状况。例如,在数学公理系镜中,基于一组公理和推理规则推导出与之相洽的定理,这是演绎。

归纳学习有狭义与广义之分。广义的归纳学习大体相当于从样例中学习,
而狭义的归纳学习则要求从训练数据中学得概念 (concept) ,因此亦称为"概念学习"或"概念形成"。概念学习技术目前研究、应用都比较少,因为要学得泛化性能好且语义明确的概念实在太困难了。
概念学习中最基本的是布尔概念学习。即对"是" "不是"这样的可表示 0/1 布尔值的目标概念学习。

我们可以把学习过程看作一个在所有假设 (hypothesis) 组成的空间中进行搜索的过程,搜索目标是找到与训练集"匹配"(fit)  的假设,即能够将训练集中的瓜判断正确的假设。假设的表示一旦确定,假设空间及其规模大小就确定了。

吃瓜教程——第1,2章_第1张图片

可以有许多策略对这个假设空间进行搜索,例如自顶向下、从一般到特殊, 或是自底向上、从特殊到一般,搜索过程中可以不断删除与正例不一致的假设、和(或)与反例→致的假设.最终将会获得与训练集一致(即对所有训练样本能够进行正确判断)的假设,这就是我们学得的结果.
现实问题中我们常面临很大的假设空间,但学习过程是基于有限样本训练集进行的,因此,可能有多个假设与训练集一致,即存在着一个与训练集一致的"假设集合",我们称之为"版本空间" (version space).

第2章:模型评估与选择

2.1经验误差与过拟合

通常我们把分类错误的样本数占样本总数的比例称为"错误率" (error rate) ,即如果在m个样本中有 α个样本分类错误,则错误率 E = α / m;
1- α / m 称为 "精度" (accur acy) ,即 " 精度  =1 - 错误率" 。
我们把学习器的实际预测输出与样本的真实输出之间的差异称为"误差" (error) ,
学习器在训练集上的误差称为"训练误差" (training error) "经验误差" (empirical error)
在新样本上的误差称为"泛化误差" (generalization error)。

我们实际希望,从训练样本中尽可能学出适用于所有潜在样本的"普遍规律",得到在新样本上能表现得很好的学习器。然而,当学习器把训练样本学得"太 好"了的时候,很可能巳经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,这样就会导致泛化性能下降这种现象在机器学习中称为 "过拟合" (overfitting).导致过拟合其中最常见的情况是由于学习能力过于强大,
以至于把训练样本所包含的不太一般的特性都学到了。过拟合是机器学习面临的关键障碍,各类学习算法都必然带有一些针对过拟合的措施。然而 过拟合是无法彻底避免的,我们所能做
的只是"缓解'气或者说减小其风险.

与"过拟合"相对的是"欠拟合" (underfitting) ,这是指对训练样本的一般性质尚未学好。欠拟合则通常是由于学习能力低下而造成的欠拟合比较容易克服,例如在决策树学习中扩展分支、在神经网络学习中增加训练轮数等。

吃瓜教程——第1,2章_第2张图片

机器学习 中的" 模型选 择" ( mode l selection ) 的理想的 解决方 案是 对候选模型的泛化误差进行 评估, 然后 选择 泛化误 差最 小的那个模 型。
然而 们无法直接获得泛化误差,而训练误差又由于过拟 合现象的存在 而不 作为标 准。

 

2.2评估方法​​​​​​​

通常, 我们 可通过实验测试来对 学习器的泛 化误 差进行评估进 而做出选择。即 使 用一个 "测试集 (testin g set) 来 测试 学习器对新样本 的判别能 力(测试集与训练集尽可能互斥),然后以测试集 上的"测试误差" (testi ng error) 作为 泛化误差的 近似。

2.2.1 留出法

"留出法" (hold-out) 直接将数据集划分为两个互斥的集合,其中一个集合作为训练集 S,另一个作为测试集 T。即满足D = S ∪ T, S ∩ T = ∅。
通常留出法是将大约 2/3~ 4/5 样本用于训练,剩余样本用测试。
方法 :在 S 上训练出模型后,用 T 来评估其测试误差,作为对泛化误差的估计.

由于单次使用留出法得到的估计结果往往不够稳定可靠,在使用留出法时,一般要采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估结果。例如:进行 100 次随机划分,每次产生一个训练/测试集用于实验评估, 100 次后就得到 100 个结果,返回这 100 个结果的平均值。

训练/测试集的划分要尽可能保持数据分布的一致性,避免因数据划分过程引入额外的偏差而对最终结果产生影响,例如在分类任务中至少要保持样本的类别比例相似。
如果从采样(sampling) 的角度来看待数据集的划分过程,则保留类别比例的采样方式通常称为"分层采样" (stratified sampling). 例如通过对 进行分层采样而获得含 70% 样本的训练集 和含 30% 样本的测试集, 包含 500 个正例,  500 个反例,则分层采样得到的S应包含 350 个正例, 350 个反例。而 T  则包含 150 个正例和150个反例。

2.2.2 交叉验证法

"交叉验证法" (cross validation) 将数据集 D 分为 k 个大小相似的互斥子集,
即 D=D1∪D2∪…Dk,Di∩Dj=∅(i≠j),每个子集 Di尽可能保持数据分布的一致性,即从D中通过分层采样得到。然后,每次用 k-1 子集的并集作为训练集,余下 的那个子集作测试集;这样就可获得 k 组训练/试集,从而可进行 k 次训练和测试,最终返回的是 k个测试结果的均值。交叉验证法评估结果的稳定性和保真性在很大程上取决于k的取值,通常把交叉验证法称为 "k折交叉验证" (k-fold cross validation). k 最常用的取值10 ,此时称为10折交叉验证,其他常用 k 值还有 5,20 等.

吃瓜教程——第1,2章_第3张图片

留出法相似,将数据集D划分为k 个子集同样存在多种划 分方式.为减小因样本划分不同引入的差别,k 折交叉验 证通常 要随机使用不同的划分 重复 p 次。最终的评估 结果是这p次k 折交 叉验证结果 的均 值,例如常 见的有 "10次10 折交叉验证"(10次10 折交叉验证 法"与 " 100 次留 出法"都是进行了 100 次训 练/测试)。

当假定数 据集D中包含m样本,令 k=m 则得 到了交叉验证法的 个特例:
留一法( Leav e- One-Out ,简称 LOO)
因为 m 个样本只有唯一的方式划分为m 个子集一一每个子集包含一个样本,因此留一法 不受随机样 划分方式的影响。留一法使用的训练集与初始数据集相比只少了一个样本,这就使得 在绝大多数情况下,留一法中被实际评估的模型与期望评估的用训练出的模型很相似。因此,留一法的评估结果往往被认为比较准确。然而, 留一法也有其缺陷:在数据集比较大时,训练个模型的计算开销可能是难以忍受的。

 

2.2.3 自助法

"自助法" (bootstrapping) 它直接以自助采样 (bootstrap sampling) 为基础,   给定包含m 个样本的数据集D,我们对它进行采样产生数据集 D': 每次随机从D 中挑选一个样本,将其拷贝放入 D',  然后再将该样本放回初始数据集D 中,使得该样本在下次采样时仍有可能被采到; 这个过程重复执行m次后,我们就得到了包含m个样本的数据集 D' ,这就是自助采样的结果。显然D 中有一部分样本会在 D' 中多次出现,而另一部分样本不出现。可以做一个简单的估计,样本在m次采样中始终不被采到的概率是 (1 -1/m )^m 取极限得到:

即通过自助采样,初始数据集中约有 36.8% 的样本未出现在采样数据集 D' 中.于是我们可将 D' 用作训练集, D\D' ("\"表示集合减法)用作测试集。这样,实际评估的模型与期望评估的模型都使用m个训练样本,而我们仍有数据总量约 1/3 的、没在训练集中出现的样本用于测试。这样的测试结果,亦称"包外估计" (out-of-bag estimate)。

自助法在数据集较小、难以有效划分训练/测试集时很有用;此外,自助法能从初始数据集中产生多个不同的训练集,这对集成学习等方法有很大的好处. 然而,自助法产生的数据集改变了初始数据集的分布,这会引入估计偏差。因此,在初始数据量足够时,留出法和交叉验证法更常用一些。

2.2.4 调参与最终模型

大多数学习算法都有些参数 (parameter) 需要设定,参数配置不同,学得模 型的性能往往有显著差别。因此,在进行模型评估与选择时,除了要对适用学习算法进行选择,还需对算法参数进行设定,这就是通常所说的"参数调节"或 简称"调参" (parameter tuning).
在不少应用任务中, 参数调得好不好往往对最终模型性能有关键性影响。

我们通常把学得模型在实际使用中遇到的数据称为测 试数据,为了加以区分,模型评估与选择中用于评估测试的数据集常称为"验证集" (validation set). 例如,在研究对比不同算法的泛化性能时,我们用测试集上的判别效果来估计模型在实际使用时的泛化能力,而把训练数据另外划分为训练集和验证集,基于验证集上的性能来进行模型选择和调参。

2.3 性能度量

对学习器的泛化性能进行评估,不仅需要有效可行的实验估计方法,还需要有衡量模型泛化能力的评价标准,这就是性能度量(performance measure).性能度量反映了任务需求,在对比不同模型的能力时,使用不同的性能度量往往会导致不同的评判结果;这意味着模型的"好坏"是相对的,什么样的模型是好的,不仅取决于算法和数据,还决定于任务需求。

在预测任务中,给定样例集 D = {(x1, y1) , (x2 , y2) ,..., (xm, ym)},其中yi是示例 xi 的真实标记。要评估学习器 f 的性能,就要把学习器预测结果 f(x) 与真实标记y进行比较。

回归任务最常用的性能度量是"均方误差" (mean squared error)

吃瓜教程——第1,2章_第4张图片

 2.3.1 错误率与精度

错误率和精度,这是分类任务中最常用的两种性能度量, 既适用于二分类任务,也适用于多分类任务。错误率是分类错误的样本数占样 本总数的比例,精度则是分类正确的样本数占样本总数的比例。对样例集D :

吃瓜教程——第1,2章_第5张图片

 2.3.2 查准率、查全率与F1

在信息检索 中,我们经常会关心"检索出的信息中有多少比例是用户感兴趣的" "用户感兴趣的信息中有多少被检索出来了",此时"查准率"(precision)与"查全率" (reca all) 是更为适用于此类需求的性能度量。对于二分类问题,可将样例根据其真实类别与学习器预测类别的组合划分为真正例(true positive) 、假正例 (false positive) 、真反倒 (true negative) 、假反例 (false negative) 四种情形,令 TP FP TN FN 分别表示其对应的样例数,则显然有 TP+FP+TN+FN= 样例总数。分类结果的"混淆矩阵" (confusion matrix) 如表 2.1 所示。

吃瓜教程——第1,2章_第6张图片

查准率和查全率是一对矛盾的度量.一般来说,查准率高时,查全率往往偏低;而查全率高时,查准率往往偏低.例如,若希望将好瓜尽可能多地选出来,则可通过增加选瓜的数量来实现,如果将所有西瓜都选上,那么所有的好瓜也必然都被选上了,但这样查准率(precision)就会较低;若希望选的瓜中好瓜比例尽可能高,则可只挑选最有把握的瓜,但这样就难免会漏掉不少好瓜,使得查全率(recaall)较低.通常只有在一些简单任务中才可能使查全率和查准率都很高.

很多情形,我们可根据学习器的预测结果对样例进行排序,排在前面 的是学习器认为"最可能 "是正例的样本,排在最后的则是学习器认为"最不可能"是正例的样本。按此顺序逐个把样本作为正例进行预测,则每次可以 计算出当前的查全率、 查准率以查准率为纵轴、查全率为横轴作图 ,就得到了查准率,查全率曲线,简称 "P- R线",显示该 曲线的图称为 "P- R图"。

吃瓜教程——第1,2章_第7张图片

"P- R图" 进行哪个模型更优的比较中,这时一 个比 较合理的判据是比较 "P-R"  曲线下面积的大小,它在 定程度上表征了学习器在查准率和查全率上取得 相对"双 高"的比例

"平衡点" (Break-Event Point ,简称 BEP)就是这样一个度量,它是" 查准率= 查全率"时的取值。如图 2.3 学习器C的BEP 0.64,而基于 BEP 的比较,可认为学习器 A优于B。

但BEP 还是过于简化了些,更常用的是 F1 度量:

吃瓜教程——第1,2章_第8张图片

在一些应用中,对查准率和查全率的重视程度有所不同。例如在商品推荐系统中,为了尽可能少打扰用户,更希望推荐内容确是用户感兴趣的,此时查准率更重要;而在逃犯信息检索系统中,更希望尽可能少漏掉逃犯,此时查全率更重要 。此时F1 度量的一般形式 --Fß  能让我们表达出对查准率/查全率的不同偏好,它定义为:

吃瓜教程——第1,2章_第9张图片

 其中 ß>0度量了查全率对查准率的相对重要性ß = 1 时退化为标准的 F1; ß> 时查全率有更大影响 ß < 1 时查准率有更大影响。

我们希望在 个二分类混淆矩阵上综合考察查准率和查全率时,
一种直接的做法是先在各混淆矩阵上分别计算出查准率和查全率,
记为 (P1,R1)(P2, R2) ,...,(Pn, Rn) ,  再计算平均值,
这样就得到"宏查准率" (macro-P) ,"宏查全率" (macro-R) ,以及相应的"宏 F1" (macro-F1):

吃瓜教程——第1,2章_第10张图片

还可先将各混淆矩阵的对应元素进行平均,得到 TP FP TN FN 平均值,再基于这些平均值计算出"微查准 "(micro-P) "徽查全率" (micro-R) 和"微 F1" (micro-F1):

你可能感兴趣的:(机器学习)