【机器学习】《机器学习》周志华西瓜书 笔记/习题答案 总目录
——————————————————————————————————————————————————————
傍晚小街路面上沁出微雨后的湿润,和熙的细风吹来,抬头看看天边的晚霞,嗯,明天又是一个好天气。走到水果摊旁,挑了个根蒂蜷缩、敲起来声音浊响的青绿西瓜,一边满心期待着皮薄肉厚瓢甜的爽落感,一边愉快地想着,这学期狠下了工夫,基础概念弄得清清楚楚,算法作业也是信手拈来,这门课成绩一定差不了!
正如我们根据过去的经验来判断明天的天气,吃货们希望从购买经验中挑选一个好瓜,那能不能让计算机帮助人类来实现这个呢?机器学习正是这样的一门学科,人的“经验”对应计算机中的“数据”,让计算机来学习这些经验数据,生成一个算法模型,在面对新的情况中,计算机便能作出有效的判断,这便是机器学习。
对于机器来说,经验是通过数据传达的。机器学习的主要研究内容就是从数据中产生模型的算法,也即学习算法。Mitchell给出一个更为形式化的定义,假设:
若该计算机程序通过利用经验 E在任务 T上获得了性能 P的改善,则称该程序对E进行了学习。
在本书中,模型泛指所有从数据中学得的结果,在别的文献中,也有对模型和模式作出区分的,模型指学得的全局性结果(比如一棵决策树),模式指学得的局部性结果(比如一条规则)。
要进行机器学习,首先要有数据,我们可以收集一组结构相同的记录,这组记录的集合就称为数据集。比如下面这个西瓜数据集:
编号 | 色泽 | 根蒂 | 敲声 |
---|---|---|---|
001 | 青绿 | 蜷缩 | 浊响 |
002 | 乌黑 | 稍蜷 | 沉闷 |
003 | 浅白 | 硬挺 | 清脆 |
接下来给出一些基本概念的定义:
数据集中的每条记录是对一个事件或对象(比如这里的西瓜)的描述,称为一个示例或者样本。
特别地,有时会把整个数据集称为一个样本,因为数据集可以看作是从样本空间中抽样所得,这时候就需要根据上下文信息来进行判断了。
反映事件或对象在某方面的表现或性质的事项,并由此可以进行区分,例如“色泽”、“根蒂”、“敲声”,称为属性或者特征。这些属性上的取值,例如“青绿”、“乌黑”、“浅白”,称为属性值。
由属性张成的空间称为属性空间、样本空间或者输入空间,比方说上面的表格中有3个属性 “色泽”、“根蒂”、“敲声”,我们可以把它们作为三个坐标轴张成一个用于描述西瓜的3维空间,每个西瓜都可以用空间中的一个点来表示,这个点对应于一个坐标向量,所以有时也把一个示例称为一个特征向量。
即数据集中每个样本拥有的特征数目,称为维数。该西瓜的例子维数为3,当维数非常大时,也就是现在说的“维数灾难”。
从数据中获得模型的过程称为学习或训练。在这个过程中使用的数据称为训练数据,里面的每个样本称为一个训练样本,也称训练示例或训练例,训练样本的集合就是训练集。
模型有时也称为学习器,可以看作一组参数的有序集合,能够把属性空间映射到输出空间上,也可以看做学习算法在给定数据和参数空间上的实例化。学得模型对应了关于数据的某种潜在的规律,因此称为假设。这种潜在规律自身称为真相或真实,学习过程就是为了找出或逼近真相。
——————————————————————————————————————————————————————
如果我们希望通过机器学习来实现预测(prediction),那么只有样本是不够的,要让机器明白怎样的样本会产生怎样的结果,还需要为每个样本设置标记,标记有可能是离散值(分类任务),也可能是连续值(回归任务)。
带标记的数据集如下:
编号 | 色泽 | 根蒂 | 敲声 | 标记 |
---|---|---|---|---|
001 | 青绿 | 蜷缩 | 浊响 | 好瓜 |
002 | 乌黑 | 稍蜷 | 沉闷 | 坏瓜 |
003 | 浅白 | 硬挺 | 清脆 | 坏瓜 |
标记指示的是对象的类别或者事件的结果,例如“好瓜”。样本和标记组合起来就是样例。所有标记的集合称为标记空间,也称为输出空间。
根据预测值的不同,可以把任务分为几种不同的类别。若预测的是离散值,比如“好瓜”,“坏瓜”,则该任务称为分类任务;若预测的是连续值,比如瓜的重量,则该任务称为回归任务;还有一种聚类任务,旨在基于某种度量将样本分为若干个簇(cluster),使得同一簇内尽量相似,不同簇间尽量相异。聚类任务不需要对样本进行标记。
特别地,只涉及两种类别的分类任务称为二分类任务(binary classification),通常称一个类为正类(positive class),另一个类为反类或者负类(negative class)。涉及到多个类别的分类任务就称为多分类任务(multi-class classification)。
学得模型后,使用模型进行预测新样本的这个过程称为测试。测试中使用到的样本称为测试样本,也称测试示例或测试例。
根据训练样本是否拥有标记信息,学习任务可以大致划分为两大类:需要标记的监督学习,不需要标记的无监督学习。前者的代表是回归和分类,后者的代表是聚类。
需要注意的是,机器学习的目标是使学得的模型能很好地适用于“新样本”,而不是仅仅在训练样本上工作得很好;即使在聚类这样的无监督学习任务,我们也希望学得的簇划分能适用于没在训练集中出现的样本。
学得模型适用于新样本的能力就称为泛化能力,具有强泛化能力的模型能够更好地适用于整个样本空间。
一般来说,训练集只占样本空间的很少一部分,我们仍希望它能够很好地反映整个样本空间的特性,否则就很难期望在训练集上学得的模型能在整个样本空间中都工作得很好。通常假设样本空间中的全体样本都服从于一个未知分布(distribution) D D D,我们获得的每个样本都是地从这个分布上采样获得的,即独立同分布(independent and identically distributed,简称 i . i . d . i.i.d. i.i.d.)。一般而言,训练样本越多,我们得到的关于 D D D的信息越多,越能反映该分布的特性,这样就越有可能通过学习获得具有强泛化能力的模型。
类似由样本构成的样本空间和由标记构成的标记空间,所有的假设共同构成了假设空间。我们可以把学习过程看作是一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集**匹配(fit)**的假设,即能够在训练集中的瓜判断正确的假设。
假设空间的规模有多大呢?举个例子,样本空间维度是3,也即每个样本由3个特征来表示。这三个属性可能的取值分别为3,3,3。那么假设空间的规模就是 4 × 4 × 4 + 1 = 65
,为什么呢?
因为除了可能的取值之外,还需要考虑到,也许“色泽”无论取什么值都合适,我们用通配符 ∗ * ∗ 来表示,例如“好瓜< - - - > (色泽= ∗ * ∗) 并集 (根蒂=蜷缩) 并集 (敲声=浊响)”,即好瓜是根蒂蜷缩,敲声浊响的瓜,什么色泽都行,此外,还需要考虑极端情况:有可能好瓜这个概念根本就不成立,世界上没有好瓜这种东西,我们用 ∅ \varnothing ∅假设,比方说,前面的假设都是假设怎样的瓜会是好瓜,而 ∅ \varnothing ∅假设 则对应于好瓜根本不存在。
有时候会出现多个假设都能匹配训练集的情形,即存在着一个与训练集一致的假设集合,我们称之为版本空间(version space)。版本空间是假设空间的子空间。有很多策略可以对这个假设空间进行搜索,不断删除与正例不一致的假设、和(或)与反例一致的假设。
通过学习得到的模型对应了假设空间中的一个假设。所以对于学习算法来说,要产生一个模型就意味着要从版本空间中挑选出一个假设。但是版本空间中的假设都和训练集一致,无法直接断定哪一个假设更好,然而对于一个具体的学习算法而言,它必须要产生一个模型,这时候学习算法的归纳偏好,简称偏好就会起到关键的作用。
注意区分偏好和特征选择,前者是基于某种领域知识而产生的,后者则是基于对训练样本的分析进行的。
偏好指的是,在多个假设等效时,学习算法会认为某一种假设更优,并选择这种假设来建立最终的模型。如果一个学习算法没有偏好,比方说每次随机地从版本空间中选择一个假设,则它所给出的结果是时好时坏,自相矛盾的。所以任何一个有效的学习算法都应当有自己的归纳偏好。
归纳偏好可看作学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或价值观,那么有没有一般性的原则来引导算法确立“正确性”偏好呢?一个常用的自然科学研究中最基本的原则是奥卡姆剃刀(Occam’s razor),用一句话概述就是:若有多个假设与观察一致,则选最简单的那个。注意,奥卡姆剃刀并不是唯一的准则,并且如何诠释“最简单”也是待考虑的,因为奥卡姆剃刀本身存在不同的诠释,使用奥卡姆剃刀原则并不平凡。
给定基于某种归纳偏好的算法产生的模型A和基于另一种归纳偏好的算法产生的模型B,有a时我们会注意到,A和B在不同的样本集上的表现各有好坏,有时候A的效果更好,有时候B的效果更好。甚至一个随机产生的模型都有可能在某个样本集上表现得优于我们精心设计的算法所产生的模型。怎样去定位这个问题呢?
书中使用NFL定理(No Free Lunch Theorem)来解答了这个问题,有一个关键点就是总误差与学习算法无关,如下:
当我们考虑样本空间的所有可能分布,并认为它们都以相同的概率出现或同等重要时,无论使用什么模型,造成的总误差都是相同的,期望性能是相同的,与学习算法无关!
但是现实中并不是这样的,我们只考虑样本空间服从同一种分布的情形。打个比方,模型A是精心设计的算法产生的,模型B则简单地设定为把任何样本预测为负类。那么对于按照样本分布抽样所得的测试集,模型A效果会比B好;但是如果只抽取负类样本作为测试集,则模型B优于A。显然这种情况下模型B没有任何意义,因为我们根本就不care全是负类这种分布!
所以说,NFL定理最重要的寓意,是让我们清楚地意识到,脱离具体问题,空泛地谈论“什么学习算法最好”毫无意义,因为若考虑所有潜在的问题,则所有学习算法都一样好。要谈论算法的相对优劣,必须要针对具体的学习问题! 学习算法自身的归纳偏好和问题是否相配,往往会起到决定性的作用。
关于发展历程和应用状况,属于阅读材料,所以这里不作详细的笔记了。这个小节再补充一点其他内容。
归纳(induciotn)和演绎(deduction) 是科学推理的两大基本手段,前者是从特殊到一般的泛化(generalization) 过程,即从具体的事实归结出一般性规律;后者则是从一般到特殊的**特化(specialization)**过程,即从基础原理推演出具体状况。举个例子:
在数学公理系统中,基于一组公理和推理规则推导出与之相洽的定理,这是演绎。
“从样例中学习”显然是一个归纳的过程,因此亦称之为归纳学习(inductive learning)。
归纳学习有广义和狭义之分。广义上的归纳学习大体上相当于从样例中学习;而狭义上的归纳学习则要求不仅从样例中学习,还要求从训练数据中学得概念(concept),因此也称为概念学习或概念形成。概念学习技术目前应用和研究都比较少,因为要学得泛化性能好且语义明确的概念实在太困难了,现实常用的技术大多都是产生黑箱模型,难以明白学得的是什么,只知道它确实有用。
机器学习是人工智能(artificial intelligence)研究发展到一定阶段的必然产物。
简要带过以下归纳学习(广义)的几大主流技术,在二十世纪八十年代,"从样例中学习"的一大主流是符号主义学习,其代表包括决策树(decision tree)和基于逻辑的学习。
典型的决策树学习以信息论为基础,以信息熵的最小化为目标,直接模拟了人类对概念进行判定的树形流程。决策树学习技术由于简单易用,到今天仍是最常用的机器学习技术之一.。ILP 具有很强的知识表示能力,可以较容易地表达出复杂数据关系,而且领域知识通常可方便地通过逻辑表达式进行描述。然而,成也萧何、败也萧何,由于表示能力太强,直接导致学习过程面临的假设宅间太大、复杂度极高。因此,问题规模稍大就难以有效进行学习,九十年代中期后这方面的研究相对陷入低潮。
二十世纪九十年代中期之前,“从样例中学习"的另一主流技术是基于神经网络的连接主义学习。连接主义学习在二十世纪五十年代取得了大发展,但因为早期的很多人工智能研究者对符号表示有特别偏爱,例如图灵奖得主ESimon 曾断言人工智能是研究"对智能行为的符号化建模”,所以当时连接主义的研究未被纳入主流人工智能研究范畴。尤其是连接主义自身也遇到了很大的障碍,正如图灵奖得主M. Minsky 丰11 S. Papert 在1969 年指出, (当时的)神经网络只能处理线性分类,甚至对"异或"这么简单的问题都处理小了。1983 年,J. J. Hopfield 利用神经网络求解"流动推销员问题"这个著名的NP 难题取得重大进展,使得连接主义重新受到人们关注。1986 年, D. E. Rumelhart 等人重新发明了著名的BP 算法,产生了深远影响.与符号主义学习能产生明确的概念表示不同,连接主义学习产生的是"黑箱"模型,因此从知识获取的角度来看,连接主义学习技术有明显弱点;然而,由于有BP 这样有效的算法,使得它可以在很多现实问题上发挥作用。事实上,BP 一直是被应用得最广泛的机器学习算法之一。连接主义学习的最大局限是其"试错性’p;简单地说其学习过程涉及大量参数,而参数的设置缺乏理论指导,主要靠于工"调参"夸张一点说,参数调节上失之毫厘,学习结果可能谬以千里。
二十世纪九十年代中期"统计学习" (statistical learning) 闪亮登场并迅速占据主流舞台,代表性技术是支持向量机(Support Vector Machine,简称SVM) 以及更一般的"核方法" (kernel methods)。直到九十年代中期统计学习才开始成为机器学习的主流,一方面是由于有效的支持向量机算法在九十年代初才被提出,其优越性能到九十年代中期在文本分类应用中才得以显现;坤一方面,正是在连接主义学习技术的局限性凸显之后,人们才把目光转向了以统计学习理论为直接支撑的统计学习技术.事实上,统计学习与连接主义学习有密切的联系.在支持向量机被普遍接受后,核技巧(kernel trick) 被人们用到了机器学习的几乎每一个角落,核方法也逐渐成为机器学习的基本内容之一。
有趣的是二十一世纪初,连接主义学习又卷土重来,掀起了以"深度学习"为名的热潮。所谓深度学习,狭义地说就是"很多层"的神经网络。在若干测试和竞赛上,尤其是涉及语音、图像等复杂对象的应用中,深度学习技术取得了优越性能.以往机器学习技术在应用中要取得好性能,对使用者的要求较高;而深度学习技术涉及的模型复杂度非常高,以至于只要下工夫"调参把参数调节好,性能往往就好。因此,深度学习虽缺乏严格的理论基础,但它显著降低了机器学习应用者的门槛,为机器学习技术走向工程实践带来了便利。
那么深度学习为什么此时才热起来呢?
有两大支持: