《机器学习》周志华读书笔记(一)绪论

什么是机器学习?

[Mitchell,1997]:假设用P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E在T中任务上获得了性能改善,则我们就说关于T和P,该程序对E进行了学习。

全文第1章绪论部分重点介绍了机器学习中的【1】基本术语;【2】假设空间;【3】归纳偏好;【4】发展历程与现状

 

【1】基本术语

以一批西瓜为例(估计这就是西瓜书的由来):

(色泽 = 青绿;根蒂 = 蜷缩;敲声 = 浊响),

(色泽 = 乌黑;根蒂 = 稍蜷;敲声 = 沉闷),

(色泽 = 浅白;根蒂 = 硬挺;敲声 = 清脆)。

根据上述数据为例,我们有如下概念:

数据集(data set):这组数据的集合

示例/样本(instance/sample):数据集中,每条记录是关于一个事件或对象(这里是一个西瓜)的描述

属性/特征(attribute/feature):反映事件或对象在某方面的表现或性质的事项,例如色泽、根蒂、敲声

属性值(attribute value):属性上的取值

属性空间/样本空间/输入空间(attribute/sample/input space):属性张成的空间,一个属性当作一个坐标轴,在上述数据中存在3个属性(可以理解成维度),我们可以将其张成三维空间,每一个西瓜都可以在该三维空间中找到自己的坐标

特征向量(feature vector):由于空间中的每个点对应一个坐标向量,因此也称一个示例为一个“特征向量”

维数(dimensionality):可以理解为属性的数量

学习/训练(learning/training):从数据中学习模型的过程

训练数据(learning data):训练过程中使用的数据

训练样本(learning set):训练数据中的每一个样本称为一个训练样本

训练集(training set):训练样本组成的集合

测试(testing):学得模型后,使用其进行预测的过程

标记(label):以上述数据为例((色泽 = 青绿;根蒂 = 蜷缩;敲声 = 浊响),好瓜)中的“好瓜”,我们称为标记

监督学习(supervised learning):训练数据有标记信息

无监督学习(unsupervised learning):训练数据无标记信息

 

【2】假设空间

归纳(induction):从特殊到一般的“泛化”(generalization)过程,从具体事实归结出一般性规律

演绎(deduction):从一般到特殊的“特化”(specialization)过程,从基础原理推演出具体状况

机器学习,是从训练集的有限数据中,得到“泛化”的模型,进而得到最后的假设。学习的过程,就是从所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集“匹配(fit)”的假设。

以上述西瓜为例,下述为西瓜例子的假设空间

好瓜  \leftrightarrow(色泽 =  \ast\wedge(根蒂 =  \ast\wedge(敲声 =  \ast)           (\ast代表通配符,此处表示可以取任意属性值)

有许多策略对假设空间进行搜索,最终我们会获得与训练集一致(即对所有训练样本能够进行正确判断)的假设。

但现实生活中我们面临的假设空间往往会很大,因此,可能有很多假设与训练集一致,即存在着一个与训练集一致的“假设集合”,我们称之为“版本空间”(version space)

 

【3】归纳偏好

归纳偏好(inductive bias):机器学习算法在学习过程中对某种类型假设的偏好

任何一个有效的机器学习算法必定有其归纳偏好!

以西瓜为例,我们可以采用下述多种方式来判断西瓜为好瓜:

好瓜  \leftrightarrow(色泽 =  \ast\wedge(根蒂 =  蜷缩)\wedge(敲声 =  \ast)   (算法喜欢更泛化的模型)

好瓜  \leftrightarrow(色泽 =  \ast\wedge(根蒂 =  蜷缩)\wedge(敲声 =  浊响)   (算法喜欢更特殊的模型)

上述两种判断方法(算法)并无高低之分,因为训练集和测试集的数据是不一样的。我们不能确定,泛化性能好一些的表现更好,还是泛化性能差一些的表现更好的。

引入NFL定理(No Free Lunch Theorem,没有免费的午餐定理):针对某一域的所有问题,所有算法的期望性能是相同的

NFL定理最大的意义,是告诉我们,脱离具体问题,空泛的谈论,哪一种学习算法更好,是没有意义的

 

【4】发展历程与现状暂不做笔记

你可能感兴趣的:(《机器学习》周志华读书笔记,机器学习,读书笔记,西瓜书)