什么是机器学习?
[Mitchell,1997]:假设用P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E在T中任务上获得了性能改善,则我们就说关于T和P,该程序对E进行了学习。
全文第1章绪论部分重点介绍了机器学习中的【1】基本术语;【2】假设空间;【3】归纳偏好;【4】发展历程与现状
【1】基本术语
以一批西瓜为例(估计这就是西瓜书的由来):
(色泽 = 青绿;根蒂 = 蜷缩;敲声 = 浊响),
(色泽 = 乌黑;根蒂 = 稍蜷;敲声 = 沉闷),
(色泽 = 浅白;根蒂 = 硬挺;敲声 = 清脆)。
根据上述数据为例,我们有如下概念:
数据集(data set):这组数据的集合
示例/样本(instance/sample):数据集中,每条记录是关于一个事件或对象(这里是一个西瓜)的描述
属性/特征(attribute/feature):反映事件或对象在某方面的表现或性质的事项,例如色泽、根蒂、敲声
属性值(attribute value):属性上的取值
属性空间/样本空间/输入空间(attribute/sample/input space):属性张成的空间,一个属性当作一个坐标轴,在上述数据中存在3个属性(可以理解成维度),我们可以将其张成三维空间,每一个西瓜都可以在该三维空间中找到自己的坐标
特征向量(feature vector):由于空间中的每个点对应一个坐标向量,因此也称一个示例为一个“特征向量”
维数(dimensionality):可以理解为属性的数量
学习/训练(learning/training):从数据中学习模型的过程
训练数据(learning data):训练过程中使用的数据
训练样本(learning set):训练数据中的每一个样本称为一个训练样本
训练集(training set):训练样本组成的集合
测试(testing):学得模型后,使用其进行预测的过程
标记(label):以上述数据为例((色泽 = 青绿;根蒂 = 蜷缩;敲声 = 浊响),好瓜)中的“好瓜”,我们称为标记
监督学习(supervised learning):训练数据有标记信息
无监督学习(unsupervised learning):训练数据无标记信息
【2】假设空间
归纳(induction):从特殊到一般的“泛化”(generalization)过程,从具体事实归结出一般性规律
演绎(deduction):从一般到特殊的“特化”(specialization)过程,从基础原理推演出具体状况
机器学习,是从训练集的有限数据中,得到“泛化”的模型,进而得到最后的假设。学习的过程,就是从所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集“匹配(fit)”的假设。
以上述西瓜为例,下述为西瓜例子的假设空间:
好瓜 (色泽 = )(根蒂 = )(敲声 = ) (代表通配符,此处表示可以取任意属性值)
有许多策略对假设空间进行搜索,最终我们会获得与训练集一致(即对所有训练样本能够进行正确判断)的假设。
但现实生活中我们面临的假设空间往往会很大,因此,可能有很多假设与训练集一致,即存在着一个与训练集一致的“假设集合”,我们称之为“版本空间”(version space)
【3】归纳偏好
归纳偏好(inductive bias):机器学习算法在学习过程中对某种类型假设的偏好
任何一个有效的机器学习算法必定有其归纳偏好!
以西瓜为例,我们可以采用下述多种方式来判断西瓜为好瓜:
好瓜 (色泽 = )(根蒂 = 蜷缩)(敲声 = ) (算法喜欢更泛化的模型)
好瓜 (色泽 = )(根蒂 = 蜷缩)(敲声 = 浊响) (算法喜欢更特殊的模型)
上述两种判断方法(算法)并无高低之分,因为训练集和测试集的数据是不一样的。我们不能确定,泛化性能好一些的表现更好,还是泛化性能差一些的表现更好的。
引入NFL定理(No Free Lunch Theorem,没有免费的午餐定理):针对某一域的所有问题,所有算法的期望性能是相同的
NFL定理最大的意义,是告诉我们,脱离具体问题,空泛的谈论,哪一种学习算法更好,是没有意义的。
【4】发展历程与现状暂不做笔记