西瓜书学习笔记--第一章 绪论

第一章 绪论

1.1 引言

  • 做出有效预判的前提是经验的积累,经验可以使我们对新情况做出有效的预测

  • 机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能

  • 计算机中经验通常以数据形式存在

  • 机器学习研究的主要内容:在计算机上从数据中产生模型(model)的算法,即学习算法(learning algorithm)

  • 将经验数据提供给学习算法,它就能基于这些数据产生模型

  • 机器学习的形式化定义:假设用P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E在T中任务上获得了性能改善,则我们就说关于T和P,该程序对E进行了学习。

    • 例:

      • 任务T:让计算机识别菊花和玫瑰花

      • 经验E:一大堆菊花和玫瑰花的图片

      • 性能指标P:识别率(Recognition Rate )(不同算法的P是不相同的)

    • 例:

      • 任务T:设计程序让机器人冲咖啡

      • 经验E:机器人多次尝试的行为和这些行为产生的结果

      • 性能指标P:在规定时间内成功冲好咖啡的次数

    • E和P是由设计算法的人决定的,没有标准答案

  • 计算机科学是研究关于算法的学问\Rightarrow机器学习是研究关于学习算法的学问

  • 西瓜书用模型泛指从数据中学得的结果,也有文献用模型指全局性结果,用模式指局部性结果

1.2 基本术语

  • 数据集(data set):一组数据记录的集合

  • 示例(instance)/样本(sample):数据集中的一条关于一个事件或对象的描述的记录(有时整个数据集也课称为一个样本,此时看作是对样本空间的一个采样)

  • 属性(attribute)/特征(feature):反映事件或对象在某方面的表现或性质的事项,如“色泽”,“根蒂”,“敲声”

  • 属性值(attribute value):属性上的取值,如“青绿”,“乌黑”

  • 属性空间(attribute space)/样本空间(sample space)/输入空间:属性张成的空间

  • 特征向量(feature vector):某个示例在属性空间中对应的坐标向量

    • 例:把“色泽”,“根蒂”,“敲声”作为三个坐标轴,张成了一个用于描述西瓜的三维空间,每个西瓜都能在这个空间中找到自己的坐标位置,即对应一个坐标向量,此坐标向量就是特征向量

  • definition:一般地,令D=\{\bf{x_1},x_2,...,x_m\}表示包含m个示例的数据集,每个示例由d个属性描述,则每个示例{\bf{x_i}}=(x_{i1};x_{i2};...;x_{id})是d维样本空间\chi中的一个向量,x_i\in\chi,其中x_{ij}\bf{x_i}在第j个属性上的取值,d称为样本\bf{x_i}的维数(dimensionality)

  • 学习(learning)/训练(training):从数据中学得模型的过程

  • 训练数据(training data):训练过程中使用的数据

  • 训练样本(training sample):训练过程的每个样本

  • 训练集(training set):训练样本组成的集合

  • 假设(hypothesis):学得模型对应的关于数据的某种潜在的规律

  • 真相/真实(ground-truth):潜在规律自身

  • 学习过程就是为了找出或逼近真相

  • 学习器(learner):模型的别称,可看作学习算法在给定数据和参数空间上的实例化

  • 学习算法通常有参数需设置,使用不同的参数值或训练数据,将产生不同的结果

  • 标记(label):关于示例结果的信息,如"好瓜"

  • 样例(example):有了标记信息的示例,一般地,用({\bf{x_i}},y_i)表示第i个样例,其中y_i\in \bf{y}是示例\bf{x_i}的标记,\bf{y}是所有标记的集合,也称为"标记空间"(label space)或“输出空间”

  • 预测结果是离散值的学习任务称为“分类”(classification),预测结果是连续值的学习任务称为“回归”(regression)

  • 只涉及两个类别的为二分类任务,其中一个类为正类(positive class),另一个类为反类(negative class),涉及多个类别时,称为多分类任务(multi-class classification)

  • 一般地,预测任务是希望通过对训练集\{({\bf{x_1}},y_1),({\bf{x_2}},y_2),...,({\bf{x_m}},y_m),\}进行学习,建立一个从输入空间X到输出空间Y的映射f:X\rightarrow Y。对二分类任务,通常令Y=\{-1,+1\}\{0,1\},对多分类任务,|Y|>2;对回归任务,Y=\mathbb{R}\mathbb{R}为实数集。

  • 测试(testing):学得模型后,使用其进行预测的过程

  • 测试样本(testing sample):被预测的样本

  • 聚类(clustering):将训练集中的西瓜分成若干组,每组称为一个簇(cluster),自动形成的簇可能对应一些潜在的划分,如“浅色瓜”,“深色瓜”,“本地瓜”,“外地瓜”

  • 在聚类学习中,“浅色瓜”,“本地瓜”这样的概念我们事先是不知道的

  • 训练数据是否有标记信息

    • 有:监督学习(supervised learning),代表:分类、回归

    • 无:无监督学习(unsupervised learning),代表:聚类

  • 泛化能力(generalization):学得模型适用于新样本的能力

  • 具有强泛化能力的模型能很好地适用于整个样本空间

  • 通常假设样本空间中全体样本服从一个未知“分布”(distribution)D,我们获得的每个样本都是独立地从这个分布上采样获得的,即“独立同分布”(independent and identically distributed,简称i.i.d)

  • 一般而言,训练样本越多,我们得到的关于D的信息越多,这样就越有可能通过学习获得具有强泛化能力的模型(也就是说,数据越多越好)

1.3 假设空间

  • 归纳(induction):从特殊到一般的泛化(generalization)过程,即从具体的事实归结出一般性规律

  • 演绎(deduction):从一般到特殊的特化(specialization)过程,即从基础原理推演出具体情况

    • 例:基于一组公理和推理规则推导出与之相洽的定理

  • 从样例中学习显然是一个归纳过程,也称为归纳学习(inductive learning)

  • 广义归纳学习相当于从样例中学习

  • 狭义归纳学习要求从训练数据中学得概念(concept),也称为“概念学习”或“概念形成”

    • 该领域目前研究、应用都较少,因为要学得泛化性嗯那个好且语义明确的概念太困难,现实常用的技术大多是产生“黑箱”模型

    • 概念学习中最基本的是布尔概念学习

  • 学习过程是一个在所有假设(hypothesis)组成的空间中进行搜索的过程,搜索目标是找到与训练集匹配的假设

  • 假设的表示一旦确定,假设空间及其规模大小就确定了

  • 版本空间(version space):一个与训练集一致的“假设集合”,即满足好瓜的条件的假设的集合

1.4 归纳偏好

  • 机器学习算法在学习过程中对某种类型假设的偏好,称为“归纳偏好”(inductive bias),简称为“偏好”

  • 任何一个有效的机器学习算法必有其归纳偏好,否则将无法产生确定的学习结果

  • 奥卡姆剃刀(Occam's razor):若有多个假设与观察一致,则选最简单的那个

  • 对于一个学习算法\varepsilon_a,若它在某些问题上比学习算法\varepsilon_b好,则必然存在另一些问题,在那里\varepsilon_b\varepsilon_a

  • 公式略(看不懂

  • 没有免费午餐定理(No Free Lunch Theorem, NFL定理):所有学习算法的期望性能都跟随机胡猜差不多

  • NFL定理的重要前提:所有“问题”出现的机会相同,或所有问题同等重要(但实际情形并非如此

  • 脱离具体问题,空谈“什么学习算法更好”毫无意义

  • 要谈论算法的相对优劣,必须要针对具体的学习问题,学习算法自身的归纳偏好与问题是否相匹配,往往会起到决定性作用

1.5 发展历程

1.6 应用现状

1.7 阅读材料

补充

  • 根据训练集求所对应的版本空间的方法:

    1. 写出假设空间:先列出所有可能的样本点(即特征向量)

    2. 对应着给出的已知数据集,将与正样本不一致的、与负样本一致的假设删除

    3. 所剩的假设集合即为版本空间

你可能感兴趣的:(西瓜书笔记,学习,机器学习)