机器学习——西瓜书笔记

目录

  • 第一章 绪论
    • 1.1 引言
    • 1.2 基本术语
    • 1.3假设空间
    • 1.4 归纳偏好
    • 1.5 发展历程
    • 1.6应用现状

第二章 模型评估与选择

第一章 绪论

1.1 引言

  • 研究目标
    机器学习致力于,研究如何通过计算手段,利用经验(通常以数据形式出现)来改善系统自身的性能。

  • 研究内容
    机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型”(model)的算法,即学习算法(learning algorithm)。
    有了学习算法,我们把经验数据提供给它,它就能基于这些数据产生模型;当面对新的情况时,模型会给出相应的判断。


  • “模型”泛指从数据中学得的结果,有文献用“模型”指全局性结果(例如一棵决策树),用“模式”指局部结果(例如一条规则)。

1.2 基本术语

有关数据的术语

一批关于西瓜的数据:
(色泽=青绿;根蒂=蜷缩;敲声=浊响),
(色泽=乌黑;根蒂=稍蜷;敲声=沉闷),
(色泽=浅白;根蒂=硬挺;敲声=清脆),… ,

  • 记录
    每对括号内是一条记录,“=”意思是“取值为”。
  • 数据集(dataset)
    这组记录的集合
  • 示例(instance)
    数据集中每条记录是关于一个事件或对象(这里是一个西瓜)的描述,称为一个“示例”(instance)或“样本”(sample)。
    有时,整个数据集也称为样本。
  • 属性
    反应事件或对象在某方面的表现或性质的事项,例如“色泽”“根蒂”“敲声”,称为“属性”(attribute)或“特征”(feature)
  • 属性值
    属性上的取值,例如“乌黑”“清脆”
  • 属性空间
    属性张成的空间,称为“属性空间”(attribute space)、“样本空间”(sample space)或“输入空间”。
    例如我们把“色泽”“根蒂”“敲声”作为三个坐标轴,则它们张成一个用于描述西瓜的三维空间。每个西瓜都可以在这个空间中找到自己的坐标位置。
  • 特征向量
    由于空间中的每个点对应一个坐标向量,因此,我们
    也把一个示例称为一个“特征向量”(feature vector)。

有关向量的表示

  • 令D = {x1,x2,…,xm},表示包含m个示例的数据集。
  • 每个示例由d个属性描述,
    则每个示例xi = (xi1;xi2;…;xid)是d维空间X中的一个向量xiX
    其中xij是xi在第j个属性上的取值。
  • d称为样本xi的“维数”(dimensinary)。

有关训练的术语

  • 从数据中学得模型的过程称为“学习”(learning)或“训练”(training),通过执行某个学习算法来完成。
  • 训练过程中使用的数据称为“训练数据”(training data),
    其中每个样本称为一个“训练样本”(training sample)、“训练示例”(training instance)或“训练例”,
    训练样本组成的集合称为“训练集”(training set)。
  • 学得模型对应了关于数据的某种潜在规律,因此亦称“假设”;
    -这种潜在规律自身,则称为“真相”或“真实”(ground-truth),学习过程就是为了找出或逼近真相。
    又称模型为“学习器”(learner),可看作学习算法在给定数据和参数空间上的实例化。
  • 学习算法通常有参数需要设置,使用不同的参数值和(或)训练数据,将产生不同的结果。

样例

  1. 关于示例结果的信息,例如“好瓜”,称为“标记”(label);
    拥有了标记信息的示例称为“样例”(example)。
  2. 一般地,用(xi,yj)表示第j个样例
  3. 其中 yjY是示例xi的标记,Y是所有标记的集合,亦称“标记空间”(label space)或“输出空间”。

根据训练数据是否拥有标记信息分类
机器学习——西瓜书笔记_第1张图片

  1. 一般地,预测任务是希望通过对训练集{(x1,y1),(x2,y2),…,(xm,ym)}进行学习,建立一个从输入空间X到输出空间Y的映射 fX—>Y
    对二分类任务,通常令Y = {-1,+1}或{0,1};对多分类任务,|Y|>2;对回归任务,Y = R,R为实数集。
  2. 学得模型后,使用其进行预测的过程,称为“测试”(testing);被测试的样本,称为“测试样本”(testing sample)。例如,在学得 f 后,对测试例x,可得到其预测标记 y = f (x).
  3. 对于聚类,这些自动形成的簇,可能对应一些潜在的概念划分。这些的概念我们事先是不知道的,而且学习过程中使用的训练样本通常不拥有标记信息。
    这样的学习过程有助于我们了解数据内在的规律,能为更深入地分析数据建立基础。

泛化能力

  1. 学得的模型适用于新样本的能力,称为“泛化”(generalization)能力。
  2. 具有强泛化能力的模型能很好地适用于整个样本空间。于是,尽管训练集通常只是样本空间的一个很小的采样,我们仍希望它能很好地反映出样本空间的特性,否则很难期望在训练集上学得的模型能在整个样本空间上都工作得很好。
  3. 假设样本空间中全体样本都服从一个未知的“分布”(distribution)D,我们获得的每个样本都是独立地从分布上采样获得的,即“独立同分布”(independent and identically distributed,简称iid)。一般而言,训练样本越多,我们得到的关于D的信息就越多,这样就越有可能通过学习获得具有强泛化能力的模型。

1.3假设空间

科学推理的两大基本手段

归纳(induction)和推理(deduction)

  1. 归纳
    从特殊到一般的泛化(generalization)过程,即从具体事实归结出一般性规律。
    “从样例中学习”显然是一个归纳过程,因此亦称为“归纳学习”(inductive learning)。
    广义的归纳学习,大体相当于从样例中学习。狭义的归纳学习则要求从数据中学得概念(concept),因此亦称为“概念学习”或“概念形成”。
  2. 演绎
    从一般到特殊的特化(specialization)过程,即从基础原理推演出具体状况。

假设空间

  1. 假设空间与学习过程
    把学习过程看作一个在所有假设(hypothesis)组成的空间中进行搜索的过程。
    搜索目标是找到与训练集“匹配”(fit)的假设,即能够将训练集中的瓜判断正确的假设。
    假设的表示一旦确定,假设空间及其规模大小就确定了。
  2. 例,对于西瓜,假设空间由形如“(色泽=?)^ (根蒂=?)^ (敲声=?)”的可能取值所形成的假设组成。
    若,色泽的可能取值为青绿、乌黑、浅白;根蒂的可能取值为蜷曲、稍蜷、硬挺;敲声的可能取值为浊响、沉闷、清脆。则,我们的假设空间规模大小为(3+1) x (3+1) x (3+1) + 1 = 65 (包括Ø,表示“好瓜这样的概念根本不成立”,(3+1)中的+1代表通配符的情况)。
  3. 搜索过程不断删除与正例不一致的假设、和与反例一致的假设。最终将会获得与训练集一致(即对所有训练样本能够进行正确判断)的假设。
  4. 现实问题中我们面对的假设空间很大,但学习过程是基于有限样本训练集进行的,因此,可能有多个假设与训练集一致,即存在着一个与训练集一致的“假设集合”,我们称之为“版本空间”(version space)。

1.4 归纳偏好

偏好

  1. 机器学习算法在学习过程中对某种类型假设的偏好,称为“归纳偏好”(inductive bias),简称“偏好”。
  2. 任何一个有效的机器学习算法必有其偏好,否则它将被假设空间中看似在训练集上“等效”的假设所迷惑,而无法产生确定的结果,这样的学习没有意义。
  3. 引导算法确立正确偏好的一般性原则
    奥卡姆剃刀,选择更简单,更平滑的假设。

NFL

  1. “没有免费的午餐”(NFL)定理,在所有问题出现的机会相同、或所有问题同等重要的前提下,每个学习算法(无论算法多么聪明或多么笨拙)的期望性能相同。
  2. 但实际情况中,我们只关心自己正在试图解决的问题。故,脱离具体问题,空谈“什么学习算法更好”毫无意义。
    学习算法自身的归纳偏好与问题是否匹配,往往起到决定性作用。

1.5 发展历程

  1. 机器学习是人工智能发展到一定阶段的必然产物。
  2. 二十世纪五十年代到七十年代初(1950s-1970s)人工智能的研究处于“推理期”,即只要赋予机器逻辑推理能力,机器就具有智能。
  3. 七十年代中期,进入“知识期”,设法使机器拥有知识,由人总结知识再教给计算机。
  4. 由于五十年代以来对机器学习的探索,在二十世纪八十年代,是机器学习成为独立学科领域、各种机器学习技术百花初绽的时期。
  5. 八十年代,“从样例中学习”的一大主流是符号学习,其代表包括决策树和基于逻辑的学习。
  6. 九十年代之前,“从样例中学习”的另一种主流技术是基于神经网络的连接学习。
  7. 九十年代中期,“统计学习”(statistica learning)登场,并迅速占领主流舞台,代表性技术是支持向量机(support vector machine,简称SVM)。
  8. 二十一世纪初,连接学习又卷土重来,掀起了以“深度学习”为名的热潮。所谓深度学习,狭义的说就是“很多层”的神经网络。

1.6应用现状

总的来说,应用广泛,用途众多。

你可能感兴趣的:(机器学习,人工智能)