机器学习——1.机器学习绪论

文章目录

  • 1.统计学习,机器学习
    • 1.1相关定义
    • 1.2.三要素
    • 1.3 实现步骤
  • 2.基本术语与概念
      • 2.1 机器学习的方法分类
      • 2.2 数据集(dataset)
      • 2.3 假设空间
          • 2.3.1概念学习
          • 2.3.2 布尔概念学习
          • 2.3.3 归纳偏好(inductive bias)
          • 2.3.3.1 奥卡姆剃刀(Occam's razor)
          • 2.3.4 没有免费的午餐(NFL)
          • 3.参考资料

1.统计学习,机器学习

    统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。统计学习称为统计机器学习。即人们提及机器学习时,往往指的是统计机器学习。

1.1相关定义

    机器学习这门学科,它致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。
    在计算机系统中,“经验”通常以“数据”的形式存在,因此,机器学习所研究的主要内容,是在计算机上从数据中产生“模型(model)”的算法,即“学习算法”(learning algorithm)。
    通过学习算法,我们将经验数据提供给它,它就能基于这些数据产生模型。此过程我们通常称为训练(train)
    在面对新的情况时,模型会给我们提供相应的判断。此过程我们通常称为测试(test)或推理(infer)
机器学习——1.机器学习绪论_第1张图片

图1. 模型的训练与测试流程

1.2.三要素

  1. 模型:基于问题,假设某个函数的集合,又称为假设空间(输入空间到输出空间所有映射的集合)
  2. 策略:根据应用某个评价指标来求解最优模型,通常通过优化一个损失函数
  3. 算法:即学习模型的具体计算方法,即求解最优化问题的算法

1.3 实现步骤

    实现机器学习方法的步骤可以简略如下:

  1. 得到一个有限的训练数据集合
  2. 确定包含所有可能得模型的假设空间,即学习模型的集合
  3. 确定模型选择的准则,即学习策略
  4. 实现求解最优模型的算法,即学习算法
  5. 通过学习方法选择最优模型
  6. 利用学习的最优模型对新数据进行预测或分析

    

2.基本术语与概念

2.1 机器学习的方法分类

    机器学习的方法就是基于数据构建概率统计模型从而对数据进行预测和分析。主要的方法分类以三种:

  1. 监督学习 :从具有标注的数据中学习预测模型的机器学习问题
  2. 无监督学习:从无标注的数据中学习预测模型的机器学习问题
  3. 强化学习:是指智能系统在与环境互动中学习最优行策略的的机器学习问题
  4. 生成模型:生成模型以统计学和Bayes为理论基础,通过数据学习得到联合概率分布 P ( X , Y ) P(X,Y) P(X,Y),即特征 x x x y y y同时出现的概率,然后求得条件概率分布。经典的算法有有朴素贝叶斯、隐马尔可夫
  5. 判别模型:通过数据学习得到条件概率分布 P ( Y ∣ X ) P(Y|X) P(YX),即特征 x x x出现的情况下y出现的概率。经典的算法有决策树、感知机等
        

2.2 数据集(dataset)

    如下表1西瓜数据集所示。

编号 色泽 根蒂 敲声 好瓜
1 青绿 蜷缩 浊响
2 乌黑 蜷缩 浊响
3 青绿 硬挺 硬挺
4 乌黑 稍蜷 沉闷
表1. 西瓜数据集
    
  • 示例(instance)、样本(sample):数据集中的一条记录我们通常称为示例或是样本。如(青绿,浊响,是)
  • 属性(attribute)、特征(feature): 事件或对象某方面的表现或性质,例如上述表中西瓜的"色泽”、“敲声”就是称为属性或特征。
  • 属性空间、特征空间: 属性值张成的空间通常称为属性空间或是特征空间。
  • 特征向量:因为每一个样本都可以表示为特征空间中的一点,即为一个坐标向量。所以我们也把一个样本称为一个特征向量。
  • 标签(label、target):指导监督学习中具有标注的数据,其中的标注通常称为标签,例如上述表的“好瓜”则是西瓜的标签。
  • 维数 (dimensionality): 我们将数据集中西瓜涉及的特征数量称为数据的维数,即(“色泽”,“敲声”,“根蒂”),则该数据集的维度为3
        

2.3 假设空间

  • 假设(hypothesis):学得模型对应了关于数据的某种潜在的规律。
  • 归纳(induction):从特殊到一般的“泛化”(generalization)过程,即从具体的事实归结出一般性规律
  • 演绎(deduction):从一般到特殊的“特化”(specialization)过程,即从基础原理推演出具体的状况
        所以,在数学公理系统中,基于一组公理和推理规则推导出与之相恰的定理。这个过程就是演绎而“从样例中学习”则是一个归纳的过程,也称为“归纳学习”(induction learning)

    广义的归纳学习相当于从样例中学习,而狭义的则要求从训练数据中学的概念(concept),所以狭义的归纳学习也成为“概念学习”或是“概念形成”。
    

2.3.1概念学习

    概念学习技术的研究、应用都比较少,因为要学得泛化性能好且语义明确的概念太难了。但对概念学习的了解,有助于理解机器学习的一些基础思想。
    

2.3.2 布尔概念学习

    布尔概念学习是概念学习中最基本的一种。即对“是”、“不是”进行学习。

    以西瓜数据集1为例。

编号 色泽 根蒂 敲声 好瓜
1 青绿 蜷缩 浊响
2 乌黑 蜷缩 浊响
3 青绿 硬挺 清脆
4 乌黑 稍蜷 沉闷
表1. 西瓜数据集

    
    根据以上数据集的西瓜特征,我们就可以写出布尔表达式: < “ 好 瓜 ” = = ( 色 泽 = ? ) ∩ ( 根 蒂 = ? ) ∩ ( 敲 声 = ? ) > <“好瓜” == (色泽 = ?)\cap (根蒂 = ?) \cap (敲声 = ?)> <===(=)(=?)>
    其中的 ? ? 表示对应特征的取值

     基于上述布尔表达式,我们得到 < “ 好 瓜 ” = = ( 色 泽 = “ 青 绿 ” ) ∩ ( 根 蒂 = “ 蜷 缩 ” ) ∩ ( 敲 声 = “ 浊 响 ” ) > <“好瓜” == (色泽 = “青绿”)\cap (根蒂 = “蜷缩”) \cap (敲声 = “浊响”)> <===绿(=)(=)>
但是显然这条匹配规则却不能适用于编号为2的好瓜,也不适用没见过好瓜,所以必须提高匹配规则的泛化能力。

    我们可以把学习过程看作一个在所有假设组成的空间进行搜索的过程。在西瓜数据集1中,特征“色泽”、“根蒂”、“敲声”的取值可能有2、3、3个,并且考虑“好瓜”根本不存在的概念。因此可以构建出 3 ∗ 4 ∗ 4 + 1 = 49 3*4*4+1 =49 344+1=49个假设规模的假设空间。如下图2所示。

机器学习——1.机器学习绪论_第2张图片

图2. 假设空间

     在假设空间搜索时,通常会有多个假设于数据集一致,即存在着一个与训练集一致的“假设集合”,称为“版本空间(version space).
    

机器学习——1.机器学习绪论_第3张图片

图3. 西瓜数据集1的版本空间
    

     上图3中的版本空间中出现了三个与数据集一致的假设,在面对测试数据的时候,则可能产生不一致的结果,所以我们将讨论归纳偏好(inductive bias)

2.3.3 归纳偏好(inductive bias)

     若算法更偏好于“尽可能特殊、具体”的模型,则会选择图3中的 ( 色 泽 = ∗ ; 根 蒂 = 蜷 缩 ; 敲 声 = 浊 响 ) (色泽 = *;根蒂 = 蜷缩;敲声 =浊响) ===若算法更偏好于“尽可能一般”的模型,则会选择图3中的 ( 色 泽 = ∗ ; 根 蒂 = 蜷 缩 ; 敲 声 = ∗ ) 或 ( 色 泽 = ∗ ; 根 蒂 = ∗ ; 敲 声 = 浊 响 ) (色泽 = *;根蒂 = 蜷缩;敲声 =*)或(色泽 = *;根蒂 = *;敲声 =浊响) ======
     机器学习算法在学习过程对某种类型假设的偏好,称为归纳偏好(inductive bias)

2.3.3.1 奥卡姆剃刀(Occam’s razor)

奥卡姆剃刀:若有多个假设与观察一致,则选择最简单的那个。

    如何引导算法确立一个“正确的”偏好呢?"奥卡姆剃刀"是一种常用的、自然科学研究中最基本的原则。

机器学习——1.机器学习绪论_第4张图片

图4. 存在多条曲线与训练集一致

    若采用奥卡姆剃刀的原则,则将会选择曲线A的描述。所以此时选择的假设将趋于更为"平滑"(smooth)和“简单”。

2.3.4 没有免费的午餐(NFL)

     NFL指出无论不同算法性能如何,它们的期望是相同的。

     但是NFL遵从一个重要前提是:所以“问题”出现的机会相同、或所有问题同等重要。但实际上不是如此,我们是希望试图解决某个具体的应用任务,对于相关的任务我们并不关心。

     例如从A地快速到达B地,从广州天河城到天环广场,如果采用步行的方式,是一个很好的方案。但从天河城到深圳福田的COCO Park,步行显然是很糟糕的方案,但我们并不关心后者。

     NFL的意义在于脱离具体的问题,谈论“什么模型学习算法更好”毫无意义。

3.参考资料

1.《机器学习》周志华 著. 机器学习, 北京: 清华大学出版社
2. 《统计学习方法》李航 著. 北京: 清华大学出版社

你可能感兴趣的:(机器学习)