机器学习--概念和基本术语(一)

目录

1.机器学习的概念

2.机器学习研究的主要内容

3.基本术语

4.概念学习与假设空间


1.机器学习的概念

  •  广义上讲:机器学习(Mechine Learning)是计算机程序随着经验积累自动提升性能或系统自我改进的过程。
  •  形式化定义:对于某类任务T和性能标准P,如果一个计算机程序在T上以P衡量性能,随着经验E而自我完善,就称这个计算机程序从经验E中学习。(在计算机系统中,经验通常以数据的形式存在

2.机器学习研究的主要内容

    机器学习所研究的主要内容,是如何在计算机上从数据中产生模型的算法,即学习算法。机器学习的过程是从大量数据中自动的寻找有用模型的过程。

3.基本术语

   以手写体数字识别的问题为例,假设每个数字对应一个28像素x28像素的灰度图像,按照矩阵逐列首尾相连拼成向量的方式,每一幅数字图像可以表示为一个由784个实数组成的向量x

  • 数据集(Data Set)—— 假定收集了一组手写体数字的图像,均以向量的形式表示,这组图像向量的集合称为一个数据集。
  • 实例(Instance)或样本(Sample)—— 数据集中的每个向量是关于一副手写体数字图像的描述,称为一个实例或样本。
  • 属性(Attribute)或特征(Feature)—— 784维向量中的每一维反映了图像在某个特定方面的表现性质,称为属性或特征。
  • 属性值(Attribute Value)—— 向量中每个元素对应的实数值称为属性值。
  • 属性空间(Attribute Space)或样本空间(Sample Space)或输入空间(Input Space)—— 这些属性所张成的空间称为属性空间或样本空间。
  • 特征向量(Feature Vector)—— 所有特征张成一个描述手写体数字的784维空间,在这个属性空间中,每一幅图像对应了该空间中的一个点。由于空间中的每个点可以用一个坐标向量表 示,因此也把一个样本成为一个特征向量。
  • 学习(Learning)或训练(Training)—— 机器学习试图从数据中寻找特定的模型,这种从数据中学得模型的过程称为学习或训练。
  • 训练集(Training Set)—— 在学习算法中,一个由N个数字组成的大的集合\left \{ x_{1}, x_{2},\cdots, x_{N} \right \}被称作训练集,用来调节模型的参数和估计模型
  • 训练数据(Training Data)—— 在训练过程中使用的数据称为训练数据。
  • 训练样本(Training Sample)—— 训练集中的每个样本称为一个训练样本,训练集就是所有训练样本组成的集合。
  • 目标向量(Target Vector)—— 训练集中数字的类别称为目标向量,用来代表训练数据的标记信息或标签(Label)。
  • 样例(Example)—— 拥有了标记信息的样本称为样例。 一般的,用\left ( {x_{_{i}}}, y_{_{i}}\right )表示第i个样例,其中,y{_{i}}\epsilon Y,是样本x{_{i}}的标记
  •  标记空间(Label Space)或输出空间 (Output Space)—— Y是所有标记的集合,称为标记空间或输出空间。
  • 测试集(Test Set)—— 用来检验最终选择最优的模型的性能如何。
  • 测试(Testing)—— 使用学习得到的模型进行预测的过程称为测试。
  • 测试样本(Testing Sample)—— 被预测的样本称为测试样本。
  • 泛化能力(Generalization)—— 学习得到的模型适用于新样本的能力。
  •  
  • 分类(Classification)—— 如果希望预测的结果是离散值,此类学习任务称为分类。
  • 二分类(Binary Classification) —— 在分类任务中,将只涉及两个类别的学习任务称为二分类任务。通常将其中一个类为正类(Positive Class),相应的样例称为正例                                                                    (Positive Example);称另一个类为负类和反类(Negative Class),相应的样例称为负例或反例(Negative Example)             
  • 多分类(Multi-Class Classification) —— 在分类任务中,将只涉及多个类别的学习任务称为多分类任务。
  • 回归(Regression)—— 如果希望预测的结果是连续值,此类学习任务称为回归。
  • 聚类(Clustering)—— 如果在学习的过程中使用的训练样本不具备标记信息,我们依然希望可以将训练集中的数据分成若干组,这样的学习任务成为聚类。                   
  • 簇(Cluster)—— 聚类任务中的每个组称为一个簇。
  •  
  • 监督学习(Supervised Learning)和无监督学习(Unsupervised Learning)—— 根据训练数据是否有标记信息,机器学习任务可大致分为监督学习(如分类和回归)和无监督学习(如聚类)。

4.概念学习与假设空间

  • 归纳(Induction) —— 从特殊到一般的泛化过程,即从具体的事实归结出一般性规律。
  • 演绎(Deduction) —— 从一般到特殊的特化过程,即从基础原理推演出具体情况。
  • 归纳学习(Inductive Learning )—— 从特殊的训练样例中归纳出一般函数是机器学习的中心问题,该归纳过程称为归纳学习。

    概念学习(Concept Learning)——  概念学习有广义和狭义之分,广义是指从样例中学习的归纳过程,狭义指从训练中学得概念,因此狭义的归纳学习也称为概念学习。

              (1)概念学习考虑的问题是,给定一样例集合及每个样例是否属于某一概念的标记,怎样推断出该概念的一般定义。

              (2)① 概念定义在一个实例(Instance)集合上,这个集合表示为X

                       ② 在学习目标概念是,必须提供一套训练样例(Training Examples),每个样例为X中的一个实例 x 及它的目标概念值 c\left ( x \right ) 。通常用序偶 <x,c\left ( x \right )> 来描述训练样例,表示包含了实例 x  和目标概念值c\left ( x \right )。符号D用来表示训练样例的集合。

                       ③ 一旦给定目标概念 c 的训练样例集,学习器面临的问题就是假设或估计c

                       ④ 可以把学习过程看作一个在所有可能假设(All Possible Hypothesis)的集合上进行搜索的过程,搜索的目标是找到与训练集匹配(Match)或拟合(Fit)的假设。这些所有可能的假设组成的空间称为假设空间(Hypothesis Space)

                       ⑤ 假设空间中的假设集合才是确定目标概念所考虑的范围,通常用符号\boldsymbol{H}来表示。

                       ⑥ 机器学习的目标就是寻找一个假设 h ,使对于X中的所有 x 有 h\left ( x \right ) = c\left ( x \right ) 。

             (3) 机器学习的任务是在整个实例集合X上确定与目标概念 c 相同的假设 h。  

             (4) 事实上,目标概念 c 仅仅是训练样例上的信息,没有包含测试样例。因此,归纳学习算法最多只能保证输出的假设能与训练样本相拟合。如果没有更多的信息,我们只能假定,对于未见实例,最好的假设就是与训练数据最佳拟合的假设。

             (5) 由此引出归纳学习的一个基本假设,即归纳学习假设:任一假设如果在足够大的训练集例集中很好地逼近目标函数,它也能在未见实例中很好地逼近目标函数。

             (6) 概念学习可以看做一个搜索的过程,范围是假设的表示所隐含定义的整个空间。搜索的目标是寻找能最好的拟合训练样例的假设。

 

该文学习总结自李克清、时允田主编的《机器学习及应用》

   

 

 

 

你可能感兴趣的:(机器学习,机器学习,人工智能)