【机器学习笔记】基本概念

        算法和模型
        “算法”是指从数据中学得“模型”的具体方法,例如后续章节中将会讲述的线性回归、对数几率回归、决策树等。“算法”产出的结果称为“模型”,通常是具体的函数或者可抽象地看作为函数,例如一元线性回归算法产出的模型即为形如 f(x) = wx + b的一元一次函数。不过由于严格区分这两者的意义不大,因此多数文献和资料会将其混用,当遇到这两个概念时,其具体指代根据上下文判断即可。

        样本
        也称为“示例”,是关于一个事件或对象的描述。
        因为要想让计算机能对现实生活中的事物进行机器学习,必须先将其抽象为计算机能理解的形式,计算机最擅长做的就是进行数学运算,因此考虑如何将其抽象为某种数学形式。任何事物都可以由若干“特征”(或称为“属性”)唯一刻画出来,而线性代数的向量的各个维度即可用来描述各个特征。
    例如,如果用色泽、根蒂和敲声这 3 个特征来刻画西瓜,那么一个“色泽青绿,根蒂蜷缩,敲声清脆”的西瓜用向量来表示即为 x =(青绿; 蜷缩; 清脆) (向量中的元素用分号“;”分隔时表示此向量为列向量,用逗号“,”分隔时表示为行向量) ,其中青绿、蜷缩和清脆分别对应为相应特征的取值,也称为“属性值”。显然,用中文书写向量的方式不够“数学”,因此需要将属性值进一步数值化。此外,仅靠以上 3 个特征来刻画西瓜显然不够全面细致,因此还需要扩展更多维度的特征,一般称此类与特征处理相关的工作为“特征工程”

        样本空间
        也称为“输入空间”或“属性空间”。由于样本采用的是标明各个特征取值的“特征向量”来进行表示,根据线性代数的知识可知,有向量便会有向量所在的空间,因此称表示样本的特征向量所在的空间为样本空间,通常用花式大写的\chi表示。

        数据集
        数据集通常用集合来表示,令集合  D = {x1, x2, ..., xm} 表示包含 m 个样本的数据集,一般同一份数据集中的每个样本都含有相同个数的特征,假设此数据集中的每个样本都含有 d 个特征,则第 i个样本的数学表示为 d 维向量:xi = (xi1; xi2; ...; xid),其中 xij 表示样本 xi 在第 j 个属性上的取值。

        模型
        机器学习的一般流程如下:首先收集若干样本(假设此时有 100 个),然后将其分为训练样本(80 个)和测试样本(20 个),其中 80 个训练样本构成的集合称为“训练集”,20 个测试样本构成的集合称为“测试集”,接着选用某个机器学习算法,让其在训练集上进行“学习”(或称为“训练”),然后产出得到“模型”(或称为“学习器”),最后用测试集来测试模型的效果。
        执行以上流程时,表示我们已经默认样本的背后是存在某种潜在的规律,我们称这种潜在的规律为“真相”或者“真实”,例如样本是一堆好西瓜和坏西瓜时,我们默认的便是好西瓜和坏西瓜背后必然存在某种规律能将其区分开。当我们应用某个机器学习算法来学习时,产出得到的模型便是该算法所找到的它自己认为的规律,由于该规律通常并不一定就是所谓的真相,所以也将其称为“假设”。通常机器学习算法都有可配置的参数,同一个机器学习算法,使用不同的参数配置或者不同的训练集,训练得到的模型通常都不同。

        标记
        上文提到机器学习的本质就是在学习样本在某个方面的表现是否存在潜在的规律,我们称该方面的信息为“标记”。例如在学习西瓜的好坏时,“好瓜”和“坏瓜”便是样本的标记。一般第 i 个样本的标记的数学表示为 yi,标记所在的空间称为“标记空间”或“输出空间”,数学表示为花式大写的 Y。标记通常也看作为样本的一部分,因此,一个完整的样本通常表示为 (x, y)。
根据标记的取值类型不同,可将机器学习任务分为以下两类:分类和回归

  •  当标记取值为离散型时,称此类任务为“分类”,例如学习西瓜是好瓜还是坏瓜、学习猫的图片是白猫还是黑猫等。当分类的类别只有两个时,称此类任务为“二分类”,通常称其中一个为“正类”,另一个为“反类”或“负类”;当分类的类别超过两个时,称此类任务为“多分类”。由于标记也属于样本的一部分,通常也需要参与运算,因此也需要将其数值化,例如对于二分类任务,通常将正类记为1,反类记为 0,即 Y = {0, 1}。这只是一般默认的做法,具体标记该如何数值化可根据具体机器学习算法进行相应地调整。
  •  当标记取值为连续型时,称此类任务为“回归”,例如学习预测西瓜的成熟度、学习预测未来的房价等。由于是连续型,因此标记的所有可能取值无法直接罗列,通常只有取值范围,回归任务的标记取值范围通常是整个实数域 \mathbb{R},即 Y = \mathbb{R}

        无论是分类还是回归,机器学习算法最终学得的模型都可以抽象地看作为以样本 x 为自变量,标记 y为因变量的函数 y = f(x),即一个从输入空间 X 到输出空间 Y 的映射。例如在学习西瓜的好坏时,机器学习算法学得的模型可看作为一个函数 f(x),给定任意一个西瓜样本 xi = (青绿; 蜷缩; 清脆),将其输入进函数即可计算得到一个输出 yi = f(xi),此时得到的 yi 便是模型给出的预测结果,当 yi 取值为 1 时表明模型认为西瓜 xi 是好瓜,当 yi 取值为 0 时表明模型认为西瓜 xi 是坏瓜。 

        根据是否有用到标记信息,可将机器学习任务分为以下两类:监督学习和无监督学习

        在模型训练阶段有用到标记信息时,称此类任务为“监督学习”。

        泛化

        由于机器学习的目标是根据已知来对未知做出尽可能准确的判断,因此对未知事物判断的准确 与否才是衡量一个模型好坏的关键,我们称此为“泛化”能力。

        分布

         此处的“分布”指的是概率论中的概率分布,通常假设样本空间服从一个未知“分布”D,而 我们收集到的每个样本都是独立地从该分布中采样得到,即“独立同分布”。通常收集到的样本越多,越 能从样本中反推出 D 的信息,即越接近真相。

你可能感兴趣的:(机器学习,机器学习)