机器学习的基本术语介绍

如果大家没有学习过机器学习,那么就需要了解一下机器学习的相关术语
比如:
特征、记录、数据集、样本、属性,特征响亮、空间维数。
训练集、验证集和测试集、学习器、模型和算法。

举个例子,我们如果去超市买旺旺雪饼,会在货架上看到很多雪饼。我们一般会看袋子上面是否有尘土,再者会尝试掰断一个雪饼,听声音是否清脆,最保险的方式是,看保质期和生产日期,以判断雪饼是否好吃。

一般地,经过“袋子是否有尘土”,“雪饼是否清脆”,“是否过期”几个特征,我们就可以相当好的作出判断。而之所以我们能够作出有效的判断,是因为我们已经积累了许多的经验,而通过经验的利用,就能对情况作出有效的判断。

而如果将对经验的利用交给计算机完成,那么就称该过程为机器学习

机器学习是一门致力于研究通过计算机计算的手段,利用经验来改善系统自身的性能。
其中,经验,在计算机系统中,通常以数据的形式存在。

而机器学习所研究的内容,是关于在计算机上从数据中产生“模型”的算法,即学习算法。我们这个课程将要用到的KNN算法即是其中之一。

学习算法的作用在于,我们提供经验数据给算法,算法能够基于这些数据产生模型;而在面对新的情况时,模型会给我们提供判断。

而模型,则泛指从数据中学得的结果。

以上介绍了机器学习,经验,模型和学习算法的内容。
下面我们开始介绍机器学习过程中的术语。

机器学习如果要学习,就要现有数据。
假定我们收集了一批关于雪饼的数据。
比如:
(袋子是否有尘土=有,雪饼是否清脆=是,是否过期=否)
(袋子是否有尘土=没有,雪饼是否清脆=否,是否过期=否)
(袋子是否有尘土=有,雪饼是否清脆=否,是否过期=是)
(袋子是否有尘土=没有,雪饼是否清脆=是,是否过期=是)
其中,每个括号内是一条记录
而这组记录的集合称为数据集,其中的每条记录就是关于对一个对象的描述,称为”样本
而反映对象在某方面的性质的项目,就称为属性或者特征,而属性上的取值就称为”属性值“,
由各个属性组成的空间,就称为属性空间、样本空间

比如,我们把“袋子是否有尘土”,“雪饼是否清脆”,“是否过期”作为三个坐标轴,则它们就构成了一个用于描述雪饼是否好吃的三维空间,而每个雪饼都可以在这个空间上找到自己的坐标位置。
由于空间中的每一个点,都对应一个坐标向量,因此我们也把一个样本称为一个”特征向量“。

在我们接下来的手写字体识别中,我们会将一张图片整理成一张20×20的图片,进而转化为一个400维度的序列,400个维度,我们可以理解成400个属性,不过这些属性并没有具体的名称。

从数据中学得模型的过程称为学习或者是训练,这个过程是通过执行某个学习算法来完成的。,由训练样本组成的集合称为训练集,而学得的模型就对应了关于数据的某种潜在的客观规律

学习的过程,就是为了找出或者逼近真相。大多时候,真相或者说客观规律只能无限逼近,而不会准确得到。

学习的任务,根据预测的值是否离散,而分为”回归“和”分类“两种,
根据训练数据是否包含标记信息,由可以将学习任务分为”监督学习“和”无监督学习“,回归和分类即使监督学习的代表,而聚类是无监督学习的代表。

基本地,模型训练的过程基本如下:
收集数据
分析数据
训练算法
测试算法

其中,对于KNN算法并不需要,训练算法的过程,也就是说,给定一个测试样本,直接就可以通过计算进行预测。

你可能感兴趣的:(机器学习,python,机器学习)