机器学习(周志华整理笔记)基本术语

数据集:一组记录的集合,其中每条记录是关于一个事件或者对象(西瓜)的描述,也叫“示例”或者“样本”。
属性:反映事件或者对象某方面的表现或者性质(色泽 敲声 根蒂)
属性的取值为属性值
属性张成的空间为属性空间或者样本空间,例如色泽 敲声 根蒂为三个坐标轴,每个点作为一个坐标向量,称为“特征向量”。

一般D={x1,x2,x3…xm}m个示例的数据集,d个属性描述,xi={xi1,xi2,xi3;…xid},xij表示为xi在第j个属性上的取值。

从数据中学的模型的过程称为学习或训练,训练样本形成的集合叫做训练集,学的模型对应了某种潜在的规律因此亦称为假设。
潜在规律自身称为“真相”或者“真实”,模型称为“学习器”。

仅仅有了前面的数据集与属性还是不够,还需要训练样本的“结果信息”,例如((色泽=青;根蒂=蜷缩,敲声=浑浊),好瓜)
这其中“好瓜”被称为“标记”,拥有了标记信息的示例称为样例,一般用(xi,yi)来表示第i个样例,所有标记的集合称为输出空间。

如果我们测试的是离散值,学习任务称为“分类”,连续值称为“回归”。
还可以对西瓜进行“聚类”,即把训练集中的西瓜进行分组,每组称为一个“簇”(cluster).训练样本一般不带有标记信息。

根据训练数据是否含有标记信息分为“监督学习”,“无监督学习”,分类和回归是前者的代表,聚类是后者的代表。

归纳和演绎是科学推理的两个基本手段,前者是从特殊到一般的“泛化”,“从样本中学习”显然是一个归纳的过程,因此称为归纳学习。归纳学习分为广义和狭义,广义的规范学习即从样例中学习,狭义的是指从训练数据中学的概念,也称为概念学习。

机器学习算法在学习过程中对某种类型假设的偏好,成为归纳“偏好”。

有没有一般性的原则来引导算法的确定“正确的”偏好呢?“奥卡姆剃刀”是一种最常见,自然科学中研究中最基本的原则,“若有多个假设和观察一致,则选择最简单的一个”。

你可能感兴趣的:(人工智能,机器学习)