1.0 机器学习基本术语

目录

机器学习定义

模型与模式

数据集与示例(样本,特征向量)

维数

学习(训练)

训练样本与训练集

学习模型(学习器)

测试与测试样本

假设与真相(真实)

标记与样例

标记空间(输出空间)

分类与回归

正类与反类(负类)

聚类

分类与聚类的区别

监督学习与无监督学习

泛化能力

独立同分布

机械学习

版本空间

归纳偏好

奥卡姆剃刀

没有免费的午餐定理(NFL)


机器学习定义

机器学习正是这样一门学科,它致力于研究如何通过计算的手段,利用经验来玫善系统自身的性能在计算机系统中,"经验"通常以"数据"形式存 在,因此?机器学习所研究的主要内容,是关于在计算机上从数据中产生"模 型" (model) 的算法,即"学习算法(learning algorithm). 有了学习算法,我 们把经验数据提供给它,它就能基于这些数据产生模型;在面对新的情况时(例 如看到一个没剖开的西瓜),模型会给我们提供相应的判断(例如好瓜) .如果说 计算机科学是研究关于"算法"的学问,那么类似的,可以说机器学习是研究 关于"学习算法"的学问.

模型与模式

“模型"泛指从数据中学得的结果,或者说是全局性结 果(例如一棵决策树),而用"模式"指局部性结呆(例如一条规则).

数据集与示例(样本,特征向量)

“数据集”即一组数据的集合

“示例”又叫样本、特征向量,即是数据集中每条记录,是关于一 个事件或对象的描述.

此外还涉及属性、属性值、属性值、样本空间(输入空间)较为简单就不一一赘述了,详见西瓜书P2

维数

即特征向量的属性个数

学习(训练)

从数据中学得模型的过程.

训练样本与训练集

“训练样本”即训练数据中的每一个样本,“训练集”即训练样本组成的集合.

学习模型(学习器)

可看作学习算法在给定数据和参数空 间上的实例化.学习算法通常有参数需 设置,使用不同的参数值 和(或)训练数据,将产生 不同的结果.

测试与测试样本

学得模型后,使用其母行预测的过程称为"测试" (testing) ,被预测的样本 称为“测试样本" (testing sample). 例如在学得 f 后,对测试例 x 可得到其预 测标记y= f(x).

假设与真相(真实)

“假设”即学得模型对应了关于数据 的某种潜在的规律. “真相”即这种潜在规律自身. 学习过程就是为了找出或逼近真相.

标记与样例

“标记” 即关于示例结果的信息,比如判定一个西瓜的好坏时,“好瓜”就是一个标记.  "样例"即 拥有了标记信息的示例.

标记空间(输出空间)

分类与回归

“分类”即欲预测的是离散值,例如"好瓜" "坏瓜"这一类学习任务.

“回归”即欲预测的是连续值. 例如西瓜成熟度 0.95 0.37 这一类类学习任务.

正类与反类(负类)

对只涉及两个类别的"二分 类" (binary cl sification) 任务,通常称其中一个类为 "正类" (positive class)

另一个类为"反类" (negative class).

聚类

即将训练集中的样本分成若干组,每组称为 个"簇" (cluster). 比如在识别西瓜问题中把西瓜分为"浅色瓜" "深色瓜“,甚至“本地瓜”“外地瓜”,在聚类学习中,"浅色瓜" "本地瓜"这样的概念我们事先是不知道的, 而且学习过程中使用的训练样本通常不拥有标记信息.

分类与聚类的区别

分类:是根据一些给定的已知类别标号的样本,训练某种学习机器(即得到某种目标函数),使它能够对未知类别的样本进行分类。属于监督学习.

聚类:指事先并不知道任何样本的类别标号,希望通过某种算法来把一组未知类别的样本划分成若干类别,聚类的时候,我们并不关心某一类是什么,我们需要实现的目标只是把相似的东西聚到一起,属于无监督学习。

监督学习与无监督学习

监督学习:从给定的训练数据集中学习出一个函数(模型参数),当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集要求包括输入输出,也可以说是特征和目标。训练集中的目标是由人标注的。监督学习就是最常见的分类(注意和聚类区分)和回归. 是训练神经网络和决策树的常见技术。

无监督学习:输入数据没有被标记,也没有确定的结果。样本数据类别未知,需要根据样本间的相似性对样本集进行聚类(clustering)试图使类内差距最小化,类间差距最大化。通俗点将就是实际应用中,不少情况下无法预先知道样本的标签,也就是说没有训练样本对应的类别,因而只能从原先没有样本标签的样本集开始学习分类器设计。至于两者详细区别可以参见https://blog.csdn.net/zb1165048017/article/details/48579677

泛化能力

学得模型适用于 新样本的能力.

独立同分布

通常假设样本空间中全 体样本服从 个未知"分布" (distribution) D,我们获得的每个样本都是独立地从这个分布上采样获得的. 一般而言,训练样本越多,我们得到的关于 的信息越多,这样就越有可能通过学习获得具有强泛化能力的模型.

机械学习

"记住"训练样本,就是所谓的"机械学习" 或称"死记硬背式 学习".

版本空间

现实问题中我们常面临很大的假设空间,但学习过程是基于有限样本训练集进行的,因此,可能有多个假设与训练集一致,即存在着一个与 训练集一致的"假设集合",我们称之为"版本空间" .

归纳偏好

.机器学习 算法在学习过程中对某种类型假设的偏好.即对于哪一种情况更加重视.

奥卡姆剃刀

即"若有多个假设与观察一致,则选最简单的那个".如下图有两条曲线与有限样本训练集一致,因为A更加平滑易于表示一般选取A曲线.

1.0 机器学习基本术语_第1张图片

没有免费的午餐定理(NFL)

对于一个学习算法a,若它在某 些问题上比学习算法b好,则必然存在另一些问题,在那里岛比 b比a好.有趣 的是,这个结论对任何算法均成立. 也就是说,无论学习算法a多聪明、学习算法b多笨拙,它们的期望性能竟 严格的相同! 但是请注意!!!NFL 定理有一个重要前提:所有"问题"出现的机会相 同、或所有问题同等重要.但实际情形并不是这样.

NFL 定理最重要的寓意是让我们清楚地认识到,脱离具体问题,空 泛地谈论"什么学习算法更好"毫无意义,因为若考虑所有潜在的问题,贝。所 有学习算法都一样好

 

 

你可能感兴趣的:(机器学习,西瓜书笔记,机器学习,机器学习术语,机器学习笔记,机器学习基础)