《机器学习》 周志华第一章

主要定义:

学习算法:关于在计算机上从数据中产生模型[泛指从数据中学得的结果]的算法

记录的集合为数据集(五个西瓜的描述数据

每条记录是关于一个事件或对象的描述为或样本示例(其中一个西瓜的描述数据

PS:在属性空间中的都有对应的坐标向量,因此示例称为称为特征向量

反映事件或对象在某方面的表现或性质的事项,为属性或特征(西瓜的色泽

属性上的取值为属性值(西瓜色青绿

属性空间、样本空间、输入空间:将任意三个属性设为三个坐标轴,并由其构成的三维空间

应用:D={x1,x2,....,xm}

D:包含n个示例的数据集

训练集:机器训练样本组成的集合(瓜园所有瓜

训练数据:训练过程中使用的数据

训练样本:机器训练的每一个样本

假设:某种潜在规律(好瓜的特征

真相或真实:潜在规律自身

好瓜为标记,其标记信息的示例为样例(有了标记

标记空间或输出空间:所有标记的集合

学习过程:在所有假设组成的空间中进行搜索

搜索目标:找到与训练及匹配的假设,不断删除与正例不同,或与反例一致的假设

假设空间:所有可能的情况,包含未知的情况*,与不存在的情况∮【+1】

版本空间:与训练集一致的假设集合




学习方法分为监督学习与无监督学习

【划分标准:训练数据是否拥有标记信息】

监督学习:赋予数据一个标记(好瓜的一些特征

监督学习的两个概念:

①分类:

二分类:只含两个类别的任务

(一个为“正类”,另一个为“反类”

多分类:涉及多个类别

②回归:

预测的是连续值(西瓜成熟度 0.56  0.75


无监督学习:不用添加标记

聚类:典型的无监督学习

簇:训练集中的西瓜分为若干组(自动形成的        如:黄色瓜,绿色瓜

泛化能力:模型适用于新样本的能力(训练样本越多,得到未知分布的信息越多,越具强泛化能力



奥卡姆剃刀:若有多个假设与观察,已知咋选最简单的那个(趋向更平滑,更简单,泛化能力更强

NFL定理(No Free Lunch Theorem):学习算法的期望性都是相同的

NFL前提:所有问题出现的机会相同,所有问题同等重要(现实中往往只关注某个问题,有针对,才有好坏

你可能感兴趣的:(《机器学习》 周志华第一章)