机器学习(1)

本章节是对我学习完机器学习(周志华)第一章 所做出来的总结

第一章绪论

1.1 引言

机器学习的定义:致力于如何通过计算的手段,利用经验来改善系统自身的性能。

机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型”的算法,也就是“学习算法”。

1.2 基本术语

数据集:由数据组成的集合。有时整个数据集也可称为一个“样本”,因为它可看作对样本空间的一个采样。

样本:数据集中每条记录关于一个事件或对象的描述,也称为“示例”。

样例:拥有标记信息的示例。

属性:反应事件或对象在某方面的表现或性质的事项,也称为“特征”。

属性值:属性的取值。

属性空间:属性张成的空间,也称为“样本空间”或“输入空间”。

学习:从数据中学得模型的过程,也称为“训练”。这个过程通过执行某个学习算法来完成。

训练数据:训练过程中使用的数据。

训练样本:训练数据中的每个样本。

训练集:训练样本组成的集合。

分类:预测的是离散值,例如:“好瓜” “坏瓜”。

回归:预测的是连续值,例如西瓜的成熟度0.95、0.37。

聚类:将训练集中的西瓜分为若干组,每组称为一个“簇”;这些自动形成的簇可能对应一些潜在的概念划分,例如“浅色瓜” “深色瓜”,甚至“本地瓜” “外地瓜”。

在聚类学习中,“浅色瓜” “深色瓜”这样的概念我们事先是不知道的,而且学习过程中使用的训练样本通常不拥有标记信息。

分类和聚类的区别:https://blog.csdn.net/u010412719/article/details/46726625/

监督学习和无监督学习:根据训练数据可以分为监督学习(分类、回归)和无监督学习(聚类),也称为有导师学习和无导师学习。

二分类:只涉及两个类别。一个为“正类”,一个为“反类”。样本空间——>输出空间;输出空间={+1,-1}或{0,1}。

多分类:涉及多个类别,|输出空间|>2。

泛化能力:学得模型适用于新样本的能力。机器学习的目标是使学得的模型能很好地适用于“新样本”,而不是仅仅在训练样本上工作得很好;即便对聚类这样的无监督学习任务,也希望学得的簇划分能适用于没在训练集中出现的样本。

1.3 假设空间

归纳学习有广义和狭义之分。

广义的归纳学习:从样例中学习。

狭义的归纳学习:从训练数据中学得概念,因此又称为“概念学习”或“概念形成”。

概念学习中最基本的是布尔概念学习,即对“是” “不是”这样的可表示为0/1布尔值的目标概念的学习。

假设空间:由所有假设组成的空间。这里我们由“色泽” “根蒂” “敲声”组成假设空间,分别有3、3、3种可能取值,则假设空间的规模大小为:4*4*4+1=65,图中*代表任意值


西瓜问题的假设空间

1.4 归纳偏好

归纳偏好:机器学算法在学习过程中对某种类型假设的偏好。

任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上“等效”的假设所迷惑,而无法产生确定的学习结果。如没有偏好每个假设都是等效的,那么对于一个新瓜,学得模型时而说是好瓜、时而说是坏瓜,这样的结果明显没有意义。

可用“奥卡姆剃刀”来引导算法确立“正确”的偏好。

奥卡姆剃刀原则:如多个假设与观察一致,则选用最简单那个。

如果采用奥卡姆剃刀原则,并且假设“更平滑”则“更简单”,那么在下图中,我们会自然的偏好“平滑”的曲线A。


存在多条曲线与有限样本训练集一致

“没有免费的午餐”定理(简称NFL定理):对于一个学习算法A,若它在某些问题上比学习算法B好,则必然存在另一些问题,在那里算法B会比算法A好。这个结论对任何算法都成立。也就是说无论学习算法A多聪明、学习算法B多笨拙,它们的期望性能都相同。


没有免费的午餐(黑点:训练样本;白点:测试样本)

NFL定理最重要的寓意是让我们清楚地认识到,脱离具体问题,空乏地谈论“什么学习算法更好”毫无意义。

你可能感兴趣的:(机器学习(1))