本章节是对我学习完机器学习（周志华）第一章所做出来的总结

第一章绪论

1.1 引言

机器学习的定义：致力于如何通过计算的手段，利用经验来改善系统自身的性能。

机器学习所研究的主要内容，是关于在计算机上从数据中产生“模型”的算法，也就是“学习算法”。

数据集：由数据组成的集合。有时整个数据集也可称为一个“样本”，因为它可看作对样本空间的一个采样。

样本：数据集中每条记录关于一个事件或对象的描述，也称为“示例”。

样例：拥有标记信息的示例。

属性：反应事件或对象在某方面的表现或性质的事项，也称为“特征”。

属性值：属性的取值。

属性空间：属性张成的空间，也称为“样本空间”或“输入空间”。

学习：从数据中学得模型的过程，也称为“训练”。这个过程通过执行某个学习算法来完成。

训练数据：训练过程中使用的数据。

训练样本：训练数据中的每个样本。

训练集：训练样本组成的集合。

分类：预测的是离散值，例如：“好瓜” “坏瓜”。

回归：预测的是连续值，例如西瓜的成熟度0.95、0.37。

聚类：将训练集中的西瓜分为若干组，每组称为一个“簇”；这些自动形成的簇可能对应一些潜在的概念划分，例如“浅色瓜” “深色瓜”，甚至“本地瓜” “外地瓜”。

在聚类学习中，“浅色瓜” “深色瓜”这样的概念我们事先是不知道的，而且学习过程中使用的训练样本通常不拥有标记信息。

分类和聚类的区别：https://blog.csdn.net/u010412719/article/details/46726625/

监督学习和无监督学习：根据训练数据可以分为监督学习（分类、回归）和无监督学习（聚类），也称为有导师学习和无导师学习。

二分类：只涉及两个类别。一个为“正类”，一个为“反类”。样本空间——>输出空间；输出空间={+1，-1}或{0，1}。

多分类：涉及多个类别，|输出空间|>2。

泛化能力：学得模型适用于新样本的能力。机器学习的目标是使学得的模型能很好地适用于“新样本”，而不是仅仅在训练样本上工作得很好；即便对聚类这样的无监督学习任务，也希望学得的簇划分能适用于没在训练集中出现的样本。

归纳学习有广义和狭义之分。

广义的归纳学习：从样例中学习。

狭义的归纳学习：从训练数据中学得概念，因此又称为“概念学习”或“概念形成”。

概念学习中最基本的是布尔概念学习，即对“是” “不是”这样的可表示为0/1布尔值的目标概念的学习。

假设空间：由所有假设组成的空间。这里我们由“色泽” “根蒂” “敲声”组成假设空间，分别有3、3、3种可能取值，则假设空间的规模大小为：4*4*4+1=65，图中*代表任意值

西瓜问题的假设空间

归纳偏好：机器学算法在学习过程中对某种类型假设的偏好。

任何一个有效的机器学习算法必有其归纳偏好，否则它将被假设空间中看似在训练集上“等效”的假设所迷惑，而无法产生确定的学习结果。如没有偏好每个假设都是等效的，那么对于一个新瓜，学得模型时而说是好瓜、时而说是坏瓜，这样的结果明显没有意义。

可用“奥卡姆剃刀”来引导算法确立“正确”的偏好。

奥卡姆剃刀原则：如多个假设与观察一致，则选用最简单那个。

如果采用奥卡姆剃刀原则，并且假设“更平滑”则“更简单”，那么在下图中，我们会自然的偏好“平滑”的曲线A。

存在多条曲线与有限样本训练集一致

“没有免费的午餐”定理（简称NFL定理）：对于一个学习算法A，若它在某些问题上比学习算法B好，则必然存在另一些问题，在那里算法B会比算法A好。这个结论对任何算法都成立。也就是说无论学习算法A多聪明、学习算法B多笨拙，它们的期望性能都相同。

没有免费的午餐（黑点：训练样本；白点：测试样本）

NFL定理最重要的寓意是让我们清楚地认识到，脱离具体问题，空乏地谈论“什么学习算法更好”毫无意义。