可以看出,我们人类能做出有效的预判,是因为我们已经积累了许多经验,而通过对经验的利用,就能对新情况做出有效的决策。 Taken from Prof Zhou 《机器学习》俗称“西瓜书”
机器学习是这样一门学科:它致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。机器学习主要的研究内容,是关于在计算机上从数据中产生算法。有了算法,就能基于数据产生模型。
1.2 基本术语
数据集: 一组记录的集合,每条记录是关于一个事件的描述。
示例/样本: 数据集中每条记录称为一个示例(instance)或一个样本(sample)。
属性/特征: 反应事件或对象在某方面的表现或性质,称为属性(attribute)或特征(feature)。
属性值: 属性的值,此值非限制为数字。
属性空间/样本空间/输入空间: 属性张成空间。属性本事一维,但是如果由三个属性作为x,就“张”成为了三位空间。
特征向量: 在属性空间中,不论是多少维度,每个示例都对照着空间中的一个点。而空间中每个点对照一个坐标向量,该向量称为特征向量(feature vector)。
数据集的表示: 令D={x1,x2,…,xm}表示包含m个示例的数据集。每个示例由d个属性描述:xi=(xi1;xi2;…;xid)。
学习/训练: 从数据中学得模型的过程称为学习(learning)或训练(training)。训练过程中使用的数据称为“训练数据”,每个样本称为“训练样本”,训练样本组成的集合称为“训练集”。
标记: 要建立一个“预测”(prediction)的模型,需要的不仅仅是示例,而是带有结果的样例,样例即带有标记的示例。一般用(xi,yi)表示第i个样例。
分类: 若我们要预测的是离散值,此类学习任务称为 classification;
回归: 若我们要预测的是连续值,此类学习任务称为 regression。
测试: 学得模型后,要进行预测的过程称为测试。被预测的样本称为“测试样本”。
聚类&簇: 除了分类和回归外,还可以对训练集中的数据做聚类,分成若干组,每组称为一个“簇”(cluster)。这些自动形成的簇可能对应一些潜在的概念划分。
监督学习&无监督学习: 根据训练数据是否拥有标记信息,分为监督学习(带有Label),无监督学习(不带label)。
泛化能力: generalization 学得的模型能很好的适用于整个样本空间,称为强泛化能力。