机器学习(二)——基本术语

模型(model):计算机层面的认知
学习算法(learning algorithm):从数据中产生模型的方法
数据集(data set):所有的样本或示例组成了数据集。
示例(instance)或样本(sample):对于某个对象的描述,每一个记录是一个示例或者是一个样本。
属性(attribute)或特征(feature):反映事物或者是对象在某方面的表现或性能的就叫做属性或者是特征。
属性值(attribute value):属性所对应的取值
属性空间(attribute space)/样本空间/输入空间(samplespace):所有的属性作为坐标值所张成的空间叫做属性空间。
版本空间:假设空间中与训练集一致的假设组成的集合。
特征向量(feature vector):在属性空间里每个点对应一个坐标向量,把一个示例称作特征向量
维数(dimensionality):描述样本参数的个数(也就是空间是几维的
学习(learning)/训练(training):从数据中学得模型的过程。
训练数据(training data):训练过程中用到的数据。所谓的训练数据,就是经过预处理(一般是人工标注)后,有相对稳妥、精确的特征描述的数据集,以“样本”形式参与模型开发工作。
训练样本(training sample):训练用到的每个样本。所有带标记的样本就构成了我们的训练样本。
训练集(training set):训练样本组成的集合。用来拟合模型,通过设置分类器的参数,训练分类模型。后续结合验证集作用时,会选出同一参数的不同取值,拟合出多个分类器。
假设(hypothesis):学习模型对应了关于数据的某种潜在规则。
真相(group-true):真正存在的潜在规律。
学习器(learner):模型的另一种叫法,把学习算法在给定数据和参数空间的实例化。
预测(prediction):判断一个东西的属性。
标记(label):关于示例的结果信息,比如我是一个“好人”。
样例(example):拥有标记的示例
标记空间/输出空间(label space):所有标记的集合
分类(classification):预测时离散值,比如把人分为好人和坏人之类的学习任务
回归(regression):预测值时连续值,比如你的好人程度达到了0.9,0.6之类的
二分类(binary classification):只涉及两个类别的分类任务
正类(positive class):二分类里的一个
反类(negative class):二分类里的另外一个
多分类(multi-class classification):涉及多个类别的分类
测试(testing):学习到模型之后对样本进行预测的过程
测试样本(testing sample):被预测的样本
偏好:机器学习算法在学习过程中,对某种类型假设的偏好,称为归纳偏好,或简称偏好。
泛化能力:训练得到的模型适用于测试样本的能力
聚类(clustering):把训练集中的对象分为若干组
(cluster):每一个组叫簇
监督学习(supervised learning):典范–分类和回归
无监督学习(unsupervised learning):典范–聚类
未见示例(unseen instance):“新样本“,没训练过的样本
泛化(generalization)能力:学得的模型适用于新样本的能力
分布(distribution):样本空间的全体样本服从的一种规律
独立同分布(independent and identically distributed,简称i,i,d.):获得的每个样本都是独立地从这个分布上采样获得的。

你可能感兴趣的:(机器学习,机器学习,人工智能,python)