机器学习常用术语总结

模型评估常用名词

错误率:

分类错误的样本数占样本总数的比例称为“错误率”(error rate),即如果在m个样本中有a个样本分类错误,则错误率E=a/m;

精度:

1-a/m称为“精度”(accuracy),即“精度=1一错误率”。

误差:

学习器的实际预测输出与样本的真实输出之间的差异称为“误差”(error),学习器在训练集上的误差称为“训练误差”(training error)或“经验误差”(empirical error),在新样本上的误差称为“泛化误差”(generalization error)。我们希望得到泛化误差小的学习器,实际能做的是努力使经验误差最小化。

混淆矩阵:

|xx | +1 | -1 |
| +1 | TP(真正) | FN()|
| -1 | FP | TN|

正确率/查准率:

(Precision),它等于 TP/(TP+FP) ,给出的是预测为正例的样本中的真正正例的比例。

召回率/查全率:

(Recall),他等于 TP/(TP+FN),给出的是预测为正例的真实正例占所有真实正例的比例。

ROC与AUC

ROC全称是“受试者工作特征”(Receiver Operating Characteristic)曲线,其横轴是“假正例率”(False Positive Rate,简称FPR),纵轴是“真正例率”(True Positive Rate,简称TRP),
TPR = TP/(TP+FN)
FPR = FP/(TN+FP)

ROC曲线给出的是当阈值变化时假阳率和真阳率的变化情况。左下角的点所对应的是将所有样例判为反例的情况,而右上角的点对应的则是将所有样例判为正例的情况。虚线给出的是随机猜测的结果曲线。
对不同的ROC曲线进行比较的一个指标是曲线下的面积(Area Unser the Curve)。AUC给出的是分类器的平均性能值,当然它并不能完全代替对整条曲线的观察。一个完美分类器的AUC为1.0,而随机猜测的AUC则为0.5。

“过拟合”(overfitting)与“欠拟合”(underfitting):

学习器把训练样本学得太好了的时候,很可能已经把训练样本自身的一些特点当作了所有潜在样本都会有的一般性质,这样就会导致泛化能力下降。这种现象在机器学习中称为过拟合,相对地,欠拟合是指对训练样本的一般性质尚未学好。

基础术语

数据集与属性

记录的集合称为一个“数据集”(data set) 或者“示例”(instance)或者“样本”(sample)
反映的对象的性质的。例如“色泽”,“根蒂”,“敲声”称为“属性”(attribute)或者“特征”(feature)

模型

若预测的是离散值,此学习任务称为“分类”(classification)
若预测的是连续值,此学习任务称为“回归”(regression)
“聚类”(clustering),即将训练集中西瓜分成若干组,每组称为一个“簇”(cluster),这些自动形成的簇可能对应潜在的概念划分,在聚类学习中,都是事先不知道的,通常不拥有标记信息。

学得模型后,使用其进行预测的过程称为“测试”(testing), 被预测的样本称为“预测样本”(testing sample)。 Fx: 学得f 后,对X进行测试,可得到其预测标记,即 y=f(X)

监督学习和无监督学习

根据训练数据是否有标记信息,学习任务可分为以下两大类:“监督学习”(supervised learning)和“无监督学习”(unsupervised learning) 分类和回归是前者的代表,而聚类则是后者的代表。机器学习使学得的模型适用于“新样本”,学得的模型适用于新样本的能力,称为“泛化”(generalization)能力。
打一个最简单的比喻,我们的目的是为了能够用机器来代替我们的经验来判断一个西瓜到底是不是好瓜!有两种办法,第一种就是告诉机器现有的瓜,让一个经验丰富的瓜农来帮你分好哪些是好瓜,哪些是坏瓜,让你根据特征来学习!这就是有人告诉你对错!就是受到教育! 第二种就是给你一堆瓜,啥的都不告诉你,你跟进你的观察和思考,自主将这些瓜分类,这一堆瓜有都是本地的,这一堆瓜都是深绿色的,然后根据调整,自己找到好瓜的那一堆!

分布

通常假设样本空间中全体样本服从一个未知的“分布”(distribution)D,我们获得的每个样本都是独立地从这个分布上采样获得的,即“独立同分布”(independent and identically distributed).训练样本越多,得到关于D的信息越多,越可能通过学习获得强泛化能力的模型

你可能感兴趣的:(机器学习常用术语总结)