机器学习基本概念

一、先解释下各种名词 

从数据中分析得到模型的过程称为“训练”,用于“训练”的数据称为“训练数据”。其中每个样本称为一个“训练样本”,训练样本组成的集合称为“训练集”,测试样本组成的集合称为“测试集”。 

模型在训练集上的误差通常称为 “训练误差” 或 “经验误差”,在测试集上的误差通常称为“测试误差”。而在新样本上的误差称为 “泛化误差” 

机器学习的目的是得到泛化误差小的学习器。然而,在实际应用中,新样本是未知的,所以 

以测试集上的“测试误差”作为泛化误差的近似。使用一个“测试集”来测试学习器对新样本的判别能力。需要注意的是,测试样本尽量不在训练集中出现、未在训练过程中使用过。

二、模型度量指标

性能度量(performance measure)是衡量模型的泛化能力的评价标准。 

1,准确率(accuracy) 

准确率(accuracy)。对于给定的测试数据集,分类器正确分类的样本数与总样本数之比。是最常见也是最基本的评价算法性能指标。 

2,精确率(precision)==查准率、召回率( recall)==查全率,F1值 ,ROC与AUC —分类算法评价指标 

F1值 是精确率和召回率的调和均值 

精确率是针对我们预测结果而言的,它表示的是预测为正的样本中有多少是真正的正样本。

召回率是针对我们原来的样本而言的,它表示的是样本中的正例有多少被预测正确了。 

一般来说,精确率高时,召回率往偏低,而精确率低时,召回率偏高。

3,MSE(均方误差),RMSE(均方根误差),MAE(平均绝对误差)、R-Squared(拟合度) —-回归算法评价指标

你可能感兴趣的:(机器学习基本概念)