在评估不同的机器学习模型的好坏时,需要用到一些评价和指标。其中有监督学习主要包括两类:分类问题和回归问题。可以根据两者输出类型不同,进行简单区别。
混淆矩阵一般不会直接作为评价指标,但是他定义了常用指标中的一些符合的含义,以二分类问题为例,矩阵表现形式如下:
confusion_matrix()函数的输出格式为:
P(Positive)
和N(Negative)
代表模型的判断结果;T(True)
和F(False)
评价模型的判断结果是否正确。
混淆矩阵的
对角线
表示判断正确
,其余表示判断错误。
假设待检测事件为是否会发生故障:(故障为正样本)
模型训练的目标是降低FP和FN,至于具体是哪一个,需要看具体的需求。
准确率(Accuracy):在所有样本中,有多少样本被正确检测
注:Accuracy适合样本类别均衡的情况,在样本不平衡的情况下,产生效果较差。假设我们的训练数据中只有2%的正样本,98%的负样本,那么如果模型全部预测为负样本,准确率便是98%,。分类的准确率指标很高,呈现出模型很好的假象。
Precision(精准率):又称查准率,预测为正例的样本中有多少实际为正。即你认为的正样本,有多少是猜对的。
注:准确率可以反映一个类别的预测正确率。
Recall(召回率):又称查全率,实际为正例的样本有多少被预测为正。即正样本有多少被找出来了(召回了多少),召回率是针对我们原来的样本而言的,它表示的是样本中的正例有多少被预测正确了。
注:召回率可以衡量模型找到所有相关目标的能力,即模型给出的预测结果最多能覆盖多少真实目标。召回率和精确率都只能衡量检索性能的一个方面,是一对矛盾的指标,当召回率高的时候,精确率一般很低;精确率高时,召回率一般很低。
F1是基于精确率和召回率的调和平均,又称为F-Score
β=1时,得到F1如下:
P-R曲线:通过选择不同的阈值,得到Recall和Precision,以Recall为横坐标,Precision为纵坐标得到的曲线图。
PR曲线性质:
阈值下降:
AP(average precision):Precision-recall 曲线下围成的面积,一般一个分类器性能越好,AP值越高。
mAP(mean average precision):多个类别AP的平均值。
ROC(Receiver Operating Characteristic)曲线:曲线的横坐标为假正例率(FPR),即实际为负的样本有多少被预测为正;纵坐标为TPR(真正例率),即实际为正的样本多少被预测为正。
TPR和FPR的范围均是[0,1],通过选择不同的阈值得到TPR和FPR,然后绘制ROC曲线。
AUC (Area under Curve):即ROC曲线下的面积,介于0.1和1之间,作为数值可以直观的评价分类器的好坏,值
越大越好
。
MAE(Mean Absolute Error):计算每一个样本的预测值和真实值的差的绝对值,然后求和再取平均值。
其中, y i {y}_{i} yi为真实值, y ^ \hat{y} y^ 和 f ( x i ) f{(x}_{i}) f(xi)为为模型的预测值。
MSE(Mean Square Error): 计算每一个样本的预测值与真实值差的平方,然后求和再取平均值
RMSE(Root Mean Square Error):在均方误差MSE的基础上开方
注:取均方误差的平方根可以使得量纲一致,这对于描述和表示是有意义的
MAPE(Mean Absolute Percentage Error):计算对相对误差损失的预期。所谓相对误差,就是绝对误差和真值的百分比
注:当真实值有数据等于0
时,存在分母0除
问题,该公式不可用
!
SMAPE(Symmetric Mean Absolute Percentage Error):
R 2 {R}^{2} R2 决定系数(Coefficient of determination): 被称为最好的衡量线性回归法的指标。
关于公式:
使用同一个算法模型,解决不同的问题时,由于不同的数据集的量纲不同
,MSE、RMSE等指标不能体现此模型针对不同问题所表现的优劣,无法判断模型更适合预测哪个问题。 R 2 {R}^{2} R2 得到的性能度量都在[0, 1]之间,可以判断此模型更适合预测哪个问题。
暂时空着,实践整理后完善 ~~~