分类与预测模型效果评价

误差评价法:

通常通过绝对/相对误差、平均绝对误差、均方误差、均方根误差等指标来衡量模型的预测效果。
(1)绝对误差与相对误差
Y表示真实值,Y^表示预测值
E为绝对误差:E=Y-Y^
e为相对误差:e=(Y-Y^)/Y
(2)平均绝对误差(Mean Absolute Error)
误差有正有负,为了避免误差相互抵消故取误差绝对值的综合的平均值。
MAE =
(3)均方误差(Mean Squared Error)
避免了正负误差抵消的问题,而且加强了数值大的误差在指标中的作用,从而提高了这个指标灵敏性。
MSE
(4)均方根误差(Root Mean Squared Error)
就是均方误差开根号。
在这里插入图片描述
(5)平均绝对百分误差(Mean Absolute Percentage Error)
一般认为MAPE小于 10%时,模型预测精度较高。
在这里插入图片描述

判定系数R2:

原数据和模型的估计值如下:
在这里插入图片描述
TSS(Total Sum of Squares):样本的总偏差平方和
在这里插入图片描述
RSS(Residual Sum of Squares):样本的残差平方和
在这里插入图片描述
R2:
在这里插入图片描述
现定义:
在这里插入图片描述

Kappa统计:

Kappa系数用于一致性检验,也可以用于衡量分类精度,但kappa系数的计算是基于混淆矩阵的。
根据真实值数据和预测值数据可绘制如下混淆矩阵:
分类与预测模型效果评价_第1张图片
Kappa系数公式如下:
在这里插入图片描述
其中:
Po是每一类正确分类的样本数量之和除以总样本数,就是总体分类精度,也被称为一致性单元的比例 。通过下式计算:
分类与预测模型效果评价_第2张图片
Pe被称为偶然性一致或期望的偶然一致的单元的比例。通过下式计算:
分类与预测模型效果评价_第3张图片
Kappa系数分析:
分类与预测模型效果评价_第4张图片
例:(根据上面的混淆矩阵计算Kappa系数)
分类与预测模型效果评价_第5张图片
因为k=0.82,所以模型的预测效果已经很好了。

查准率与查全率:

对于二分类问题,根据真实类别和预测类别的组合可以得到真正例(True positive)、假正例(False Positive)、真反例(True negative)、假反例(False negative)四种情形,如下表所示:
分类与预测模型效果评价_第6张图片
查准率(precision):
所有预测为正例的样本中预测正确的概率。
P=TP/(TP+FP)
查全率(recall):
所有实际为正例的样本中预测正确的概率。
R=TP/(TP+FN)

P-R曲线:
根据模型的预测结果对样本进行排序,排在前面的样本是模型认为“最可能”是正例的样本,排在最后面的样本是模型认为“最不可能”是正例的样本(也就是最可能是反例的样本)。相当于取了一个截断点,截断点之前的样本模型预测为正例,截断点之后的样本模型预测为反例。例如sigmoid函数,预测值大于0.5的标记为正例,预测值小于0.5标记为反例,此时0.5就是阈值。截断点就相当于阈值,不断的改变截断点,计算当前的查准率和查全率,以查准率为纵轴,以查全率为横轴,就得到了P-R曲线,如下图所示(多个模型的P-R曲线):
分类与预测模型效果评价_第7张图片
(1)当一个模型的P-R曲线被另一个模型的P-R曲线完全“包住”,则断言后者的性能优于前者。
(2)如果两个模型的P-R曲线发生了交叉,则可以比较P-R曲线下面积的大小,它在一定程度上表征了模型在查准率和查全率上取得“双高”的比例。

ROC曲线与AUC:

和绘制P-R曲线的方式相似,不断的改变截断点,计算当前的真正例率和假正例率,以真正例率(True Positive Rate)为纵轴,以假正例率(False Positive Rate)为横轴,就得到了ROC曲线。
TPR(真正例率):
所有实际标记为正例的样本中预测正确的概率。
TPR=TP/(TP+FN)
FPR(假正例率):
所有实际标记为反例的样本中预测错误的概率。
FPR=FP/(TN+FP)
ROC曲线:
分类与预测模型效果评价_第8张图片
(1)如果一个模型的ROC曲线被另一个模型的ROC曲线完全“包住”,则断言后者的性能优于前者。因为一个好的模型它必须要求TPR高而FPR低,所以该模型的ROC曲线的凸处必定靠近1.
(2)如果两个模型的ROC曲线发生交叉,则可比较ROC曲线下的面积,即AUC(Area Under ROC Curve)。
假定ROC曲线是由坐标为{(x1,y1),(x2,y2),…,(xm,ym)}的点按顺序连接而形成,其中x1=0,xm=1,则AUC可估算为:
在这里插入图片描述

你可能感兴趣的:(数据挖掘,机器学习)