关于模型的测评方法和指标选择

关于模型的测评方法和指标选择_第1张图片

常用评价指标(P\R\F-score)

精确率(precision):预测为正确的样本中,原本就是对的的比例(越大越好,趋近于1为理想状态)
召回率(recall):原本为正确的样本中,通过模型预测为正确的比例(越大越好,趋近于1为理想状态)
F-score:综合评价精确率和召回率的指标,2/(精确率的倒数+召回率的倒数),越大越好,为1的时候说明精确率和召回率都达到最大值

其他指标

准确率:针对整体样本空间而言,模型预测正确(对的预测为对,错的预测为错)占整个样本空间的比例(越大越好)
FP:真实值为错,预测为对,占样本比率(越小越好);推广:预测结果和真实结果相反占据的比例
TP:原本是正确的,预测也是正确的比率(越大越好);推广:预测结果和真实结果相同占据的比例

RP 曲线(Precision-Reback)

精确率和召回率曲线:以R为横坐标,P为纵坐标,调整分类阈值,得到每个RP点,获得最后的RP曲线;因为在预测问题中,通常返回为概率预测,受阈值的影响,因此不同的阈值对应了不同的RP值。
评价模型的好坏,通常的指标是,RP曲线越接近坐标(1,1)的位置越好。如果一个模型的RP曲线完全包裹另一个,说明此模型效果好
如果面积重叠无法比较:则可以通过平衡点,精确率和召回率相同的时候,对角线点(查准率=查全率,Break-Even Point,BEP)来进行判断,图中说明A模型最优
关于模型的测评方法和指标选择_第2张图片

ROC和AUC曲线

ROC:二分类问题中的使用较好,衡量模型稳定性。真正率和假正率曲线(TP-FP曲线);(注意:测试数据集通常是多分类,数据集中包含反例数据)
真正率为纵轴,假正率为横轴,不同的阈值组成点绘制图形,各点反应的指标是,在不同的阈值条件下,这个模型返回的真正率和假正率的值
AUC:ROC的面积积分,取值通常为[0.5 - 1]反应的是一个概率值,表示给定一个样本,在多大的概率下能够判断为正,积分后排除了阈值对真正率的影响;AUC越高说明模型准确率高
Auc和Roc的计算通常在测试数据集中存在正负样本,需要更加精确的进行分类,对模型要求更加严格,不允许错误分类。常用于广告推荐
关于模型的测评方法和指标选择_第3张图片
关于模型的测评方法和指标选择_第4张图片

KS曲线

以不同阈值为横坐标,TP和FP分别作为纵坐标;画出两条曲线,找到每个阈值下两曲线差值,KS=MAX(最大差值)
关于模型的测评方法和指标选择_第5张图片

评价指标的选择

在正负样本量足够的情况下,ROC曲线对模型预测能力的判断较好;
而如果正负样本不均衡的情况下,RP曲线的效果好;
ROC和AUC在正负样本齐全的测试数据集中判断模型的准确率;
RP在测试数据集不均衡的条件下判断模型的表现性能,精确率和泛化能力的同时指针
RP\ROC\AUC曲线,均是排除模型预测阈值的条件下,对模型进行效果进行测评。画制曲线都是通过设定不同的阈值获得对应的坐标,画出曲线。
关于模型的测评方法和指标选择_第6张图片
关于模型的测评方法和指标选择_第7张图片

你可能感兴趣的:(模型测评,机器学习,深度学习)