模型评价指标总结

评价 Evalution

线上训练的正确率很高,但是线下却仍然效果很差达不到分类的标准可能的原因?

  • 首先想到的应该是评价标准的问题
    • 在负样本占99的情况下,如果评价指标选择正确率,那么分类器把所有结果都分配给负样本也会获得99的正确率。
  • 线上线下样本不一致
  • 测试集训练集划分不一致
  • 模型存在过拟合/欠拟合

评价标准的基本知识

预测\GT 真的是真 真的是假
猜到是真 T(true)P(预测正样本) F(false)P(预测正样本)
猜到是假 F(false)N(预测负样本) T(true)N(预测负样本)

召回率又叫做TPR(true positive rate)

相对应的有FPR(false positive rate)

准 确 率 ( 猜 对 ∣ 在 猜 到 正 样 本 的 情 况 下 ) = T P T P + F P 召 回 率 ( 猜 对 ∣ 在 全 是 正 样 本 的 情 况 下 ) = T P T P + F N F P R ( 猜 错 成 正 样 本 ∣ 负 样 本 的 情 况 下 ) = F P F P + T N 准确率(猜对|在猜到正样本的情况下) = \frac {TP} {TP + FP}\\ 召回率(猜对|在全是正样本的情况下)= \frac {TP} {TP + FN}\\ FPR(猜错成正样本|负样本的情况下) = \frac{FP}{FP + TN}\\ =TP+FPTP=TP+FNTPFPR()=FP+TNFP

召回率高的情况下:意味:阈值低。是人脸或者不是人脸的图片 全部猜为人脸,recall就会高,人脸就会多。
类似于,检测疾病,我们希望能可猜错不能放过,召回率就要越大越好。

准确率高的情况下:意味:系统严格,阈值高。稍微不像人脸的都猜不像人脸。
类似于。。就是系统非常严格,很多置信度低的人脸的都按照负样本划分。

上述两者是此消彼长的一个过程,是现实系统需要考虑的。

综合曲线

ROC,综合上述指标,不单是描述在某一方面的优点

ROC曲线是“受试者工作特性曲线”

横坐标:假阳性概率(检测出是阳性但是其实是阴性的概率)

纵坐标:真阳性概率(是阳性且检测出是阳性的概率)

ROC曲线是通过不断移动“截断点/阈值”来生成的曲线,效果好的ROC是一个类似阶跃曲线。

AP 曲线 Average Presion

横坐标:召回率

纵坐标:准确率

我们希望这两个曲线理想的形式是都很高,是一个阶跃下降的样子。但事实上这两个指标是相互冲突的。

你可能感兴趣的:(机器学习笔记)