二值分类器的优劣判断

  • ACC
    • TP: 判定正确的样本
    • FP:判定错误的样本
    • FN:应该判断正确,而没有判断/没有抽中的样本
    • TP + FP:判断的总样本/抽取的总样本
    • TP + FN:正确样本的总量
    • 准确率 : P = T P T P + F P P = \frac{TP}{TP + FP} P=TP+FPTP
    • 召回率(recall): R = T P T P + F N R = \frac{TP}{TP + FN} R=TP+FNTP
    • F1值: 2 F 1 = 1 P + 1 R = > F 1 = 2 × P × R P + R = > F 1 = 2 × T P 2 × T P + F P + F N \frac{2}{F1} = \frac{1}{P} + \frac{1}{R} => F1 = \frac{2 \times P \times R}{P + R} => F1 = \frac{2 \times TP}{2 \times TP + FP + FN} F12=P1+R1=>F1=P+R2×P×R=>F1=2×TP+FP+FN2×TP
  • ROC
    • x x x轴:FPR(false positive rate):误纳率(误认为负类的样本为正类)
    • y y y轴:正类样本中被判定为正类的样本,1-TPR也就是传说中的误拒率(误认为正类的样本为负类)
    • 重要的四个点
      • (0, 1): 完美分类器:错误率为0
      • (1, 0): 错误率100%
      • (0, 0):所有的样本均规定为负类:阈值过高
      • (1, 1): 所有的样本均规定为正类:阈值过高
  • AUC: ROC曲线下的面积
  • 总结
    • ROC解决ACC的问题:ACC对于正负样本量差异巨大的情况下(全正/全负的情况下,acc依然很棒),无法说明分类器的好坏,而ROC可以
    • ROC曲线并不能清晰的说明哪个分类器效果更好,而对AUC(ROC曲线下的面积)的值而言,值越大,分类器效果越好

你可能感兴趣的:(#,统计,机器学习)