清晰简明的混淆矩阵

混淆矩阵(Confusion Matrix)

百度百科:

混淆矩阵也称误差矩阵,是表示精度评价的一种标准格式,用n行n列的矩阵形式来表示。

看完混淆矩阵中的TN,TP,FN,FP以及召回率、精度的表达式,有点糊涂。参考了若干张混淆矩阵图,制作一张“图示:

清晰简明的混淆矩阵_第1张图片

注:

  • 根据预测情况和真实情况的对比,把全体样本分布到四个象限内(存在 n n n个类别时,混淆矩阵有 n 2 n^2 n2个象限组成);

  • 每个象限的名称,如TP,表示TruePositive,True表示预测结果是正确的,Positive表示预测中该样本是正例,如下图所示:
    清晰简明的混淆矩阵_第2张图片

  • 各个比率都是指预测正确的情况(绿色底纹部分),在所在行/列的占比

  • 不管几个类别的混淆矩阵,只有对角线是正确的(预测结果与实际一致,简单记为仅对角线是绿色

recall/precision tradeoff

应当recall和precision都取最大值时,性能最佳。但两者有此消彼长的现象,因此引入调和平均数(harmonic mean) F 1 s c o r e F_1score F1score F 1 = 2 1 p r e c i s i o n + 1 r e c a l l = 2 × p r e c i s i o n × r e c a l l p r e c i s i o n + r e c a l l = T P T P + F N + F P 2 F_1 =\frac{2}{\frac{1}{precision}+\frac{1}{recall}}=2×\frac{precision×recall}{precision+recall}=\frac{TP}{TP+\frac{FN+FP}{2}} F1=precision1+recall12=2×precision+recallprecision×recall=TP+2FN+FPTP
相比于算数平均数,调和平均数可以为较低的值更大的权重。

清晰简明的混淆矩阵_第3张图片

  • 如图显然三条曲线相交于同一点

你可能感兴趣的:(机器学习)