8. 为你的团队优化建立单个数字评估指标(machine learning yearning)

分类准确率是单个数字评估指标的一个例子:你在开发集(或测试集)上运行分类器,然后得到一个关于分类正确的比例的单个数字。根据这个评估,如果分类器A获得97%的准确率,而分类器B获得90%的准确率,那么我们判定分类器A更胜一筹。

相反,查准率和召回率(Precision and Recall)[1]不是单个数字评估指标:它有两个数字评估你的分类器。多个数字评估指标会使得算法比较变得困难。假设你的算法运行如下:


8. 为你的团队优化建立单个数字评估指标(machine learning yearning)_第1张图片

这里,没有一个分类器是明显地更好,所以不能立即引导你选择一个。

在开发阶段,你的团队会试验很多想法,包括算法架构,模型参数,特征的选择等。单个评估指标,比如准确率,会让你可以根据模型在这个指标上的性能进行排序,快速地决定哪个work地最好。

如果你确实关心查准率和召回率,我建议使用一种方法将它们合并成一个单个数字。比如取查准率和召回率的平均值,最终得到一个单个数字。或者你也可以计算“F1 score”,这是计算它们均值的一个改进,比简单地使用均值效果要好[2]。


8. 为你的团队优化建立单个数字评估指标(machine learning yearning)_第2张图片

当你在很多分类器上选择时,采用单个数字指标会加快你做决定的速度。它会在它们其中给出非常明确的排名,所以指出明确的前进方向。

作为最后一个例子,加入你分别获得四个主要市场的猫分类器的准确率:(i)美国,(ii) 中国,(iii)印度和(iv) 其它。这会给出四个指标。通过计算这四个数字的平均值或基于权重的平均值,最终你会获得一个单个数字指标。计算平均值或基于权重的平均值是合并多个指标为一个指标的一种通用做法。

[1]猫分类器的查准率(Precision)指的是开发(测试)集被标记为猫,且确实为猫的比例;召回率(Recall)指的是开发(测试)集中所有的猫图片被正确标记为猫的比例。通常在高查准率和高召回率上存在权衡。
[2]更多关于F1 score,请参见https://en.wikipedia.org/wiki/F1_score。它是查准率和召回率的几何平均(geometric mean),公式:2/((1/Precision)+(1/Recall))。

你可能感兴趣的:(8. 为你的团队优化建立单个数字评估指标(machine learning yearning))