如何建立单一数字评价指标以优化算法性能

分类准确率是单一数字评价指标(single-number evaluation metric)的示例:在开发集(或测试集)上使用分类器,然后得到样本分类正确的比例。根据这个评价指标,如果分类器A的准确率是97%,分类器B的准确率是90%,那么我们就会认为分类器A比较优秀。

相反,精确率(Precision)和召回率(Recall)不是单一数字评价指标,而是有两项评价指标的。多项数据评价指标使得算法比较更为困难。假设你的算法是这样的:


1.jpg

在本例中,没有一个分类器有明显的优势,因此你没法立即选出一个来。


2.jpg

在研发过程中,团队对于算法构建、模型参数、特征提取等方面会尝试很多的想法。使用单一数字评价指标(如精度),可以使得你根据在此指标上的性能来对所有的模型进行排序,从而快速决定哪一个表现最优。

如果你真的很在意精确率和召回率,我建议你使用一种标准方法将他们组合成一个单一的数字。比如说,我们可以取精确率和召回率的平均值。或者,你可以计算出“F1分数”,这是一种平均值计算的改进方法,而且它比单纯采用平均值更有效。


3.png

一数据评价指标有利于你在大量分类器选择时快速做出决定。它可以提供比较清晰的排行偏好,因此,也会有明确的进程引导。

在最后一个例子中,假设你需要在四个市场中(美国,中国,印度,其他)分别跟踪你的猫猫分类器的准确率,那你就很容易得到一个指标。通过取四个数据的平均值或加权平均值,得到一个单一数字指标,这其实是比较普遍的一种方法。


大家好,我是AI搬运工
致力于将国外的AI好文,翻译成大家都懂的中国话!
本文属于AI搬运工自行翻译,如有错误,欢迎指正!
原文摘自于:Machine Learning Yearning(Technical Strategy for AI Engineers, In the Era of Deep Learning)(Draft Version)

往期回顾
01 谈及监督学习时,我们在谈什么?
02 监督学习之回归分析法:预测连续数值
03 监督学习之分类算法
04 验证集和测试集与机器学习有什么关系
05 开发集和测试集应该来自于同一分布吗?
06 开发集和测试集需要多少个样本数据?

你可能感兴趣的:(如何建立单一数字评价指标以优化算法性能)