如何建立单一数字评价指标以优化算法性能

分类准确率是单一数字评价指标（single-number evaluation metric）的示例：在开发集（或测试集）上使用分类器，然后得到样本分类正确的比例。根据这个评价指标，如果分类器A的准确率是97%，分类器B的准确率是90%，那么我们就会认为分类器A比较优秀。

相反，精确率（Precision）和召回率（Recall）不是单一数字评价指标，而是有两项评价指标的。多项数据评价指标使得算法比较更为困难。假设你的算法是这样的：

1.jpg

在本例中，没有一个分类器有明显的优势，因此你没法立即选出一个来。

2.jpg

在研发过程中，团队对于算法构建、模型参数、特征提取等方面会尝试很多的想法。使用单一数字评价指标（如精度），可以使得你根据在此指标上的性能来对所有的模型进行排序，从而快速决定哪一个表现最优。

如果你真的很在意精确率和召回率，我建议你使用一种标准方法将他们组合成一个单一的数字。比如说，我们可以取精确率和召回率的平均值。或者，你可以计算出“F1分数”，这是一种平均值计算的改进方法，而且它比单纯采用平均值更有效。

3.png

一数据评价指标有利于你在大量分类器选择时快速做出决定。它可以提供比较清晰的排行偏好，因此，也会有明确的进程引导。

在最后一个例子中，假设你需要在四个市场中（美国，中国，印度，其他）分别跟踪你的猫猫分类器的准确率，那你就很容易得到一个指标。通过取四个数据的平均值或加权平均值，得到一个单一数字指标，这其实是比较普遍的一种方法。

大家好，我是AI搬运工
致力于将国外的AI好文，翻译成大家都懂的中国话！
本文属于AI搬运工自行翻译，如有错误，欢迎指正！
原文摘自于：Machine Learning Yearning（Technical Strategy for AI Engineers, In the Era of Deep Learning)(Draft Version)

往期回顾
01 谈及监督学习时，我们在谈什么？
02 监督学习之回归分析法：预测连续数值
03 监督学习之分类算法
04 验证集和测试集与机器学习有什么关系
05 开发集和测试集应该来自于同一分布吗?
06 开发集和测试集需要多少个样本数据？

如何建立单一数字评价指标以优化算法性能

你可能感兴趣的:(如何建立单一数字评价指标以优化算法性能)