《百面机器学习》第七问:准确率的局限性-为什么分类的准确率很高,但应用起来效果很差?

目录

回顾知识点:

实际场景:

1. 什么是分类的准确率?

2. 如何避免由于样本比例不均衡导致准确率失效?


 

回顾知识点:

准确率  : Accuracy

精确率  : Precision

召回率  : Recall

均方根误差  : Root Mean Square Error,  RMSE 

实际场景:

拿到奢侈品用户数据,训练和测试奢侈品用户的分类模型,该模型分类准确率超过95%,但是实际应用效果很不好,还是会将结果显示为非奢侈用户,原因?

1. 什么是分类的准确率?

Accuracy = n(分类正确的) / n(总数)

准确率是分类问题的最简单直观的评价指标,但有明显问题。假如不同样本的比例非常不均衡,占大比例的类别往往会成为影响准确率的主要原因:比如,有100个样本,95个负样本,5个正样本,即使全部描述为负样本,准确率也是95%,那 正样本等于说你一个都没有识别出来!!!

2. 如何避免由于样本比例不均衡导致准确率失效?

使用更为有效的平均准确率(每个类别下的样本准确率的算术平均值)。

你可能感兴趣的:(百问机器学习)