模型评估函数的优缺点、选择举例

参考书籍《百面机器学习》

1.评估指标的局限性

涉及到的评估指标(Accuracy,precision,recall,rmse)

 

(1)准确率的局限性

    局限性:对于样本类别之间数量差距很大的数据,运用准确率作为评价标准,很容易让模型得到‘满足’,但是,我们关注的可能往往是数量较少的呢一个类别,比如免费玩家和充值玩家,对于游戏公司希望对模型对充值玩家的分类性能更好一点。

    解决方案:针对这种问题,我们可以考虑使用平均准确率(每个类别的样本准确率的算术平均)将其代替

 

(2)精确率与召回率的权衡

    首先介绍精确率和召回率的定义:

精确率:是指分类正确的样本中正样本的个数占模型判断正样本个数的比例。

召回率:是指分类正确的样本中正样本的个数占原始数据中真正的正样本的个数。

 

    局限性:单纯的以精确率为评价标准会导致模型过于‘保守’,不会轻易将样本归类为正样本即划分的阈值设置的很高,导致很多正样本被归为负样本,召回率急剧下降。相反,单纯的以召回率为评价标准也会导致模型过于‘开放’,精确率急剧下降。

    解决方法:P-R(precision-recall)曲线、F1-score,roc代替

    pr曲线的横轴是召回率,纵轴是精确率,通过改变当前的同一个模型阈值的方式来画出精确率和召回率范围分别在0-1之间的曲线。

模型评估函数的优缺点、选择举例_第1张图片

    F1 score是精确率和召回率的调和平均值.   公式:F1 = (2*precision*recall)/(precision + recall)

调和平均数的应用:

    调和平均数可以用在相同距离但速度不同时,平均速度的计算;如一段路程,前半段时速60公里,后半段时速30公里〔两段距离相等〕,则其平均速度为两者的调和平均数时速40公里。

 

(3)平方根误差(RMSE)的缺陷

  局限性:平方根误差对于呢些偏离程度非常大的离群点很敏感,即便是这种离群点的数量非常少,也会让评价指标变得非常差。这种情况常常发生在短时变化比较大的数据上面(风电预测,访问量预测等)。

  解决方法:    1.过滤掉这些噪声点(如果我们认为这些离群点是噪声点的话)。

                         2.提升模型预测效果,学习这些离群点的规律。

                         3.用mape平均绝对百分比误差代替。

未完待续-------

你可能感兴趣的:(机器学习算法学习)