逻辑回归模型的评估方法

从Weka工具跑回归模型可以看到评估的输出,怎么解读自行脑补过,大概明白了些。

翠花,上截图!

逻辑回归模型的评估方法_第1张图片

我们普通人最直接的理解是正确率吧。应该对应到Correctly Classified Instances比例(正确分类了的实例)。
在上图中,总实例数1000,正确分类了963,*正确率*96.3% 。

TP、FP、FN、TN
但一两个数往往说明不了问题,专业人士们,会看真的、被分对真的、被分错假的、被分错假的、被分对各是什么情况。
专业人士说用TP、FN、FP、TN来表示……

  • TP:True Positive,“真阳性”。
  • FP:False Positive,“假阳性”。
  • FN:False Negative,“假阴性”。
  • TN:True Negative,“真阴性”。

老外发明的标记法,跟我们东方人思维不一样,太混淆了,对比了N篇博客和翻译之后,我觉得可以这样理解:
“T”表示判定对了,“F”表示判定错了
“P”表示有事(即“命中”、“对应上”),“N”表示没事
于是:

  • TP:正确地判定了“命中”
  • FP:错误地判定了“命中”
  • TN:正确地判定了“不命中”
  • FN:错误地判定了“不命中”

有几个术语:

  • 误检率: fp rate = sum(fp) / (sum(fp) + sum(tn))
  • 查准率: precision rate = sum(tp) / (sum(tp) + sum(fp))
  • 查全率: recall rate = sum(tp) / (sum(tp) + sum(fn))
  • 漏检率:miss rate = sum(fn) / (sum(tp) + sum(fn))

能再专业一点?
唉,我盗个图吧……
TPFN组合

ROC曲线、AUC
ROC曲线的横坐标为false positive rate(FPR),纵坐标为 true positive rate(TPR)
当测试集中的正负样本的分布变化的时候,ROC曲线能够保持不变。根据每个测试样本属于正样本的概率值从大到小排序,依次将 “Score”值作为阈值threshold,当测试样本属于正样本的概率 大于或等于这个threshold时,认为它为正样本,否则为负样本
一个典型的ROC曲线如下图:

逻辑回归模型的评估方法_第2张图片

计算出ROC曲线下面的面积,就是AUC的值。 介于0.5和1.0之间,越大越好。

Kappa statics
Kappa值,即内部一致性系数(inter-rater,coefficient of internal consistency),是作为评价判断的一致性程度的重要指标。取值在0~1之间。Kappa≥0.75两者一致性较好;0.75>Kappa≥0.4两者一致性一般;Kappa<0.4两者一致性较差。
第一个图上,所显示的Kappa值有0.9356,那就算很好了。

Mean absolute error 和 Root mean squared error
平均绝对误差和均方根误差,用来衡量分类器预测值和实际结果的差异,越小越好。

Relative absolute error 和 Root relative squared error
相对绝对误差和相对均方根误差,有时绝对误差不能体现误差的真实大小,而相对误差通过体现误差占真值的比重来反映误差大小。


参考
- 有来有去-CV的博客
- YoungYang88的博客

你可能感兴趣的:(数据挖掘)