机器学习 ----- 模型评估

文章目录

  • 机器学习 模型评估
    • 一、评估指标
      • 1.网格搜索:
      • 2.K折交叉验证
      • 3.混肴矩阵
    • 二、如何评价模型 ---- 单一实数评估指标
      • 1. 单一实数评估
      • 2.查准率和查全率
      • 3.真正率与假正率
      • 4.准确率
    • 三、模型评估小案例

机器学习 模型评估

一、评估指标

1.网格搜索:

自定义超参数:学习率与正则化组合训练模型

超参数:

  • a学习率
  • 迭代次数
  • 正则化:正则化率,L1,L2…

网格搜索会自动跑的一个逻辑
相当于执行6次fit函数
机器学习 ----- 模型评估_第1张图片

2.K折交叉验证

主要用于建模中,在给定的建模样本中,拿出大部分样本进行建模,留小部分样本用刚建立的模型进行预报,并求这小部分样本的预报误差,记录他们的平方加和。
好处:数据使用率平均,每一个epoch使用不同的数据对同一个模型进行训练,使模型具有可扩展性或者泛化性

分别用fold1 fold2。。。fold5来对模型做预测,剩下的数据训练
机器学习 ----- 模型评估_第2张图片

3.混肴矩阵

看预测对了多少,预测错了多少

纵轴表示实际,横轴表示预测,每一个数字表示实际的值预测成了预测的值的数量。主对角线都是预测对的值的次数,其他均为错值的次数
机器学习 ----- 模型评估_第3张图片

二、如何评价模型 ---- 单一实数评估指标

1. 单一实数评估

用一个实数去做评估,更清晰明了的说明问题

真假例:预测与真实值是否一致 ,一致为真,不一致为假
正负例:预测结果与期望结果是否一致,一致为正,不一致为负
判断步骤:

  • 1、判断预测结果是什么,如果为5,则为正例;
  • 2、判断预测结果是否正确,预测正确为真例

机器学习 ----- 模型评估_第4张图片

2.查准率和查全率

查准率 = TP/(TP+FP)
分母为所有预测为正的样本,分子为真正例
机器学习 ----- 模型评估_第5张图片
查全率 = TP/(TP+FN)
分母为所有的正样本,分子为真正例
机器学习 ----- 模型评估_第6张图片

练习1
我们有100张数字图片,其中是5的有10张,不是5的有90张,现在需要根据一些特征预测出所有是5的图片。
有一个模型:
预测出是5的图片为9张,
其中8个确实是5,剩下1个预测错了,不是5
那这个模型的查准率和查全率各是多少?
答:

  • 根据预测的结果是不是5 ,我们可以分为正例和负例:
    正例:9(因为我们预测出是5的图片为9张)
    负例: 91(因为我们预测出不是5的图片为100-9)
  • 根据预测的正确与否去看是真正例/假正例,真负例/假负例
    真正例TP:8(图片是5,预测也是5) 假正例FP: 1(图片不是5, 预测是5)
    (真的是5但预测不是五的数目)假负例FN: 10 – 8 =2 (图片是5,预测不是5) 真负例TN:89(图片不是5, 预测值也不是5)
    机器学习 ----- 模型评估_第7张图片
    练习2
    一个班有100个人, 某场考试中有80个人及格, 20个人不及格,现在需要根据一些特征预测出所有及格的人。
    有一个模型:
    算出及格的人数为78个,
    其中75个确实及格了,剩下3个实际上不及格
    : 主要是假负例的逻辑,首先理解假负的含义:及格但是预测为不及格。考试中有80个人及格,模型预测了75个人是真正及格的,那么差值5就是及格但是预测为不及格(假负)的数目
    机器学习 ----- 模型评估_第8张图片

将查准率与查全率结合来判断模型的好坏:PR图
定义: 以查准率为纵轴,查全率为横轴作图,就得到了查准率-查全率曲线,简称“P-R曲线”
作用

  • P-R图直观地显示出学习器在样本总体上的查全率、查准率。在进行比较时,若一个学习器的P-R曲线被另一个学习器的曲线完全“包住”,则可断言后者的性能优于前者。
  • 若两个学习器的P-R曲线发生了交叉,则难以一般性断言两者孰优孰劣,只能在具体的查准率或查全率条件下进行比较
  • 如果非要比出个高低,可以比较P-R曲线下面积的大小,或者比较平衡点(Break-Event Point)
    机器学习 ----- 模型评估_第9张图片

F1 Score
F1分数(F1 Score),是统计学中用来衡量二分类模型精确度的一种指标。它同时兼顾了分类模型的精确率和召回率。F1分数可以看作是模型精确率和召回率的一种调和平均,它的最大值是1,最小值是0。
机器学习 ----- 模型评估_第10张图片
查准率与查全率使用场景:

  • 如果训练分类器去检测视频是否对小孩是安全的,宁愿拒绝很多好的视频也不能让哪怕一个不好的视频被小孩看到,这种情况就用低召回率去保证好的视频,也就是要高准确率
  • 如果监视录像中去检测商店小偷,那么我们可以要高召回率(查全率),低准确率(宁杀错不放过)。

3.真正率与假正率

真正率:正样本预测结果数 / 正样本实际数
假正率:被预测为正的负样本结果 / 负样本实际数
机器学习 ----- 模型评估_第11张图片
机器学习 ----- 模型评估_第12张图片

利用真正率假正率判断模型的好坏:ROC曲线
含义: 对于一个ROC曲线来说,这个曲线可以理解为一个模型,用不同的阈值画出来的曲线
纵轴:真正例率(True Positive Rate),TPR;
横轴:假正例率(False Positive Rate),TPR
(0,1)表示最好的情况,(1,0)表示最差的情况
机器学习 ----- 模型评估_第13张图片
判断标准:AUC面积

  • 若一个学习器的ROC曲线被另一个学习曲线完全“包住”,则可断言后者的性能 优于前者
  • 若两个学习器的ROC曲线发生交叉,则难以一般性地断言两者孰优孰劣
  • 如果一定要进行比较,则较为合理的判断是比较ROC曲线下的面积,即AUC(Area Under Roc Curve)
  • AUC特点:面积数值不会大于1
    AUC一般情况下取值范围在0.5和1之间;
    使用AUC值作为评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好,而作为一个数值,对应AUC更大的分类器效果更好
    机器学习 ----- 模型评估_第14张图片

4.准确率

真实情况下判断为正确的值作为分子,样本数为分母
机器学习 ----- 模型评估_第15张图片

三、模型评估小案例

你可能感兴趣的:(机器学习 ----- 模型评估)