美赛python学习d12——机器学习分类算法的性能评价和选择

引入算法评估的意义

用多种机器学习算法解决问题,找出结果最好的算法

正类和负类

正类,也叫阳性,在机器学习中一般代表数据1,
负类,也叫阴性,在机器学习中一般代表数据0
在机器学习中,我们一般将更关注的事件定义为正类事件,我们一般关注的是结果不好的情况
美赛python学习d12——机器学习分类算法的性能评价和选择_第1张图片

伪阳性和伪阴性

  1. 伪阳性:实际上没做,预测做了,又叫一型错误
  2. 伪阴性:实际上做了,预测没做,又叫二型错误
    二型错误一般比一型错误更严重,比如染上了传染病检测成没染上

准确率悖论

预测出来的准确率还没有全部预测成1(0)这种极端情况的准确率来得高

累计准确曲线CAP

e.g用模型制定一个产品推销给哪些人的策略,横轴代表推荐的人,纵轴代表推荐成功购买的人,最终只有10%的人购买,最好的模型在一开始就抓住了那10%的人
美赛python学习d12——机器学习分类算法的性能评价和选择_第2张图片

回归问题的评估指标

机器学习就是通过优化算法不断减小误差(损失函数)来确定最后得到的函数关系中的未知参数
在这里插入图片描述

1. SSE残差平方和

2. MES均方误差

3. RMSE均方根误差

美赛python学习d12——机器学习分类算法的性能评价和选择_第3张图片
美赛python学习d12——机器学习分类算法的性能评价和选择_第4张图片

分类问题的评估指标

混淆矩阵

美赛python学习d12——机器学习分类算法的性能评价和选择_第5张图片

横轴:实际的分类
纵轴:预测的分类
对角线上的数据个数代表正确的预测个数
美赛python学习d12——机器学习分类算法的性能评价和选择_第6张图片
美赛python学习d12——机器学习分类算法的性能评价和选择_第7张图片

评估指标

  1. 分类准确率
  2. 查全率
  3. 查准率
    美赛python学习d12——机器学习分类算法的性能评价和选择_第8张图片
  4. F1分数
    F1分数是查全率和查准率的调和平均数,越接近于1表示分类效果越好
    美赛python学习d12——机器学习分类算法的性能评价和选择_第9张图片
  5. ROC曲线和AUC
    美赛python学习d12——机器学习分类算法的性能评价和选择_第10张图片
    重点关注ROC和AUC的用法
    美赛python学习d12——机器学习分类算法的性能评价和选择_第11张图片
  6. 模型的泛化能力
    通俗来讲就是模型对未知数据的预测能力,光用前面的指标优秀不能代表模型的预测能力就一定优秀,这个时候后就要把样本分为训练集测试集测试集不参与模型的训练过程,只用来最后对模型的好坏进行测试,这种对泛化能力进行评估的方法叫做留出法
    留出法中训练模型的样本只是所有样本的一部分,测试集也是随机选取的一部分,结果不是很稳定,所以引入了k折交叉验证的方法
    美赛python学习d12——机器学习分类算法的性能评价和选择_第12张图片
    注意
    美赛python学习d12——机器学习分类算法的性能评价和选择_第13张图片

欠拟合(underfitting)和过拟合(overfitting)

过拟合是指模型在训练集表现得很好,但是测试集很差
欠拟合是指模型在测试集和训练集都表现得不好
美赛python学习d12——机器学习分类算法的性能评价和选择_第14张图片

可能产生过拟合的原因

美赛python学习d12——机器学习分类算法的性能评价和选择_第15张图片

解决过拟合的方法

美赛python学习d12——机器学习分类算法的性能评价和选择_第16张图片

你可能感兴趣的:(数模美赛,机器学习,python,分类)