机器学习01—模型评估与选择+F-R曲线+ROC曲线详解

经验误差与过拟合

错误率: 错分样本的占比:E = a/m
误差:样本真实输出与预测输出之间的差异
训练(经验)误差:训练集上
测试误差:测试集
泛化误差:除训练集外所有样本

由于事先并不知道新样本的特征,我们只能努力使经验误差最小化;
很多时候虽然能在训练集上做到分类错误率为零,但多数情况下这样的学习器并不好。

过拟合:
学习器把训练样本学习的“太好”,将训练样本本身的特点 当做所有样本的一般性质,导致泛化性能下降。从而导致在测试集上的预测效果比训练集差很多。
过拟合的解决办法:
1、优化目标加正则项https://blog.csdn.net/qq_42871249/article/details/104659074
2、early stop

欠拟合:
训练样本的一般性质尚未被学习器学好
决策树:拓展分支
神经网络:增加训练轮数
机器学习01—模型评估与选择+F-R曲线+ROC曲线详解_第1张图片

评估方法

评估原则:

现实任务中往往会对学习器的泛化性能、时间开销、存储开销、可解释性等方面的因素进行评估并做出选择

我们假设测试集是从样本真实分布中独立采样获得,将测试集上的**“测试误差”作为泛化误差的近似**,所以测试集要和训练集中的样本尽量互斥。
通常将包含个m样本的数据集D拆分成训练集S和测试集T:
在这里插入图片描述

留出法

机器学习01—模型评估与选择+F-R曲线+ROC曲线详解_第2张图片

交叉验证法

将数据集分层采样划分为k个大小相似的互斥子集,每次用k-1个子集的并集作为训练集,余下的子集作为测试集,最终返回k个测试结果的均值,k最常用的取值是10.
机器学习01—模型评估与选择+F-R曲线+ROC曲线详解_第3张图片
与留出法类似,将数据集D划分为k个子集同样存在多种划分方式,为了减小因样本划分不同而引入的差别,k折交叉验证通常随机使用不同的划分重复p次,最终的评估结果是这p次k折交叉验证结果的均值,例如常见的“10次10折交叉验证”
机器学习01—模型评估与选择+F-R曲线+ROC曲线详解_第4张图片

自助法

机器学习01—模型评估与选择+F-R曲线+ROC曲线详解_第5张图片

性能度量

性能度量是衡量模型泛化能力的评价标准,反映了任务需求;使用不同的性能度量往往会导致不同的评判结果
在预测任务中,给定样例集在这里插入图片描述
评估学习器的性能f也即把预测结果f(x)和真实标记比较.
回归任务最常用的性能度量是“均方误差”:
在这里插入图片描述

分类问题

对于分类任务,错误率和精度是最常用的两种性能度量:
错误率:分错样本占样本总数的比例
精度:分对样本占样本总数的比率
机器学习01—模型评估与选择+F-R曲线+ROC曲线详解_第6张图片
混淆矩阵
机器学习01—模型评估与选择+F-R曲线+ROC曲线详解_第7张图片
查准率: 抓住的是小偷的占抓的所有人中的比例 在这里插入图片描述
**查全率:**抓住的是小偷的人数占所有小偷人数的比例
在这里插入图片描述

P-R曲线

根据学习器的预测结果按正例可能性大小对样例进行排序,并逐个把样本作为正例进行预测,则可以得到查准率-查全率曲线,简称“P-R曲线”
计算方法:
算法对样本进行分类时,都会有置信度,即表示该样本是正样本的概率,比如99%的概率认为样本A是正例,1%的概率认为样本B是正例。通过选择合适的阈值,比如50%,对样本进行划分,概率大于50%的就认为是正例,小于50%的就是负例。
通过置信度就可以对所有样本进行排序,再逐个样本的选择阈值,在该样本之前的都属于正例,该样本之后的都属于负例。每一个样本作为划分阈值时,都可以计算对应的precision和recall,那么就可以以此绘制曲线。
例如,n为100的样本,50个为正例,50个为负例。
对置信度进行排序后,对置信度最高的一例预测为正,其余99个样本预测为负:
机器学习01—模型评估与选择+F-R曲线+ROC曲线详解_第8张图片
再对置信度最低的一例预测为负,其余99预测为正:
机器学习01—模型评估与选择+F-R曲线+ROC曲线详解_第9张图片
在这个过程中,查准率就在下降,查全率在上升。
机器学习01—模型评估与选择+F-R曲线+ROC曲线详解_第10张图片
平衡点是曲线上“查准率=查全率”时的取值,可用来用于度量P-R曲线有交叉的分类器性能高低。

F1度量

比P-R曲线平衡点更用常用的是F1度量:
在这里插入图片描述
机器学习01—模型评估与选择+F-R曲线+ROC曲线详解_第11张图片

ROC曲线

类似P-R曲线,根据学习器的预测结果即置信度对样例排序,并逐个作为正例进行预测,以“假正例率”为横轴,“真正例率”为纵轴可得到ROC曲线,全称“受试者工作特征”.
机器学习01—模型评估与选择+F-R曲线+ROC曲线详解_第12张图片
如果某样本是是真正样本,那真正例率会上升,即曲线向上移。繁殖,假正例率会上升,曲线会往右移。
机器学习01—模型评估与选择+F-R曲线+ROC曲线详解_第13张图片
机器学习01—模型评估与选择+F-R曲线+ROC曲线详解_第14张图片

代价曲线

代价敏感错误率
机器学习01—模型评估与选择+F-R曲线+ROC曲线详解_第15张图片
机器学习01—模型评估与选择+F-R曲线+ROC曲线详解_第16张图片
代价曲线图的绘制:ROC曲线上每个点对应了代价曲线上的一条线段,设ROC曲线上点的坐标为(TPR,FPR),则可相应计算出FNR,然后在代价平面上绘制一条从(0,FPR)到(1,FNR)的线段,线段下的面积即表示了该条件下的期望总体代价;如此将ROC曲线上的每个点转化为代价平面上的一条线段,然后取所有线段的下界,围成的面积即为所有条件下学习器的期望总体代价。
机器学习01—模型评估与选择+F-R曲线+ROC曲线详解_第17张图片

性能评估

关于性能比较
1、测试性能并不等于泛化性能
2、测试性能随着测试集的变化而变化
3、很多机器学习算法本身有一定的随机性
直接选取相应评估方法在相应度量下比大小的方法不可取!

比较检验

假设检验为学习器性能比较提供了重要依据,基于其结果我们可以推断出若在测试集上观察到学习器A比B好,则A的泛化性能是否在统计意义上优于B,以及这个结论的把握有多大。

二项检验

机器学习01—模型评估与选择+F-R曲线+ROC曲线详解_第18张图片

t检验

机器学习01—模型评估与选择+F-R曲线+ROC曲线详解_第19张图片

你可能感兴趣的:(机器学习)