机器学习学习笔记(三)-模型评估与选择

  • 绪论
  • 模型评估与选择(1)
  • 模型评估与选择(2)
  • 模型评估与选择(3)
  • 线性模型(1)线性回归
  • 决策树
  • 神经网络
  • 支持向量机
  • 贝叶斯分类
  • 集成学习
  • 聚类
  • 降维与度量学习
  • 特征选择与稀疏学习
  • 计算学习理论
  • 半监督学习
  • 概率图模型
  • 规则学习
  • 强化学习

模型评估与选择(2)

2.3.3ROC与AUC

很多学习器是为测试样本产生一个实值或概率预测,然后将这个预测值与一个分类阈值进行比较,若大于阈值则分为正类,否则为反类。例如,神经网络在一般情形下是对每一个预测样本预测出一个[0.0,0.1]之间的实值,然后将这个值与0.5进行比较,大于0.5则判为正例,否则为反例。这个实值或概率预测结果的好坏,直接决定了学习器的泛化能力。实际上,根据这个实值或概率预测结果,我们可将测试样本进行排序,“最可能”是正例的排在最前面,“最不可能”是正例的排在最后面。这样,分类过程就相当于在这个排序中以某个“截断点”将样本分为两部分,前一部分判作正例,后一部分则判作反例。

在不同的应用任务中,我们可以根据任务需求来采用不同的截断点,例如我们更重视“查准率”,则可选择排序中靠前的位置进行截断;若更重视“查全率”,则可根据靠后的位置进行截断。因此,排序本身的质量好坏,体现了综合考虑学习器在不同人自爱的“期望泛化能力”的好坏,或者说,“一般情况下”泛化性能的好坏。ROC曲线则是从这个角度出发来研究学习器泛化性能的有力工具。

ROC全称是“受试者工作特征”,与之前讲述的P-R曲线的方法类似,只不过横纵坐标的意义发生了变化。
根据学习器的预测结果对样例进行排序,按照顺序逐个把样本的预测值作为阈值进行截断,每次计算两个值。纵轴为“真正例率”(TPR),横轴是“假正例率”(FPR),计算方法如下
机器学习学习笔记(三)-模型评估与选择_第1张图片
显示ROC曲线的图称为“ROC图”。如图
机器学习学习笔记(三)-模型评估与选择_第2张图片
由横纵坐标代表的意义就可以知道,坐标(0,1)则对应与将所有正例排在所有反例之前的“理想模型”。现实中通常是使用有限个测试样例来绘制ROC图,此时如图2.4中的b图所示。
进行学习器的比较时,若一个学习器的ROC曲线被另一个学习器的曲线完全“包住”,则可断言后者的性能优于前者;若两个学习器的ROC曲线发生交叉,较为合理的方法是通过比较ROC曲线下的面积,即AUC。

2.3.4 代价敏感错误率与代价曲线

在现实任务中常会遇到这样的情况:不同类型的错误所造成的后果不同。例如在医疗诊断中,错误地把患者诊断为健康人与错误地把健康人诊断为患者,看起来都是犯了“一次错误”,但后者的影响是增加了进一步检查的麻烦,前者的后果可能是丧失了拯救生命的最佳时机;再如,门禁系统错误地把可通过人员拦在门外,将使得用户体验不佳,但错误地把陌生人放进门内,则会造成严重的安全事故。为权衡不同类型错误所造成的不同损失,可谓错误赋予“非均等代价”
机器学习学习笔记(三)-模型评估与选择_第3张图片
在非均等代价下,我们所希望的不再是简单地最小化错误次数,而是希望最小化“总体代价”。若将表中的第0类作为正类、第1类作为反类,令D+与D-分别作为代表例集D的正例子集和反例子集,则“代价敏感”错误率为机器学习学习笔记(三)-模型评估与选择_第4张图片
就是每个样本预测错误的概率之和。
机器学习学习笔记(三)-模型评估与选择_第5张图片
机器学习学习笔记(三)-模型评估与选择_第6张图片

2.4 比较检验
有了实验评估方法和性能度量,看起来就能对学习器的性能进行评估比较了;先使用某种实验评估方法测得学习器的某个性能度量结果,然后对这些结果进行比较。如何比较同样是一个比较复杂的问题,直接比较大小是不可取的。首先,我们希望比较的是泛化性能,然而通过实验评估方法我们获得的是测试集上的性能,两者的对比结果可能未必相同;第二,测试集上的性能与测试集本身的选择有很大的关系,且不论使用不同大小的测试集会得到不同的结果,即便用相同大小的测试集,若包含的测试样例不同,测试结果也会有不同;第三,很多机器学习算法本身有一定的随机性,即便用相同的参数设置在同一个测试集上多次运行,其结果也会有不同。

统计假设检验为我们进行学习器性能比较提供了重要依据,基于假设检验结果我们可以推断出,若在测试集上观察到学习器A比B好,则A的泛化性能是否在统计意义上优于B,以及这个结论的把握有多大。

2.4.1 假设检验
(接下来需要对数学与统计有点基础,本人看起来就比较费劲)

泛化错误率为ε的学习器在一个样本上犯错的概率是ε;测试错误率ε^意味着在m个测试样本中恰有
ε^ *m个被误分类。假定测试样本是从样本总体分布中独立采样而得,那么泛化错误率为ε的学习器将其中m’个样本误分类、其余样本全都分类正确的概率是
在这里插入图片描述由此可估算出其恰将ε^ m个样本误分类的概率如下图所示,这也表达了在包含m个样本的测试集上,泛化错误率为ε的学习器被测得测试错误率为ε^的概率:
在这里插入图片描述
机器学习学习笔记(三)-模型评估与选择_第7张图片
我们可以把它理解为,泛化错误率和测试错误率相等的概率是最大的。
机器学习学习笔记(三)-模型评估与选择_第8张图片
这里可以这样理解,计算出错误样本个数大于ε0
m的概率之和,如果小于α,则可认为最大的概率是比ε0小的,即泛化错误率是比ε0小的,因为之前说过,只有当泛化错误率和测试错误率相等的时候,概率最大。
机器学习学习笔记(三)-模型评估与选择_第9张图片
机器学习学习笔记(三)-模型评估与选择_第10张图片
这个是很常用的t检验,应该很好理解。(因为公式比较多,不好编辑,就直接放图片了)

你可能感兴趣的:(机器学习)