第2章 模型评估与选择
p24-p51 2017-2-21 Tue
Error rate错误率:分类错误的样本占样本总数的比例
Accuracy精度:1-错误率,分类正确的样本占样本总数的比例
Error误差:实际预测输出-样本的真实输出
Training error训练误差(或empirical error经验误差):学习器在训练集上的误差
Generalization error泛化误差:在新样本上的误差
(实际需要在新样本上表现很好的学习器)
Overfitting过拟合:学习能力太好,把训练样本所包含的不太一般的特性都想学到了
Underfitting欠拟合:学习能力太差,对训练样本的一般性质尚未学好
Model selection模型选择:
Testing set测试集:测试学习器对新样本的判别能力
Testing error测试误差:泛化误差的近似
(注意:测试集应该尽可能与训练集互斥)
Hold-out留出法:
Stratified sampling分层采样保留类别比例的采样方式
Cross validation交叉验证法(又称k-fold cross validationk折交叉验证)
Leave-One-Out(LOO)留一法:交叉验证法的一个特例
Bootstrapping自助法:
out-of-bag estimate包外估计
Parameter tuning调参(参数调节)
测试数据:学得模型在实际使用中遇到的数据
Validation set验证集模型评估与选择中用于评估测试的数据集
Performance measure性能度量衡量模型泛化能力的评价标准
Mean squared error均方误差:回归任务最常用的性能度量
错误率和精度——分类任务中最常用的两种性能度量
Precision查准率(亦称准确率)
Recall查全率(亦称召回率)
Confusion matrix混淆矩阵:true positive真正例,false positive假正例,
True negative真反例,false negative假反例
(查准率和查全率是一对矛盾的度量)
P-R曲线(P-R图):查准率-查全率曲线
Break-Event Point(BEP)平衡点:查准率=查全率时的取值
Harmonic mean调和平均:
macro-P宏查准率
micro-P微查准率
Cut point截断点
ROC:Receive Operating Characteristic受试者工作特性
ROC曲线(ROC图)
AUC
Unequal cost非均等代价
Cost matrix代价矩阵
Cost curve代价曲线
Normalization规则化:将不同变化范围的值映射到相同的固定范围中,常见的是[0,1],此时亦称归一化。
Hypothesis test统计假设检验
Binomial二项(分布)
Binomial test二项检验
泛化错误率:学习器在一个样本上犯错的概率
Confidence置信度
t-test:t检验
Two-tailed双边(假设)
Paired t-test成对t检验
卡方分布
Contingency table列联表
Post-hoc test后续检验——Friedman检验
bias-variance decomposition偏差-方差分解——解释学习算法泛化性能的一种重要工具
Bias偏差:期望输出与真实标记的差别
偏差:度量了学习算法的期望预测与真实结果的偏离程度,即刻画了学习算法本身的拟合能力
方差:度量了变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响
噪声:表达了在当前任务学习上任何学习算法所能达到的期望泛化误差的下届,即刻画了学习问题本身的难度
bias-variance dilemma偏差-方差窘境:偏差与方差是有冲突的
Student's t-test学生氏t检验