机器学习 西瓜书 第二章 模型评估与选择 读书笔记

2.模型评估与选择
2.1 经验误差与过拟合
误差
错误率error rate
精度 accuracy
训练集上的误差
训练误差 training error
经验误差 empirical error
新样本上的误差
泛化误差 generalization error
所期待的
在新样本上表现很好的学习器
泛化误差尽量小
拟合
过拟合 overfitting
欠拟合 underfitting
2.2 评估方法
2.2.1 留出法 train/test split
1.将数据集D 划分为两个互斥的集合,其中一个集合作为训练集S,另一个作为测试集T
训练/测试集的划分要尽可能保持数据分布的一致性
2.在S 上训练出模型后,用T来评估其测试误差,作为对泛化误差的估计
2.2.2 交叉验证法 k-cross validation
1. 将数据集D 划分为k个大小相似的互斥子集,每个子集Di 都尽可能保持数据分布的一致性,即从D 中通过分层采样得到.
2.每次用k-1 个子集的并集作为训练集,余下的子集作为测试集;这样就可获得k组训练/测试集
交叉验证法评估结果的稳定性和保真性在很大程度上取决于k的取值
2.2.3 自助法
自助采样法(bootstrap sampling)
1.给定包含m 个样本的数据集D , 我们对它进行采样产生数据集D’
2.每次随机从D 中挑选一个样本, 将其拷贝放入D’ ,然后再将该样本放回初始数据集D中,使得该样本在下次采样时仍有可能被采到
3.这个过程重复执行m 次后,我们就得到了包含m个样本的数据集D‘
通过自助采样,初始数据集D中约有36.8% 的样本未出现在采样数据集D’中,于是我们可将D’ 用作训练集,D\D’ 用作测试集
这样实际评估的模型与期望评估的模型都使用m 个训练样本,而我们仍有数据总量约1/3 的、没在训练集中出现的样本用于测试。这样的测试结果,亦称"包外估计"(out-of bagestimate)
2.2.4 调参与最终模型
测试数据
学得模型在实际使用中遇到的数据
验证集
模型评估与选择中用于评估测试的数据集
在研究对比不同算法的泛化性能时,我们用测试
集上的判别效果来估计模型在实际使用时的泛化能力,而把训练数据另外划分为训练集和验证集,基于验证集上的性能来进行模型选择和调参
2.3 性能度量
2.3.1 错误率与精度
2.3.2 查准率、查全率与Fl
2.3.3 ROC 与AUC
2.4 比较检验
2 .4 .1 假设检验
2 .4 .2 交叉验证t 检验
2.4.3 McNemar 检验
2.4.4 Friedman 检验与N 凹nenyl 后续检验
2.5 偏差与方差

你可能感兴趣的:(西瓜书,机器学习,人工智能,深度学习)