西瓜书学习笔记(二)

啊啊啊啊啊,昨天本来第二章写了不少内容,但是不知道CSDN的Markdown编辑器是不会自动保存的,中途发别的博客会把之前编辑的也给覆盖掉,这一章就简单写点吧。

第二章 模型评估与选择

2.1 经验误差与过拟合

精度 accuracy = 1 - a / m
错误率 error rate = a / m

训练误差 training error /经验误差 empirical error
泛化误差 generalization error

过拟合
欠拟合

2.2 评估方法

以测试误差作为泛化误差的近似

2.2.1 留出法 Hold-out

即直接把数据集D划分为两个互斥集合,训练集S,测试集T。
保持数据分布的一致性:分层采样 stratified sampling

2.2.2 交叉验证法 Cross Validation

k折交叉验证 k-fold cross validation
留一法 Leave-One-Out,即令k=m,m为样本数目

2.2.3 自助法 Bootstrapping

对于含有m个样本的数据集D,有放回的抽取m次,形成数据集D’,这样D中一部份样本会在D’中出现多次,一部分不会出现。不会出现在D’中的样本大约占D的36.8%

于是可以将D’作为训练集,D/D’作为测试集,这样的测试结果称为“包外估计”(out-of-bag estimate)。

可用于集成学习

缺点:改变了初始数据集的分布,会引入估计偏差。

2.3 性能度量

回归任务常用均方误差(mean squared error)

2.3.1 错误率与精度

2.3.2 查准率、查全率与F1

猜测为正例的里面,有多少真的是正例
Precision = TP / (TP + FP)
实际为正例的里面,有多少猜测为正例
Recall = TP / (TP + FN)
综合考虑二者
F1 = 2 * P * R/(P + R)

你可能感兴趣的:(西瓜书笔记)