西瓜书学习笔记Chapter1-2

西瓜书学习笔记Chapter 1—2

  • Chapter 1 绪论
    • 一、学习内容
  • Chapter 2 模型评估与选择
    • 一、学习内容
    • 二、难点

该学习笔记中,基本概念和理论不详写,具体请看西瓜书

Chapter 1 绪论

一、学习内容

1、假设空间与版本空间

假设空间是指所有假设的集合,版本空间是指与训练集一致的一个假设集合,版本空间能对所有训练样本进行正确的判断。因此,版本空间要比假设空间小。

2、计算假设空间

计算假设空间的规模时,要考虑∅。

3、奥卡姆剃刀原则

原则:如果有多个假设,则选择最简单的那一个。

证明结论:对二分类问题,且目标函数服从均匀分布,则简单算法和胡乱算法的总误差相等。

Chapter 2 模型评估与选择

一、学习内容

1、过拟合

样本训练得太好,把训练样本的自身特点也当作规律,泛化能力下降。

2、评估方法

目的:处理数据集,产生训练集和测试集

前提: 测试样本独立同分布

方法:

留出法
直接划分训练集和测试集,2/3~4/5的样本为训练集,其余为测试集,用分层采样法使划分后保持数据分布的一致性;
若干次划分,重复实验,取均值作为评估结果。

交叉验证法
将数据集划分为K个互斥子集,每次用K-1个作为训练集,剩下一个作为测试集,进行K次训练,得出均值为该次训练的结果;
使用不同划分重复P次,取P次K交叉验证的结果的均值为评估结果。

留一法
在交叉验证法的基础上,令K=样本数m;

自助法
从数据集D中进行m\(样本数)次可放回抽样,得出D’(样本数也为m);
D’为训练集,D\D’为测试集。

3、性能度量

目的:是模型泛化能力的评估标准

常用性能度量:

错误率与精度

查准率与查全率与FI

如何理解?
西瓜书学习笔记Chapter1-2_第1张图片
上图参考了另外一篇文章

如何通过P和R选择模型?

  • 看P-R曲线,图像能外包、平衡点高的模型,性能好
  • 看F1调和平均
  • 看Fβ加权平均,按照对P和R的偏好程度,选择模型,β>1偏好R,β<1偏好P

多次训练测试,可用macro-R,macro-P综合考察查准率和查全率

ROC与AUC

如何理解loss?
书本b图上空白面积部分为损失loss

代价曲线的公式如何理解?
给定正例概率p和学习模型,在归一化下,求损失期望的最小值。选取损失期望最小的情况。

二、难点

1、代价曲线与期望总体代价图像的理解
2、交叉验证t检验、McNemar检验、Friedman检验与Nemenyi检验

你可能感兴趣的:(机器学习)