Task1 吃瓜教程-西瓜书 第1-2章

一、基本概念

1.1 数据集相关术语

Task1 吃瓜教程-西瓜书 第1-2章_第1张图片

1.2 机器学习分类

Task1 吃瓜教程-西瓜书 第1-2章_第2张图片

1.3 归纳偏好——奥卡姆剃刀(Occam's razor)

如果有多个假设与观察一致,则选择最简单的那个

1.4 误差公式

E_{ote}(\varepsilon _a|X,f) = \sum_{h}\sum_{x\epsilon \chi -X}P(x)\mathbb{I}(h(x)\neq f(x)))P(h|X,\varepsilon _{a}))

考虑二分类:

Task1 吃瓜教程-西瓜书 第1-2章_第3张图片 

 从结果看出,总误差与学习算法无关。对于任意两个学习算法,他们的期望性能相同。这就是NFL(没有免费的午餐原理)

二、模型评估与选择

2.1 过拟合(overfiting)、欠拟合(underfiting)

2.2 评估方法

Task1 吃瓜教程-西瓜书 第1-2章_第4张图片

 2.3 性能指标

Task1 吃瓜教程-西瓜书 第1-2章_第5张图片

 

ROC全称是“受试者工作特征”(Receiver Operating Characteristic)。机器学习中,根据学习器的预测结果对样例进行排序,按此顺序逐个把样本作为正例进行预测,每次计算出两个重要量的值,分别作为横、纵坐标作图,就得到了ROC曲线。

纵轴(真正例率)

 

横轴(假正例率)

 

AUC(Area Under ROC Curve) ROC曲线下的面积

你可能感兴趣的:(机器学习,分类,人工智能)