【机器学习】周志华西瓜书第一二章

本文为跟随DataWhale组队学习吃瓜教程的学习笔记

Task01 概览西瓜书第一、二章内容文章目录

  • 前言
  • 第一章
  • 一、绪论
    • 1.3假设空间
    • 1.4归纳偏好
  • 第二章 模型评估
    • 2.1经验误差与过拟合
    • 2.2评估方法
      • 2.2.1留出法
      • 2.2.2交叉验证法
      • 2.2.3自助法
      • 2.2.4调参与最终模型
    • 2.3性能度量
      • 2.3.1错误率与精度
      • 2.3.2查准率、查全率与F1
      • 2.3.3ROC与AUC
      • 2.3.4代价敏感错误率与代价曲线


前言

学习一个学期的深度学习了,感觉还是得学习机器学习的基础才行,就跟着学习吧


学习任务是概览西瓜书+南瓜书第1、2章

第一章

一、绪论

书中通过选西瓜的例子讲了一些基本概念,就不多说了,很多地方都讲过。

1.3假设空间

归纳:特殊到一般
广义归纳学习:从样本中学习
概念学习”(狭义概念学习):从训练数据中学习概念
布尔概念学习:最基本的概念学习。
假设空间:所有假设组成的空间。搜索目标是找到与训练集匹配的假设,即能够将训练集中样本判断正确的假设。
tips:显示问题中的假设空间一般很大,可能有多个假设与训练集一致,存在一个与训练集一致的“假设集合”,即“版本空间

演绎:一般到特殊

1.4归纳偏好

机器学习算法在学习过程中对某种类型假设的偏好。
任何有效的机器学习算法,必然会有偏好,否则无法产生确定的结果。
有一些准则可以用于帮助模型形成“正确的”或者说,更加合理的偏好。
例如:奥卡姆剃刀:若有多个假设与观察一致,则选择最简单的那个
但是准则都有不同的解释方式

第二章 模型评估

2.1经验误差与过拟合

经验误差:训练集上的误差
泛化误差:新样本上的误差
过拟合和欠拟合就用下面的图片来表现应该比较好理解
【机器学习】周志华西瓜书第一二章_第1张图片
其中欠拟合会比较好解决,多训练就好
但是过拟合是很难解决的,只能选择合适的策略进行缓解,比如早停、正则化等。

我们希望得到的模型是泛化误差较大的,但是实际上泛化误差很难得到,所以需要一些评估方法来评估模型的质量。

2.2评估方法

以测试集上的“测试误差”作为泛化误差的近似。
从数据集中,用适当的方法分出训练集和测试集

2.2.1留出法

直接将数据集分为两个互斥的集合,一个训练一个测试。
tip:1.两个集合尽量分布一致
2.用于存在很多种方式使用留出法对数据集进行划分,因此一般使用多次不同划分方式的平均结果作为留出法的评估结果
常见的做法是将大约2/3-4/5的样本用于训练,剩下的用于测试(测试样本一般不少于30个)

2.2.2交叉验证法

先将数据化划分为k个大小相似的互斥子集,每个子集保证了数据分布一致性,接下来留出一个子集测试,其余用于训练,反复k次,最终使用k次的均值作为结果。
k最常用的取值是10(其他常用值是5,20)
PS:和留出法一样,交叉验证法种的k个小数据集同样有很多的划分方式,所以也需要用不同的划分方式取平均来得出结果。
留一法:样本数量和要划分的子集的数量一致。测试结果较为准确,但是当样本数量较大的时候,就会产生很大的开销。

2.2.3自助法

对整个数据集随机采样若干次,每次采样结果直接复制进新的数据集(训练集),每个样本都有被每次采样采集到的机会。剩下的作为测试集。
适合于数据集小、难以有效划分时有用。并且该方法能从初始数据集中产生不同的训练集,这对训练有好处,但是,改变了初始数据集的分布。
初始数据足够时,留出法和交叉验证法更常用。

2.2.4调参与最终模型

模型评估与选择中用与评估测试的数据集常称为验证集,基于验证集上的性能进行模型选择和调参。

2.3性能度量

对模型泛化性能的评估
给定数据集D={(x1,y1),(x2,y2)……},其中yi是样本xi的真实标记,要评估学习器f的性能,就需要把学习器预测结果f(x)与真实标记y进行比较。
回归中常用的性能度量为均方误差
在这里插入图片描述
分类任务中常用的误差如下

2.3.1错误率与精度

错误率是分类错误的样本在总样本中的占比
在这里插入图片描述

精度是分类正确的样本在总样本中的占比

【机器学习】周志华西瓜书第一二章_第2张图片

2.3.2查准率、查全率与F1

但是错误率和精度这样的评价标准在某些情况下是不够用的
比如,在搜索中,搜出的结果只能用有没有出现关键词这样的标准来判断错误和正确,但是不是每一个包含了关键词的搜索结果都是用户所感兴趣的,因此就会产生,类似于“哪些结果对用户有帮助”,“哪些结果是用户感兴趣的”这样的需求,也就需要查准率、查全率这样的性能度量
在二分类中,将样例和真实类别与学习器预测类别的组合划分为
【机器学习】周志华西瓜书第一二章_第3张图片查准率和查全率为
【机器学习】周志华西瓜书第一二章_第4张图片
查准率和查全率一般会一个高,另一个低。
只有在简单的任务当中才会,两者都高
用P-R图可以表示出这两个指标
【机器学习】周志华西瓜书第一二章_第5张图片PS:实际上的PR曲线并没有这么平滑
一条曲线完全包裹另一条说明被包裹的这个学习器性能肯定较低,而如果产生交叉则不好判定其性能。
平衡点(BEP):查全率=查准率的点,用于在这种纠结的情况下,判断学习器性能。
但是平衡点有点简单了,所以就有了F1度量,这个更常用
【机器学习】周志华西瓜书第一二章_第6张图片用于对查准率和查全率有不同重视程度的情况时,定义为
【机器学习】周志华西瓜书第一二章_第7张图片β=1为F1,β>1偏好查全率,β<1重视查准率

2.3.3ROC与AUC

根据预测结果排序,逐个将样本作为正例进行预测,每次计算出两个重要量的值,分别为横纵轴,得出ROC曲线
【机器学习】周志华西瓜书第一二章_第8张图片曲线下面积就是AUC,面积越大,学习器性能越好

2.3.4代价敏感错误率与代价曲线

【机器学习】周志华西瓜书第一二章_第9张图片

你可能感兴趣的:(吃瓜教程笔记,人工智能,机器学习)