机器学习吃瓜教程打卡第一天——西瓜书一二章概况笔记

此博客为个人笔记记录打卡,内容夹杂自己理解。(本人第一次参与Datawhale组队学习,也是第一次系统自学算法,内容理解如有错误,请诸位勘正)。

内容主要基于机器学习西瓜书(周志华主编),Datawhale的南瓜书作为参考。

一.机器学习概况。

学习任务分为监督学习(分类和回归)和无监督学习(聚类)

个人理解分类和聚类的区别在于类别是否是确定的。对于监督学习和无监督学习的概念来说,应该是是否有数据标签

基本术语

数据集 示例(样本) 属性(特性) 属性值 属性空间(样本空间) 特征向量

维数 训练数据 训练样本 训练集 假设 真相 学习器 标记空间 分类 聚类 回归

“泛化”能力

归纳偏好

对于多种模型,都可以预估一定的效果,“什么样的模型更好?”,

对于大多数模型而言,可以达到的效果大同小异。

但是考虑到实际问题,学习算法自身的归纳偏好与问题是否匹配,往往起到决定性的作用。

(这部分的公式推导善存疑惑)

二.模型评估和选择

1.经验误差(训练误差)和过拟合

训练误差:在训练集上的误差,在不知道新样本的时候,我们能做的就是让经验误差尽可能小。

(这项区别于泛化误差)

过拟合:学习器把训练样本自身的特性当做了潜在样本的一般特性,导致泛化性减低。

(对应的是欠拟合,拟合程度不好,未完全学习训练样本)

过拟合是机器学习面临的关键障碍

2.现实中的评估方法

一般方法是引入一个测试集,同时测试集应该和训练集没有重合。如果我们只用一定的样本,我们可以用以下常见做法:留出法,交叉验证法,自助法。

留出法:数据集D分成两个互斥的数据集,要尽可能保证分布的一致,避免偏差。常见的一般留出2/3-4/5用于训练,剩下用于测试。

交叉验证法:将数据集D划分成k个大小相似的互斥子集,每次取其中一个作为测试集,余下的用于训练集,总共进行k次,取均值。如果刚好每个子集里面只有一个样本,即k=D的样本数m,我们称之为留一法(leave-one-out),这样留一法训练集之比原本数据集少一个样本,往往结果更加准确。

自助法:在数据集D中取样本,在放回,下次再随机取,取后的称为D'。在样本数较少时,一般效果较好。

性能度量

对于回归任务,一般使用均方误差。

E\left ( f;D \right )=\frac{1}{m}\sum \left (f \left (x_{i} \right )-y_{i} \right )^{2}

查准率P和查全率R

机器学习吃瓜教程打卡第一天——西瓜书一二章概况笔记_第1张图片

 查错率和查准率往往是相矛盾的两个量。

P-R曲线图反应了样本全体的P和R

机器学习吃瓜教程打卡第一天——西瓜书一二章概况笔记_第2张图片

 我们利用平衡点(P=R)(BEP)反应学习器的性能,如图A大于B

同时也可以用F1常量

F1的一般形式F_{\beta} 

机器学习吃瓜教程打卡第一天——西瓜书一二章概况笔记_第3张图片

 很多时候有许多二分类混淆矩阵

混淆矩阵是一个 2 维方阵,它主要用于评估二分类问题(例如:预测患或未患心脏病、股票涨或跌等这种只有两类情况的问题)的好坏。

我们可以用macro-P,macro-R等,是将所有的PR取平均

机器学习吃瓜教程打卡第一天——西瓜书一二章概况笔记_第4张图片

 还可以先将元素取平均值,再进行取PR,我们叫做micro值。

剩下的章节由于难度过高,等学完后期第三四章再补充。

你可能感兴趣的:(吃瓜教程,机器学习,人工智能)