【学习笔记】西瓜书机器学习之第一章绪论

写博客是为了记录和分享学习的过程!
本人纯小白,欢迎各位同学,大佬指教!

西瓜书博客每次将更新一章的内容,囊括两个部分
part1:一章内容的知识总结。
part2:西瓜书多是理论知识,进行python代码实现(前几章无代码)。
【学习笔记】西瓜书机器学习之第一章绪论_第1张图片

1.西瓜书的由来

周志华教授的《机器学习》一书不仅仅是因为封面上画了很多西瓜而得名西瓜书。西瓜书名称的由来主要有2个原因,1是因为周教授酷爱吃西瓜,因此书中有很多以西瓜为例子的讲解 ;2是因为在南方地区饭店吃完饭后都会送上一盘西瓜,告诉食客所有菜都上齐了,慢慢的西瓜成为了饭局上必不可少的一样东西。周教授用西瓜比作机器学习,告诉大家机器学习可能不是人工智能中最重要的一环,但是确实必不可少的存在。

2.知识总结

第一章大都是些概念上的东西,做一个简答的总结。先举一个西瓜的例子(文中称为西瓜问题)。我们去路边的货车上买西瓜,虽然大体都很相似,但是每个西瓜还是各有不同,我们希望能通过西瓜的外部特征分辨出西瓜是否是一个好瓜(甜)。我们看到以下四个西瓜:

Index 色泽 根蒂 敲声 好坏
1 青绿 蜷缩 浑浊
2 乌黑 蜷缩 浑浊
3 青绿 硬挺 清脆
4 乌黑 稍蜷 沉闷

2.1 基本术语

数据集: 一组记录(样本)的集合就称之为数据集

样本or示例:每条记录关于一个事件或对象的描述(比如一号西瓜,颜色为乌青,根蒂为蜷缩,敲声浑浊并且是一个好瓜)

特征or属性:一个西瓜的色泽,根蒂,敲声能反映西瓜在某些方面的特性称之为特征或者属性。它们具体的值成为特征值或属性值(如青绿乌黑,蜷缩硬挺)

标记:西瓜问题中的瓜的好坏是西瓜的标签。如预测的是离散值此类任务为分类任务;如是连续值此类任务为回归。(可以将标签为y,也就是我们要求解输出的东西。特征为x,输入的东西。)

目的是为了使训练出来的模型能够应用于新样本上面,也称之为“泛化”能力。

2.2 假设空间的理解

监督学习(supervised learning)的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出 一个好的预测。模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间(hypothesis space)。我们也可以将学习过程看作一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集"匹配"的假设,即能够将训练集中的瓜判断正确的假设。假设的表示一旦确定,假设空间及其规模大小就确定了。【学习笔记】西瓜书机器学习之第一章绪论_第2张图片

用我自己白话一点的解释是:每一个样本都有(x)个特征,每个特征又有(m)个值,再加上某个特征无所谓可以用通配符进行代替。于是考虑到每个特征把不同特征值(m+1)进行排列组合,这个组合出来的集合就称之为假设空间。机器学习的目的就是在这个空间内进行探索,搜索出与训练集匹配的假设。再从假设空间中删除所有与正比(好瓜)不一致和反比(不好瓜)一致的假设,最后得到的就是版本空间。

2.3 归纳偏好的理解

【学习笔记】西瓜书机器学习之第一章绪论_第3张图片
(上图为版本空间)
我们得到了三个假设,某些情况下的一个例子,在三个假设中会产生不一样的结果。因此我们不能使用全部假设,机器学习算法在学习过程中对某种类型假设的偏好,称之为“归纳偏好”(inductive bias)。归纳偏好可看作学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或者“价值观”。书中介绍了一种原则:奥卡姆剃刀,他的核心思想是若有多个假设与观察一致,则选最简单的那个。

我想把“偏好”理解为权重不知道正不正确?

你可能感兴趣的:(机器学习,机器学习,人工智能)