西瓜书-机器学习初识-----第一章

西瓜书-机器学习初识-----第一章

  • 引言
  • 第一章-绪论
    • 书中一些简单的名词
      • 假设的概念
      • 归纳和特化的概念
    • 假设空间
    • 样本空间
    • 奥卡姆剃刀原理
    • NLP没有免费的午餐定理

引言

傍晚小街路面上沁出微雨后的湿润,和煦的细风吹来,抬头看看天边的晚霞,嗯,明天又是一个好天气。走到水果摊旁,挑了个根蒂蜷缩,敲起来声音浊响的青绿西瓜。一边满心期待着皮厚囊甜的爽落感,一边愉快地想着,这学期狠下了功夫,基础概念弄得清清楚楚,算法作业也是信手拈来,这门课成绩一定差不了!

第一章-绪论

注:此博客是作者根据自己看西瓜书经验,对一些不理解的概念通过查找资料进行个人理解。如若个人理解有错,欢迎大家指出!谢谢!

第一章中主要介绍了机器学习中一些基本的概念,但是我也有一些概念第一次看时没有理解

书中一些简单的名词

D={X1,X2,X3…Xm}表示包含m个示例的数据集
Xi = (Xi1,Xi2,…)表示某个特征向量
在D中有d个xi这种特征向量,所以一般称d为xi的维数

假设的概念

我们将模型学得称为“假设”
将y值称为输出空间,我们将预测值为离散值的问题称为分类问题
将预测值为连续值的问题称为回归问题

针对不同类的问题,我们的y值范围也有不同的变化
若为二分类问题,可令y={-1,+1}
若为多分类问题,可令|y|>2
若为回归问题,y则等于R,R为实数集

归纳和特化的概念

归纳是特殊到一般的泛化过程
特化是一般到特殊的过程,我们训练模型一般是归纳学习。

假设空间

假设空间是我第一个在西瓜书中碰到的全新概念,那么假设空间这个概念该如何理解呢,我们先用西瓜书数据举个例子。

编号 色泽 根蒂 敲声 好瓜
1 青绿 蜷缩 浊响
2 乌黑 稍蜷 沉闷
先前说到的我们机器学习在训练模型的时候其实就是在树立一个假设,去寻找数据中的真相。
假设空间则是指所有属性全部可能取到的值所形成的假设
比如这个数据中,色泽有两种可能,根蒂有两种可能,敲声有两种可能。当然我们计算假设时还可能出现*这个可能。
所以基于这个2行的数据,我们可以提出有3×3×3+1种假设。这个+1是可能本身就不存在好瓜这种概念。这里一共有28个假设
而这28个假设组成起来就是假设空间。

样本空间

样本空间是什么?样本空间一般也称为版本空间,是根据正例样本,对数据进行筛选,对正例的属性进行泛化,对反例的属性进行删除。所以一般说版本空间就是正例子的泛化

假设训练数据集对应的假设空间应该如下:

1 色泽=*,根蒂=*,敲声=*

2 色泽=青绿,根蒂=*,敲声=*

3 色泽=乌黑,根蒂=*,敲声=*

4 色泽=*,根蒂=蜷缩,敲声=*

5 色泽=*,根蒂=硬挺,敲声=*

6 色泽=*,根蒂=稍蜷,敲声=*

7 色泽=*,根蒂=*,敲声=浊响

8 色泽=*,根蒂=*,敲声=清脆

9 色泽=*,根蒂=*,敲声=沉闷

10 色泽=青绿,根蒂=蜷缩,敲声=*

11 色泽=青绿,根蒂=硬挺,敲声=*

12 色泽=青绿,根蒂=稍蜷,敲声=*

13 色泽=乌黑,根蒂=蜷缩,敲声=*

14 色泽=乌黑,根蒂=硬挺,敲声=*

15 色泽=乌黑,根蒂=稍蜷,敲声=*

16 色泽=青绿,根蒂=*,敲声=浊响

17 色泽=青绿,根蒂=*,敲声=清脆

18 色泽=青绿,根蒂=*,敲声=沉闷

19 色泽=乌黑,根蒂=*,敲声=浊响

20 色泽=乌黑,根蒂=*,敲声=清脆

21 色泽=乌黑,根蒂=*,敲声=沉闷

22 色泽=*,根蒂=蜷缩,敲声=浊响

23 色泽=*,根蒂=蜷缩,敲声=清脆

24 色泽=*,根蒂=蜷缩,敲声=沉闷

25 色泽=*,根蒂=硬挺,敲声=浊响

26 色泽=*,根蒂=硬挺,敲声=清脆

27 色泽=*,根蒂=硬挺,敲声=沉闷

28 色泽=*,根蒂=稍蜷,敲声=浊响

29 色泽=*,根蒂=稍蜷,敲声=清脆

30 色泽=*,根蒂=稍蜷,敲声=沉闷

31 色泽=青绿,根蒂=蜷缩,敲声=浊响

32 色泽=青绿,根蒂=蜷缩,敲声=清脆

33 色泽=青绿,根蒂=蜷缩,敲声=沉闷

34 色泽=青绿,根蒂=硬挺,敲声=浊响

35 色泽=青绿,根蒂=硬挺,敲声=清脆

36 色泽=青绿,根蒂=硬挺,敲声=沉闷

37 色泽=青绿,根蒂=稍蜷,敲声=浊响

38 色泽=青绿,根蒂=稍蜷,敲声=清脆

39 色泽=青绿,根蒂=稍蜷,敲声=沉闷

40 色泽=乌黑,根蒂=蜷缩,敲声=浊响

41 色泽=乌黑,根蒂=蜷缩,敲声=清脆

42 色泽=乌黑,根蒂=蜷缩,敲声=沉闷

43 色泽=乌黑,根蒂=硬挺,敲声=浊响

44 色泽=乌黑,根蒂=硬挺,敲声=清脆

45 色泽=乌黑,根蒂=硬挺,敲声=沉闷

46 色泽=乌黑,根蒂=稍蜷,敲声=浊响

47 色泽=乌黑,根蒂=稍蜷,敲声=清脆

48 色泽=乌黑,根蒂=稍蜷,敲声=沉闷

49 Ø
根据总结,按照上述过程进行学习:

(1,(色泽=青绿、根蒂=蜷缩、敲声=浊响),好瓜)

可以删除假设空间中的3、5、6、8、9、11-15、17-21、23-30、32-49

(2,(色泽=乌黑、根蒂=蜷缩、敲声=浊响),好瓜)

可以删除剩余假设空间中的2、10、16、31

(3,(色泽=青绿、根蒂=硬挺、敲声=清脆),坏瓜)

可以删除剩余假设空间中的1

(4,(色泽=乌黑、根蒂=稍蜷、敲声=沉闷),坏瓜)

剩余假设空间中无可删除的假设

学习过后剩余的假设为:

4 色泽=*,根蒂=蜷缩,敲声=*

7 色泽=*,根蒂=*,敲声=浊响

22 色泽=*,根蒂=蜷缩,敲声=浊响

这就是最后的“假设集合”,也就是“版本空间”。
原文链接:https://blog.csdn.net/m0_37688984/article/details/79461983
其实版本空间就是一个先根据正例删除与正例不一样的数据,再删除掉和反例一样的数据,最后得到的就是版本空间

奥卡姆剃刀原理

总结起来就一句话
如无必要,勿增实体
个人理解就是如果两个辩证都能证明一个事实,那么我们选择简单的那个

NLP没有免费的午餐定理

简单来说就是一个机器学习算法,如果脱离了具体的数据或者是没有在实际应用的情况下,无论多好的算法都无法去比较算法的优劣性。

你可能感兴趣的:(机器学习,机器学习)