《机器学习》周志华第一章课后习题

机器学习第一章课后习题答案

1.1

先区分两个概念,假设空间和版本空间。假设空间是指所有的可能的情况所形成的假设组成的集合,而版本空间则是对假设空间进行搜索,删除与正例不一致的假设和与反例一致的假设,所得到的与训练集一致的假设 组成的集合。
对于表 1.1,若色泽、根蒂、敲声分别有3种取值,假设空间大小是 (3 + 1)^ 3 + 1 = 65,第一个 1 代表任意,即该特征对是否是好瓜无影响,第二个 1 代表空集,即没有“好瓜”这种概念(如果仅考虑表中的特征,那应该是344+1 = 49)。版本空间大小是3,包括{(色泽 = ,根蒂 = 蜷缩, 敲声 = 浊响),(色泽=,根蒂=,敲声=浊响),(色泽=,根蒂=蜷缩,敲声=*)}。
现在只考虑编号为1、4的两行,以 AAAT 表示第一行,BBBF表示第二行。假设空间的大小(只考虑1、4行出现的特征)是3^3 + 1 = 28。删除假设空间中与第1行不一致的假设和与第4行一致的情况,剩下的应该是这7种情况,##A,#A#,A##,AA#,A#A,#AA,AAA,其中#表示任意。
《机器学习》周志华第一章课后习题_第1张图片

1.2

基本概念:
析取:∨
合取:∧
析取式:用析取真值连接词“∨”将两个或两个以上的命题联结而成的一种命题形式
合取式:用合取真值连接词“∧”将两个或两个以上的命题联结而成的一种命题形式
析合范式:多个合取式的析取
这题不会做,看了几个大佬的答案大体上明白思路了。
首先,排除空集,一共有344=48种合取式(18种0泛化,21种1泛化,8种2泛化,1种全泛化,不包括空集)。
然后,在这48种合取式中取k个进行析取,去除冗余情况,即是k个合取式对应的所有假设。比如,k等于1时,共有48种假设。
因为泛化是对若干种假设的包含(包容),它本身不是某种假设。把泛化的 * 展开后,就是若干种具体的假设。如果此题采取48,那么把 * 展开后,假设集合中一定有重复,而且一种具体假设还不止重复一次。此题应该采用18种具体假设来计算, 就是:2^18 - 1
当然,k对应的所有假设并不能覆盖所有的假设。下面是几种参考代码,每个博主的代码运行结果都不一样哈哈哈哈,python跑得巨慢。
python版:
参考1
参考2
C版:
参考3
纯理论版:
参考4

1.3

参考其他博主文章链接
方法一:去噪:若两个样例所有属性相同,但是取值不同,只保留正例(或反例),在此基础上再求版本空间。
书上P5有一句话“搜索过程中可以不断删除与正例不一致的假设、和(或)与反例一致的假设”,由此得到启发:
方法二:只删除与正例不一致的假设;
方法三:只删除与反例一致的假设;
比如对于“A B T”和“A B F”两个假设,如果按照方法二,偏好是保留“A B”,按照方法三,偏好是删除“A B”。
关于版本空间的一个很好的解释链接

1.4

模仿书上式1-2即可。
《机器学习》周志华第一章课后习题_第2张图片

《机器学习》周志华第一章课后习题_第3张图片

1.5

  1. 在向搜索引擎提交信息的阶段,能够从提交文本中进行信息提取,进行语义分析。
  2. 在搜索引擎进行信息匹配的阶段,能够提高问题与各个信息的匹配程度。
  3. 在向用户展示搜索结果的阶段,能够根据用户对结果感兴趣的程度进行排序。

你可能感兴趣的:(#,《机器学习》,机器学习,机器学习)