西瓜书习题一

  1. 版本空间
    版本空间:可能存在多个假设与训练集一致,假设的集合称为版本空间,概况说来,版本空间就是从假设空间剔除了与正例不一致和与反例一致的假设,它可以看成是对正例的最大泛化
    假设空间: 所有假设组成的空间,表1.1对应的假设空间的大小为3(*、青绿、乌黑)x4(*、蜷缩、稍蜷、硬挺)x4(*、浊响、清脆、沉闷)+1( ∅ \empty )=49种,其中版本空间为:
  • (色泽=青绿;根蒂=*;敲声=*)
  • (色泽=*;根蒂=蜷缩*;敲声=*)
  • (色泽=*;根蒂=*;敲声=浊响)
  • (色泽=青绿;根蒂=蜷缩;敲声=*)
  • (色泽=青绿;根蒂=*;敲声=浊响)
  • (色泽=*;根蒂=蜷缩;敲声=浊响)
  • (色泽=青绿;根蒂=蜷缩;敲声=浊响)

2.析合范式

  • 不考虑冗余的情况下
    假设空间大小为49,去掉空集,k的最大取值为48,但是48种假设中包含很多冗余,例如三属性泛化就包含了所有的假设。
  • 考虑冗余
    48种假设中
泛化属性个数 种数
0 2x3x3=18
1 1x3x3+2x1x3+2x3x1= 21
2 2x1x1+1x3x1+1x1x3=8
3 1

所以 k > 18 k>18 k>18就存在冗余,所以特征向量是18个,所有假设都可以对应到18个中的某一个,后面的我自己就想不太明白了。
参考

  1. 涉及归纳偏好
    选择满足最多的假设,但是可能是满足噪声多。
    舍弃所有相同属性但是不同分类的数据,但是就丢失了部分信息。
    相同属性出现了两种不同的分类,则认为它属于与他最临近几个数据的属性
  2. NFL定理证明
  3. 机器学习在互联网搜索中的作用
    1.在向搜索引擎提交信息的阶段,能够从提交文本中进行信息提取,进行语义分析。
    2.在搜索引擎进行信息匹配的阶段,能够提高问题与各个信息的匹配程度。
    3.在向用户展示搜索结果的阶段,能够根据用户对结果感兴趣的程度进行排序。

你可能感兴趣的:(机器学习,机器学习,算法)