【吃瓜教程】周志华西瓜书课后习题第一章答案

第一章

 

1.1表1.1中若只包含编号为1和4的两个样例,试给出相应的版本空间。

编号 色泽 根蒂 敲声 好瓜(标记)
1 青绿 蜷缩 浊响 是Y
4 乌黑 稍蜷 沉闷 否N

知识储备:

假设空间: 所有假设组成的空间

版本空间:与训练集一致的假设集合

从假设空间到版本空间算法大致如下:

1.删除与正例不一致的假设且删除与反例一致的假设

2.删除与正例不一致的假设

3.删除与反例一致的假设

具体选择哪种算法可以堪称是归纳偏好的范畴

解:已知数据集D中含样本1和样本4两个样本,每个样本共有三个属性,是否好瓜为标记,其中标记为好瓜的为正例,反之为反例。每个属性可能的取值都为两种,故数据集D假设空间共有(2+1)*(2+1)*(2+1)+1=28个(其中括号里加1是指通配项,总表达式加1是指没有好瓜的概念即空集)。

选取版本空间第一种算法,删除与正例不一致的假设得到版本空间共8种如下:

{青,蜷,浊}、{青,蜷,*}、{青,*,浊}、{*,蜷,浊}、{青,*,*}、{*,*,浊}、{*,蜷,*}、{*,*,*}

删除与反例一致的假设得到版本空间共7种如下,此时得到最终版本空间:

{青,蜷,浊}、{青,蜷,*}、{青,*,浊}、{*,蜷,浊}、{青,*,*}、{*,*,浊}、{*,蜷,*}

1.2 若使用最多包含k个合取式的析合范式来表达表1.1西瓜分类问题的假设空间,试估算共有多少种可能假设。

知识储备

合取式:是用合取真值联结词“∧”将两个或两个以上的命题联结起来而形成的命题形式。

析取式:用析取真值连接词“∨”将两个或两个以上的命题联结而成的一种命题形式

合取:相当于交集但不是交集

析取:相当于并集但不是并集

合取范式(合析范式):有限个简单析取式构成的合取式

析取范式(析合范式):由有限个简单合取式构成的析取式称为析取范式。

【吃瓜教程】周志华西瓜书课后习题第一章答案_第1张图片【吃瓜教程】周志华西瓜书课后习题第一章答案_第2张图片

1.3若数据包含噪声,则假空间中有可能不存在与所有训练样本都一致的假设。在此情形下,试设计一种归纳偏好用于假设选择。 

数据包含噪声,其含义就是,存在训练集本身的部分数据,其属性取值对应的标记值是错误的。对于噪声,最理想的情况是去除所有噪声,即将这部分“错误”的数据剔除出训练集。但事实上,单从数据集本身来剔除噪声并无通用的办法,甚至无法直接判断哪些数据属于噪声。

通俗来讲,我们可以先认为所有不矛盾的数据是正确的,只有哪些属性值相同但标记值不同的数据,“相互矛盾”的情况下,才剔除一部分数据使矛盾消除,此时剔除的方法可以归纳为一种偏好。 

例如,属性值相同的两个数据,其标记值分别为正例和反例,可以设计归纳偏好为:始终保留正例的数据,或始终保留反例的数据。

1.4 换用其他性能度量,试证明"没有免费的午餐定理“成立 

【吃瓜教程】周志华西瓜书课后习题第一章答案_第3张图片

 1.5试述机器学习能在互联网搜索的哪些环节起什么作用。

1.在向搜索引擎提交信息阶段,能够从提交文本中进行信息提取,进行语义分析。

2.在搜索引擎进行信息匹配阶段,能够提高问题与各个信息的匹配程度。

3.在向用户展示搜索结果的阶段,能够根据用户对结果感兴趣的程度进行排序。 

参考视频:【一起学习】机器学习(西瓜书)第一章课后习题答案分享_哔哩哔哩_bilibili

你可能感兴趣的:(周志华西瓜书,机器学习,算法)