【机器学习】西瓜书课后习题参考答案—第一章

记录西瓜书课后习题的思考与参考答案。

术语学习

机器学习 machine learning
模型 model
学习算法 learning algorithm
数据集 data set
示例 instance
样本 sample
属性 attribute
特征 feature
属性值 attribute value
属性空间 attribute space
样本空间 sample space
特征向量 feature vector
维数 dimensionality
学习 learning
训练 training
训练数据 training data
训练样本 training sample
训练集 training set
假设 hypothesis
真相 ground-truth
学习器 learner
预测 prediction
标记 label
样例 example
标记空间 label space
分类 classification
回归 regression
二分类 binary classification
正类 positive class
反类 negative class
多分类 multi-class classification
测试 testing
测试样本 testing sample
聚类 clustering
簇 cluster
监督学习 supervised learning
无监督学习 unsupervised learning
泛化 generalization
分布 distribution
独立同分布 independent and identically distributed 简称i.i.d
归纳 induction
演绎 deduction
特化 specialization
归纳学习 inductive learning
概念 concept
版本空间 version space
归纳偏好 inductive bias
奥卡姆剃刀 Occam’s razor
“没有免费的午餐”定理 No Free Launch Theorem
人工智能 artificial intelligence
通用问题求解 General Problem Solving
连接主义 connectionism
符号主义 symbolism
决策树 decision tree
统计学习 statistic learning
支持向量机 support vector machine
核方法 kernel methods
核技巧 kernel trick
众包 crowdsourcing
数据挖掘 data mining
迁移学习 transfer learning
类比学习 learning by analogy
深度学习 deep learning

1.1 表1.1中若只包含编号为1和4的两个样例,试给出相应的版本空间。

答:
版本空间:与训练集一致的“假设集合”,称之为“版本空间”(version space)
只包含编号为1和4的两个样例后,数据集为:

编号 色泽 根蒂 敲声 好瓜
1 青绿 蜷缩 浊响
4 乌黑 稍蜷 沉闷

解题过程可以先列出假设空间,然后通过某种策略对假设空间进行搜索,删除与正例不一致的假设,和反例一致的假设,得到版本空间。
【机器学习】西瓜书课后习题参考答案—第一章_第1张图片

1.2 与使用单个合取式来进行假设表示相比,使用“析合范式”将使得假设空间具有更强的表示能力。若使用最多包含k个合取式的析合范式来表达表1.1西瓜分类问题的假设空间,试估算有多少种可能的假设。

答:
合取相当于交集,析取相当于并集。
西瓜共有3个属性,特征值数量分别为2,3,3,记为(A1,A2);(B1,B2,B3);(C1,C2,C3),因此可以构造一个3*4*4=48个假设的假设空间。

48个假设中:
0个属性泛化时,单个合取式可以表示的假设有2*3*3=18种,这也是18种特征组合,将18种单个合取式组合后根据二项式定理,可能的假设有2^18种,并且不存在冗余的关系,也就是说这是可能的假设数量上限。
当属性泛化时,单个合取式之间存在冗余关系,组合后之间也有冗余关系
1个属性泛化时,单个合取式可以表示的假设有2*3+3*3+2*3=21
2个属性泛化时,单个合取式可以表示的假设有2+3+3=8
3个属性泛化时,单个合取式可以表示的假设有1种

k最大为48,即从48个合取范式中选择k个进行组合,k=1时(最多包含1个合取范式),能表示48+1=49种假设
k为2时,合取式之间就可能存在冗余关系,去除冗余后,能表示898种

参考链接

1.3 若数据包含噪声,则假设空间中有可能不存在与所有训练样本都一致的假设。在此情形下,设计一种归纳偏好用于假设选择。

答:
通常使用奥卡姆剃刀原则,也可以剔除相同特征向量,但标签不同的数据。

另一解答:
在训练过程中选择满足最多样本的假设。也可以对每个假设,求得其准确率。准确率=(符合假设的条件且为好瓜的样例数量)/(符合假设的条件的样例数量)。选择准确率最高的假设。

参考链接

1.4

参考链接

1.5 试述机器学习能在互联网搜索的哪些环节起作用。

答:
机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。
从搜索过程进行分析

  • 在向搜索引擎提交信息阶段,通过NLP, CV等技术提高系统对提交信息中的关键信息提取性能
  • 在搜索引擎进行信息匹配阶段,提高信息匹配程度
  • 在向用户进行信息展示阶段,提高信息展示顺序与用户兴趣的匹配程度

你可能感兴趣的:(大橙子学机器学习,机器学习,人工智能,算法)