【机器学习】周志华 第一章绪论含答案

知识点

分类:离散值
回归:连续值

监督学习:分类、回归
无监督学习:聚类

泛化能力(generalization):学得模型适用于新样本的能力。

版本空间:与训练集一致的“假设集合”。

归纳→归纳偏好(inductive bias),结合具体问题

NFL定理(No Free Lunch) 天下没有免费的午餐,换言之,就是没有算法能完美地解决所有问题,尤其是对监督学习而言(例如预测建模)。举例来说,你不能去说神经网络任何情况下都能比决策树更有优势,反之亦然。它们要受很多因素的影响,比如你的数据集的规模或结构。其结果是,在用给定的测试集来评估性能并挑选算法时,你应当根据具体的问题来采用不同的算法。

习题

(参考网上)
1-1
【机器学习】周志华 第一章绪论含答案_第1张图片
箭头好像画反了,图也不知道画的对不对

1-2
http://blog.csdn.net/icefire_tyh/article/details/52065626
网上很多答案都来自这里,表示没有看懂啊。

只能理解前面,程序部分就不懂了。

1-3
(题目:若数据包含噪声,则假设空间中有可能不存在与所有训练样本都一致的假设。在此情形下,试设计一种归纳偏好用于假设选择。)
当数据包含噪声的时候,通常是增加bias,提高模型的稳定性,常见的做法有正则化、blending、bagging等等。

通常认为两个数据的属性越相近,则更倾向于将他们分为同一类。若相同属性出现了两种不同的分类,则认为它属于与他最临近几个数据的属性。也可以考虑同时去掉所有具有相同属性而不同分类的数据,留下的数据就是没误差的数据,但是可能会丢失部分信息。

1-4
通过看no free lunch的证明,我们可以知道当换做其他性能度量时,我们只需要证明这里写图片描述为常数。

由于f(x)是均匀分布,所以上面的的公式等于0.5 * 2^x * (l(h(x) = f(x)) + l(h(x) != f(x))),而l(h(x) = f(x)) + l(h(x) != f(x))为常数。

1-5
(题目:试述机器学习能在互联网搜索的哪些环节起什么作用。)
1.最常见的,消息推送,比如购物网站总推荐一些想剁手的东西。
2.网站相关度排行,通过点击量,网页内容进行综合分析。
3.图片搜索,现在大部分还是通过标签来搜索,但是一些购物网站已经可以根据图片来推荐你想要的东西了。

参考资料:
http://blog.csdn.net/icefire_tyh/article/details/52064910

你可能感兴趣的:(看书脑图)