机器学习第一章练习题

摘自书籍--------《机器学习实战:基于Scikit-Learn和TensorFlow》

1.你会怎么定义机器学习?

答:机器学习是一门能够让系统从数据中学习的计算机科学。

2.机器学习在哪些问题上表现突出?

答:机器学习非常利于,不存在已知算法解决方案的复杂问题,需要大量手动调整或是规则列表超长的问题,创建可以适应环境波动的系统。以及帮助人类学习。

3.什么是被标记的训练集数据集?

答:被标记的训练集指包含每个实例所期望的解决方案的训练集。

4.最常见的两种监督式学习任务是什么?

答:回归和分类

5.列举出四种常见的无监督式学习任务?

答:聚类,可视化,降维和关联规则学习。

6.要让一个机器人在各种未知的地形中行走,你会使用什么类型的机器学习算法。

答:强化学习效果最好,监督式或半监督式学习。

7.要将顾客分为多个组,你会使用什么类型的算法?

答:聚类

8.你会将垃圾邮件检测的问题列为监督式学习还是无监督式学习?

答:监督式学习。

9.什么是在线学习系统?

答:在线学习系统可以进行增量学习,与批量学习系统正好相反。它可以适应不断变化的数据,并能够在大量数据上进行训练。

10.什么是核外学习?

答:核外算法可以处理计算机无法应对的数据,它将数据切分为小批量,然后使用在线学习技术从这些小批量中学习。

11.什么类型的学习算法依赖相似度来做出预测?

答:基于实例的学习系统通过死记硬背的方式处理数据。

12.模型参数与学习算法的超参数之间有什么区别?

答:模型有一个或多个参数,这些参数决定了模型对新的给定实例会做出怎样的预测。学习算法试图找出这些参数的最佳值,使得该模型可以很好的泛化到新实例。超参数是学习算法本身的参数,不是模型的参数。(比如要应用的正则化常量)

13.基于模型的学习算法搜索的是什么?它们最常使用的策略是什么?它们如何做出预测?

答:基于模型的学习算法搜索使模型泛化最佳的模型参数值。通常通过使成本函数最小化来训练这样的系统,成本函数衡量的使系统对训练数据的预测有多坏,如果模型有正则化,则再加上一个对模型复杂度的惩罚。学习算法最后找到的参数值就是最终得到的预测函数,只需要将实例特征提供给这个预测函数即可进行预测。

14.你能提出机器学习的四个主要挑战吗?

答:数据缺失,数据质量差,数据代表性差,特征不具备信息量,模型过于简单化。

15.如果你的模型在训练数据上表现良好,但是应用到新的实例上的泛化结果却很糟糕,是怎么回事儿?能提出三种可能的解决方案吗?

答:存在过拟合问题。解决方案:获取更多的数据,简化模型(减少使用的参数或特征数量,对模型正则化处理),减少数据中的噪声。

16.什么是测试集,为什么要使用测试集?

答:评估模型的泛化能力,防止过拟合和欠拟合情况。

17.验证集的目的是什么?

答:比较不同的模型,可以用来选择最佳模型和调整超参数。

18.如果使用测试集调整超参数会出现什么问题?

答:可能存在过拟合的问题,泛化误差会过于乐观。

19.什么是交叉验证?它为什么比验证集好?

答:通过交叉验证技术,可以不需要单独的验证集实现模型比较,节约训练数据。

END

你可能感兴趣的:(机器学习第一章练习题)