机器学习实战课后习题(一)

机器学习实战课后习题第一章答案

课本:handson-ml2
1.如何定义机器学习?

  • 机器学习是一门能够让编程计算机从数据中学习的计算机科学。

2.机器学习在哪些问题上表现突出?是否能提出四种类型?
机器学习非常利于:

  • 不存在已知算法解决方案的复杂问题;
  • 需要大量手动调整或是规则列表超长的问题;
  • 创建可以适应环境波动的系统;
  • 帮助人类学习(例如数据挖掘)。

3.什么是被标记的训练数据集?

  • 被标记的训练集是指包含每个实例所期望的解决方案的训练集。

4.最常见的两种监督式学习任务是什么?

  • 回归和分类。

5.举出四种常见的无监督式学习任务。

  • 聚类、可视化、降维和关联规则学习。

6.要让一个机器人在各种未知的地形中行走,会使用什么类型的机器学习算法?

  • 强化学习可能更适合复杂的一系列机器学习人类的行走动作。

7.要将顾客分成多个组,会使用什么类型的算法?

  • 不知道分组的情况下,选择聚类算法;
  • 知道具体的群组,选择分类算法。

8.垃圾邮件检测的问题是监督式学习还是无监督式学习?

  • 典型的监督式学习问题:将邮件和它们的标签(垃圾邮件或非垃圾邮件)一起提供给算法。

9.什么是在线学习系统?

  • 在线学习系统可以进行增量学习,与批量学习系统正好相反。使得它能够快速适应不断变化的数据和自动化系统,并且能够在大量的数据上进行训练。

10.什么是核外学习?

  • 核外算法可以处理计算机主内存无法应对的大量数据。它将数据分割成小批量,然后使用在线学习计数从这些小批量中学习。

11.什么类型的学习算法依赖相似度来做出检测?

  • 基于实例的学习系统。

12.模型参数与学习算法的超参数之间有什么区别?

  • 模型有一个或多个参数,这些参数决定了模型对新的给定实例做出怎样的预测(例如,线性模型的斜率)。学习算法试图找到这些参数的最佳值,使得该模型能够很好地泛化至新实例。
  • 超参数是学习算法本身的参数,不是模型的参数(例如,正则化参数)

13.基于模型的学习算法搜索的是什么?最常使用的策略是什么?它们如何做出预测?

  • 基于模型的学习算法搜索使模型泛化最佳的模型参数值。
  • 通常通过使损失函数最小化来训练这样的系统,损失函数衡量的是系统对训练数据的预测有多坏。
  • 学习算法最后找到的参数值就是最终得到的预测函数,只需将实例提供给这个预测函数即可进行预测。

14.机器学习的四个主要挑战?

  • 数据缺乏;
  • 数据质量差;
  • 数据不具有代表性;
  • 特征不具信息量;
  • 模型过于简单对训练数据欠拟合;
  • 模型过于复杂对训练数据过拟合。

15.如果你的模型在训练数据上表现很好,但是应用在新的实例上的泛化结果却不好,是怎么回事?能提出三种可能的结局方案么?

  • 过度拟合训练数据(在训练数据上运气太好)。可能的解决方案有:获取更多数据;简化模型(选择更简单的算法、减少使用的参数或特征数量、对模型进行正则化);减少训练数据中的噪声。

16.什么是测试集,为什么要使用测试集?

  • 在模型启动至生产环境之前,使用测试集来估算模型在新实例上的泛化误差。

17.验证集的目的是什么?

  • 验证集用来比较不同模型,可用来选择最佳模型和调整超参数。

18.如果使用测试集调整超参数会出现什么问题?

  • 有过拟合的风险,最后测量的泛化误差过于乐观,导致最后的模型性能低于预期。

19.什么是交叉验证?为什么比验证集更好?

  • 通过交叉验证计数,可以不需要单独的验证集实现模型比较(用于模型选择和调整超参数),节省了宝贵的训练数据。

你可能感兴趣的:(机器学习,机器学习,人工智能,数据挖掘)