机器学习思考题目——01基础知识篇

(1)本文直译自《hands on ML》课后题。(有改动的以【】表示)。
(2)如果错误或者难理解的地方,请参考原书。

1.怎么定义机器学习?

机器学习是建立一个可以从数据中进行学习的系统。学习是指给定评价标准之后,在某些任务上(的表现)可以越来越好。

2.列举机器学习发挥重要作用的几类问题?

机器学习在以下复杂问题上效果显著:
(a)目前没有算法方案来解决这个问题;
(b)代替繁琐的手工调整;
(c)建立一个适应变化的环境的的系统;
(d)帮助人们来学习(例如数据挖掘)。

3.什么是打标签的训练集?

打标签的训练集(labeled training set)是每个样本都有目标解的训练集(training set)。

4.最常见的两类监督学习是什么?

回归和分类。

5.列举4个无监督学习的例子?

常见的无监督学习包括:聚类、可视化(visualization),降维,关联规则学习。

6.哪种类型的算法可以让机器人在一个未知的、变化的地形中行走?

强化学习(Reinforement Learning)在这类问题中表现最好。这个问题或许可以转化为监督或者半监督学习问题,但是这并不自然。

7.哪种算法可以把顾客分成若干类?

(a)如果你不知道如何定义‘类’,那么你可以用聚类算法来实现;
(b)如果你已经有了一些打好‘标签’的顾客,你可以用分类算法来实现。

8.垃圾邮件检测问题设计为监督学习问题还是无监督问题?

垃圾邮件分类问题是个典型的监督学习问题。

9.什么是在线学习系统(online learning system)?

【这个翻译不好容易误导人,还是把原答案粘过来吧;记得西瓜书里增量学习和在线学习是不一样的。】
An online learning system can learn incrementally, as opposed to a batch learn‐
ing system. This makes it capable of adapting rapidly to both changing data and
autonomous systems, and of training on very large quantities of data.

10.什么是out-of-core学习?

Out-of-core算法可以处理无法放入计算机内存的大量数据。一个out-of-core算法把数据切成小份(mini-batch),然后用在线学习(online learning)技术从这些小份(mini-batch)中学习。

11.哪种学习算法依赖相似度量(similarity measure)来进行预测?

An instance-based learning system learns the training data by heart; then, when
given a new instance, it uses a similarity measure to find the most similar learned
instances and uses them to make predictions.【个人感觉其实就是说类似与KNN的那种惰性算法】

12.模型参数(model parameter)和学习算法的超参数(hyperparameter)的区别是什么?

【以多项式回归为例,多项式的系数是模型参数,多项式的最高阶是超参数】

13. What do model-based learning algorithms search for? What is the most common strategy they use to succeed? How do they make predictions?

ANSWER:Model-based learning algorithms search for an optimal value for the model parameters such that the model will generalize well to new instances. We usuall train such systems by minimizing a cost function that measures how bad the system is at making predictions on the training data, plus a penalty for model com‐
plexity if the model is regularized. To make predictions, we feed the new instance’s features into the model’s prediction function, using the parameter values found by the learning algorithm.

14.机器学习中的主要的挑战是什么?

机器学习的一些主要挑战有:
(a)缺乏数据;
(b)数据质量差;
(c)没有代表性的数据(nonrepresentative data);
(d) uninformative features;
(e)过于简单的模型会欠拟合、过于复杂的模型会过拟合。

15.如果模型在训练集上表现很好,在新的数据上表现很差,发生了什么?说出可能的三个解决办法?

模型很可能出现了过拟合(overfitting)。
可能的解决办法有:
(a)获取更多的数据
(b)用一个简单的模型或算法、减少所用的 特征或参数、正则化模型
(c)减少训练数据中的噪音。

16.测试集(test set)是什么,为什么要用它?

测试集是在模型实际应用到生产中之前,估计该模型在新样本上的泛化误差(也就是预测误差,英文名为generalization error)。

17.验证集(validation set)的用途是什么?

验证集是用来比较模型的,它用来调节超参数和选取最优模型。

18.假如用测试集(test set)调节超参数会出什么问题?

如果用测试集来调节超参数,则有过拟合测试集的风险,得到的泛化误差可能过于乐观(模型的实际效果可能比你想象的要差)

19.什么是交叉验证(cross-validation),为什么它比一个验证集要好?

交叉验证可以不用(单独分出一个)验证集来比较模型,这节省了宝贵的训练数据。

你可能感兴趣的:(#,《Hands,On,ML》笔记,机器学习,基础知识,机器学习题目)