机器学习基础概念练习题与答案

1.你会怎么定义机器学习?

答:机器学习是一门能够让系统从数据中学习的计算机科学
2.机器学习在哪些问题上表现突出,你能提出四种类型吗?

答:机器学习非常利于: 1.不存在已知算法解决方案的复杂问题2. 需要大量手动调整或是规则列表超长的问题, 3.创建可以适应环境波动的系统, 4.以及帮助人类学习(比如数据挖掘)
3.什么是被标记的训练数据集?

答:被标记的训练集是指包含每个实例所期望的解决方案的训练集
4.最常见的两种监督式学习任务是什么?

答:最常见的两个监督式任务是回归和分类
5.你能举出四种常见的无监督式学习任务吗?

答:常见的无监督式任务包括聚类、 可视化、 降维和关联规则学习。
6.要让一个机器人在各种未知的地形中行走,你会使用什么类型的机器学习算法?

答:如果想让机器人学会如何在各种未知地形上行走, 强化学习可
能表现最好, 因为这正是一个典型的强化学习擅长解决的问题。 将这
个问题表达为监督式或半监督式学习问题也可以, 但还是有点不太自然。


7.要将顾客分成多个组,你会使用什么类型的算法?

答:如果你不知道如何定义分组, 那么可以使用聚类算法(无监督
式学习) 将相似的顾客分为一组。 但是, 如果你知道想要的是什么样
的群组, 那么可以将每个组的多个示例反馈给分类算法(监督式学
习) , 它就可以将所有的顾客归类到这些组中。


8.你会将垃圾邮件检测的问题列为监督式学习还是无监督式学习?

答:垃圾邮件检测是个典型的监督式学习问题: 将邮件和它们的标
签(垃圾邮件或非垃圾邮件) 一起提供给算法。


9.什么是在线学习系统?

答:在线学习系统可以进行增量学习, 与批量学习系统正好相反。
这使得它能够快速适应不断变化的数据和自动化系统, 并且能够在大
量的数据上进行训练。


10.什么是核外学习?

答:核外算法可以处理计算机主内存无法应对的大量数据。 它将
数据分割成小批量, 然后使用在线学习技术从这些小批量中学习。


11.什么类型的学习算法依赖相似度来做出预测?

答:基于实例的学习系统通过死记硬背来学习训练数据,当给定
一个新实例时,它会使用相似度度量来找到与之最相似的实例,并用
它们进行预测。


12.模型参数与学习算法的超参数之间有什么区别?

答:模型有一个或多个参数,这些参数决定了模型对新的给定实
例会做出怎样的预测(比如,线性模型的斜率)。学习算法试图找到
这些参数的最佳值,使得该模型能够很好地泛化至新实例。超参数是
学习算法本身的参数,不是模型的参数(比如,要应用的正则化数量。


13.基于模型的学习算法搜索的是什么?它们最常使用的策略是什么?它们如何做出预测?

答:基于模型的学习算法搜索使模型泛化最佳的模型参数值。通
常通过使成本函数最小化来训练这样的系统,成本函数衡量的是系统
对训练数据的预测有多坏,如果模型有正则化,则再加上一个对模型
复杂度的惩罚。学习算法最后找到的参数值就是最终得到的预测函
数,只需要将实例特征提供给这个预测函数即可进行预测。


14.你能提出机器学习中的四个主要挑战吗?

答:机器学习面临的一些主要挑战是:数据缺乏、数据质量差、
数据不具代表性、特征不具信息量、模型过于简单对训练数据拟合不
足,以及模型过于复杂对训练数据过度拟合。


15.如果你的模型在训练数据上表现很好,但是应用到新的实例上的泛化结果却很糟糕,是怎么回事?能提出三种可能的解决方案吗?

答:如果模型在训练数据上表现很好,但是对新实例的泛化能力
很差,那么该模型很可能过度拟合训练数据(或者在训练数据上运气
太好)。可能的解决方案是:获取更多数据,简化模型(选择更简单
的算法、减少使用的参数或特征数量、对模型正则化),或者是减少
训练数据中的噪声

16.验证集的目的是什么?

答:验证集用来比较不同模型。它可以用来选择最佳模型和调整超参数。

17.如果使用测试集调整超参数会出现什么问题?、

答:如果使用测试集来调整超参数,会有过度拟合测试集的风险,最后测量的泛化误差会过于乐观(最后启动的模型性能比预期的要差)。
18.什么是交叉验证? 它为什么比验证集更好?

答:通过交叉验证技术,可以不需要单独的验证集实现模型比较(用于模型选择和调整超参数)。这节省了宝贵的训练数据。

 

你可能感兴趣的:(机器学习与深度学习算法,机器学习,人工智能)