机器学习基础

1. 机器学习定义

机器学习是一门能够让系统从数据中学习的计算机科学。

2. 机器学习在哪些问题上表现突出?

机器学习非常有利于:不存在已知算法解决方案的复杂问题,需要大量手动调整或是规则列表超长的问题,创建可以适用环境波动的系统,以及帮助人类学习(比如数据挖掘)。

3. 什么是被标记的训练数据集?

被标记的训练集是指包含每个实例所期望的解决方案的训练集。

4. 最常见的监督式学习任务是什么?

最常见的两个监督式学习任务是分类和回归

5. 模型参数与学习算法的超参数的区别?

模型参数有一个或者多个,这些参数决定了模型对新的给定实例会做出怎样的预测(比如,线性模型的斜率)。学习算法试图找到这些参数的最佳值,使得该模型能够很好的泛化至新的实例。超参数是学习算法本身的参数,不是模型的参数(比如,要应用的正则化数量)。

6. 什么是测试集,为什么要使用测试集?

在模型启动至生产环境之前,使用测试集来估算模型在新实例上的泛化能力。

7. 什么是交叉验证?它为什么比验证集更好?

通过交叉验证技术,可以不需要单独的验证集实现模型比较(用于模型选择和调整超参数)。这节省了宝贵的训练数据。

8. 如果使用测试集调整超参数会出现什么问题?

如果使用测试集来调整超参数,会有过度拟合测试集的风险,最后测量的泛化误差会过于乐观(最后启动的模型性能比预期对的要差)。

你可能感兴趣的:(机器学习基础)