机器学习面试题(三)模型评价指标、超参数调优、过拟合和欠拟合

如何评价一个模型的好坏呢,这里我们有如下几种方法:
Holdout检验
即将模型分为训练集与测试集进行检验,比方说,对于一个点击率预测模型,我们把样本按照 70%~30% 的 比例分成两部分,70% 的样本用于模型训练;30% 的样本用于模型验证,Holdout 检验的缺点很明显,即在验证集上计算出来的最后评估指标与原始分组有很 大关系。
交叉检验
k-折交叉验证:首先将全部样本划分成k个大小相等的样本子集;依次遍历这k个子集,每次把当前子集作为验证集,其余所有子集作为训练集,进行模型的训练和评估;最后把k次评估指标的平均值作为最终的评估指标。在实际实验中,k经常取10。 ‘
留一验证:每次留下1个样本作为验证集,其余所有样本作为测试集。样本总数为n, 依次对n个样本进行遍历,进行n次验证,再将评估指标求平均值得到最终的评估指标。(一般当样本很少的时候我们会采取留一验证的方法)
自助法
无论是holdout检验还是交叉验证,都会对数据进行划分,但是如果数据集比较小的话这时再对数据集进行划分的话可能会影响训练集的大小,从而影响模型的训练
自助法是基于自助采样法的检验方法。对于总数为n的样本集合,进行n次有放回的随 机抽样,得到大小为n的训练集。n次采样过程中,有的样本会被重复采样,有的样本没有 被抽出过,将这些没有被抽出的样本作为验证集,进行模型验证,这就是自助法的验证过程。(自助法一般用于训练数据较小的情况)
问题一:当n趋于无穷时,会有多少样本未被抽取过:
机器学习面试题(三)模型评价指标、超参数调优、过拟合和欠拟合_第1张图片
根据重要极限,lim(n->∞)(1+1/n)=e
机器学习面试题(三)模型评价指标、超参数调优、过拟合和欠拟合_第2张图片

二、超参数调优
什么叫超参数调优呢,意思就是通过对不同的数据的掌握优化模型的参数,使得模型的训练和预测效果更好,超参数调优我们有三种方法:
1、网格搜索
所谓的网格搜索时对超参数形成一个表格,对每种超参数设定一个步长,穷举不同参数的组合,通过模型的评价指标来选取最优的参数。然而,这种搜索方案十分消耗计算资源和时间,特别是需要调优的超参数 比较多的时候。因此,在实际应用中,网格搜索法一般会先使用较广的搜索范围和较大的 步长,来寻找全局最优值可能的位置;然后会逐渐缩小搜索范围和步长,来寻找更精确的最优值。
如我们的参数有gamma和c如下图所示:
机器学习面试题(三)模型评价指标、超参数调优、过拟合和欠拟合_第3张图片
2、随机搜索
随机搜索的思想与网格搜索比较相似,只是不再测试上界和下界之间的所有值,而是 在搜索范围中随机选取样本点。它的理论依据是,如果样本点集足够大,那么通过随机采 样也能大概率地找到全局最优值,或其近似值

三、过拟合和欠拟合
1、什么时过拟合和欠拟合
过拟合是指模型对于训练数据拟合呈过当的情况,反映到评估指标上,就是模型在训 练集上的表现很好,但在测试集和新数据上的表现较差。欠拟合指的是模型在训练和预测 时表现都不好的情况。
2、怎么避免过拟合和欠拟合
2.1 如何避免过拟合
过拟合一般模型过于复杂,把噪声数据的特 征也学习到模型中,导致模型泛化能力下降,在后期应用过程中很容易输出错误的预测结果。所以一般降低过拟合的方法有如下几种:
(1)从数据入手,获得更多的训练数据。使用更多的训练数据是解决过拟合问题最 有效的手段,因为更多的样本能够让模型学习到更多更有效的特征,减小噪声的影响。当 然,直接增加实验数据一般是很困难的,但是可以通过一定的规则来扩充训练数据。比 如,在图像分类的问题上,可以通过图像的平移、旋转、缩放等方式扩充数据;更进一步 地,可以使用生成式对抗网络来合成大量的新训练数据。
(2)降低模型复杂度。在数据较少时,模型过于复杂是产生过拟合的主要因素,适 当降低模型复杂度可以避免模型拟合过多的采样噪声。例如,在神经网络模型中减少网络 层数、神经元个数等;在决策树模型中降低树的深度、进行剪枝等。
(3)正则化方法。给模型的参数加上一定的正则约束,比如将权值的大小加入到损 失函数中。
(4)集成学习方法。集成学习是把多个模型集成在一起,来降低单一模型的过拟合 风险,如Bagging方法。
2.2 如何避免欠拟合
(1)添加新特征。当特征不足或者现有特征与样本标签的相关性不强时,模型容易出现欠拟合。通过挖掘“上下文特征”“ID类特征”“组合特征”等新的特征,往往能够取得更好的效果。在深度学习潮流中,有很多模型可以帮助完成特征工程,如因子分解机、梯度提升决策树、Deep-crossing等都可以成为丰富特征的方法。
(2)增加模型复杂度。简单模型的学习能力较差,通过增加模型的复杂度可以使模 型拥有更强的拟合能力。例如,在线性模型中添加高次项,在神经网络模型中增加网络层 数或神经元个数等
(3)减小正则化系数。正则化是用来防止过拟合的,但当模型出现欠拟合现象时, 则需要有针对性地减小正则化系数。

你可能感兴趣的:(简历及机器学习)