目录
模型误差较大的处理方法
假设的评估
模型选择和交叉验证集
拟合次数的评估(偏差/方差)
正则化系数评估(偏差/方差)
学习曲线 Learning Curves
如何利用学习曲线识别高偏差(High Bias)/欠拟合(underfit)
如何利用学习曲线识别高方差(High Bias)/过拟合(overfit)
如何修正一个机器学习模型
如何选择一个神经网络结构
获得更多的训练样本——通常是有效的,但代价较大,下面的方法也可能有效,可考虑先采用下面的几种方法。
尝试减少特征的数量
尝试获得更多的特征
尝试增加多项式特征
尝试减少正则化程度
尝试增加正则化程度
下面会讲一种机器学习的诊断法。它是一种测试方法,通过执行这种测试,能够深入了解某种算法到底是否有用。这通常也能够告诉你,要想改进一种算法的效果,什么样的尝试,才是有意义的。
如何判断一个假设函数是过拟合的呢?对于简单的例子,我们可以对假设函数进行画图,然后观察图形趋势,但对于特征变量不止一个的这种一般情况,还有像有很多特征变量的问题,想要通过画出假设函数来进行观察,就会变得很难甚至是不可能实现。因此,我们需要另一种方法来评估我们的假设函数过拟合检验。
为了检验算法是否过拟合,我们将数据分成训练集和测试集,通常用70%的数据作为训练集,用剩下30%的数据作为测试集。很重要的一点是训练集和测试集均要含有各种类型的数据,通常我们要对数据进行“洗牌”,然后再分成训练集和测试集。
对于线性回归模型,我们利用测试集数据计算代价函数
对于logistics回归,测试集上的误差为
假设我们要在10个不同次数的二项式模型之间进行选择:
显然越高次数的多项式模型越能够适应我们的训练数据集,但是适应训练数据集并不代表着能推广至一般情况,我们应该选择一个更能适应一般情况的模型。我们需要使用交叉验证集来帮助选择模型。
使用60%的数据作为训练集,使用 20%的数据作为交叉验证集,使用20%的数据作为测试集:
模型选择的方法为:
训练集上的误差:
交叉验证集上的误差:
测试集上的误差:
当运行一个学习算法时,如果这个算法的表现不理想,无非是两种:要么是欠拟合,要么是过拟合问题。判断出现的情况是这两种情况中的哪一种是非常重要的。能够判断一个算法是偏差还是方差有问题,因为这个问题对于弄清如何改进学习算法的效果非常重要。
通常会通过将训练集和交叉验证集的代价函数误差与多项式的次数绘制在同一张图表上来帮助分析:
也就是说,对于训练集,当较小时,模型拟合程度更低,误差较大;随着的增长,拟合程度提高,误差减小。
对于交叉验证集,当较小时,模型拟合程度低,误差较大;但是随着的增长,误差呈现先减小后增大的趋势,转折点是我们的模型开始过拟合训练数据集的时候。
如果我们的交叉验证集误差较大,我们如何判断是方差还是偏差呢?根据上面的图表,可以知道:
在训练模型的过程中,一般会使用一些正则化方法来防止过拟合。但是我们可能会正则化的程度太高或太小了,即我们在选择的值时也需要思考与刚才选择多项式模型次数类似的问题。
如上图,若值太大,可能导致欠拟合问题;当值太小或者不考虑正则化,又会导致过拟合问题。
我们选择一系列的想要测试的值,通常是 0-10之间的呈现2倍关系的值,如:0,0.01,0.02,0.04,0.08,0.15,0.32,0.64,1.28,2.56,5.12,10共12个。同样把数据分为训练集、交叉验证集和测试集。
选择的方法为:
从上图可以看出,在训练集上,很小的时候误差比较小,随着训练集上的增大,会逐渐欠拟合,误差逐渐增大;在交叉验证集上很小的时候过拟合,误差较大(High Variance),随着增大,拟合情况变好,但是再增大,又会逐渐欠拟合,导致误差变大(High Bias)。
总结来说:
学习曲线就是一种很好的工具,我经常使用学习曲线来判断某一个学习算法是否处于偏差、方差问题。学习曲线是学习算法的一个很好的合理检验(sanity check)。学习曲线是将训练集误差和交叉验证集误差作为训练集样本数量()的函数绘制的图表。
思想是这样的:如果我们有100行数据,我们从1行数据开始,逐渐学习更多行的数据。思想是:当训练较少行数据的时候,训练的模型将能够非常完美地适应较少的训练数据,但是训练出来的模型却不能很好地适应交叉验证集数据或测试集数据。
作为例子,尝试用一条直线来适应下面的数据,可以看出,无论训练集有多么大误差都不会有太大改观:
也就是说在高偏差/欠拟合的情况下,增加数据到训练集不一定能有帮助。
假设我们使用一个非常高次的多项式模型,并且正则化非常小,可以看出,当交叉验证集误差远大于训练集误差时,往训练集增加更多数据可以提高模型的效果:
也就是说在高方差/过拟合的情况下,增加更多数据到训练集可能可以提高算法效果。
在第一部分,我们提到,在一个机器学习算法效果不好时,我们可以采取一些措施进行修正。在这一部分,我们综合之前学过的评估方法(诊断方法),对可能出现的问题进行修正。
这里主要针对神经网络的规模大小进行探讨。
使用较小的神经网络,类似于参数较少的情况,容易导致高偏差和欠拟合,但计算代价较小;
使用较大的神经网络,类似于参数较多的情况,容易导致高方差和过拟合,虽然计算代价比较大,但是可以通过正则化手段来调整而更加适应数据。
通常选择较大的神经网络并采用正则化处理会比采用较小的神经网络效果要好。
对于神经网络中的隐藏层的层数的选择,通常从一层开始逐渐增加层数。为了更好地作选择,可以把数据分为训练集、交叉验证集和测试集,针对不同隐藏层层数的神经网络训练神经网络,然后选择交叉验证集代价最小的神经网络。