每天五分钟机器学习:大数据训练过拟合模型从而得到优质学习模型

本文重点

什么是高偏差(欠拟合),什么是高方差(过拟合)?

高偏差是指算法打偏了,没有命中目标。如果训练集只有50%的命中目标时,偏差很大,此时就是欠拟合。

高方差是指训练集和测试集上的表现,若训练集100%的命中了目标则偏差小,测试集命中率0%,则方差很大,这就是过拟合。

要想获得一个比较高效的学习系统,其中一种最可靠的办法就是选择一个低偏差或者高方差的算法,然后使用巨大的训练集来训练它。我们可以通过增大分类器的特征数或者在神经网络中增加隐藏层数,直到我们得到一个偏差比较小的分类器,但是现在的问题是我们从哪里找到这么多的训练数据呢?

获取数据的方式--人工数据合成

要想获取到更多的数据,我们可以使用人工数据合成的方式,人工数据合成通常包含两种方式:

第一种是我们从无到有创造新的数据

第二种是我们已经有了一小部分带标签的训练集,然后将其扩展为一个大的训练集

第一种

我们收集到了一些带有标签数据,都是长宽比为正方形的图像,如下所示:

每天五分钟机器学习:大数据训练过拟合模型从而得到优质学习模型_第1张图片

 

但这些数据量明显不是很大,所以如何获得巨大的数据集呢?我们可以去字体网站下载各种字体

你可能感兴趣的:(每天五分钟玩转机器学习算法,机器学习,大数据,深度学习,人工智能,优化算法)