机器学习笔记

1、机器学习为什么要打乱数据

机器学习中的训练是用已知的输入数据来修改模型中的参数,以将其泛化到新的数据上。

假设输入数据大致可以分为两类。若不将输入数据打乱,则在训练时模型的参数首先用于拟合第一种类型的数据,而当大量的第一类数据连续输入训练时,极易造成参数在第一类数据上过拟合。当这一任务完成后,产生的模型显然不适用与第二类数据,此时开始连续输入第二类数据,这时模型又要尽力逼近第二类数据,造成新的过拟合。依此反复执行,只会让模型在两种过拟合之间徘徊,训练效果差。

而当我们选择打乱数据进行训练时,模型不会轻易在任何一类数据上产生过拟合,从而可以训练出适合两类数据的统一模型,

样本分布不均匀,容易造成过拟合,无法收敛。

你可能感兴趣的:(机器学习,算法)