机器学习中数据量多少与模型过拟合欠拟合之间的关系

参考链接:https://blog.csdn.net/insular_island/article/details/39099721 

1、从模型方面考虑。举例说明:本身问题是二次的,用线性模型处理问题就是欠拟合,用三次及更高次处理问题就是过拟合。但是这里未考虑数据量的多少,只是针对本身模型阶次的考虑。而且现实问题,特别是深度模型处理的问题,并不是简单的就能确定模型复杂度的。

2、处理相同的问题时,在数据量多的情况,可以用相对复杂的模型处理问题,在数据量少的情况下,可以用相对简单的模型处理问题。过拟合,当数据量太少时,模型无法完成充分的训练,容易过度拟合的符合少量的训练数据特征,对测试数据效果不好;欠拟合,数据量太多,模型太简单没有充分的利用到数据。

3、欠拟合:根本原因是特征维度过少,模型过于简单但是数据量很大,所需模型用不完大量数据提供的信息,误差较大; 
       解决方法:(1)增加特征维度; 
  过拟合:根本原因是特征维度过多,模型假设过于复杂,参数过多,训练数据过少,噪声过多,导致拟合的函数完美的预测训练集,但对新数据的测试集预测结果差。 过度的     拟合了训练数据,而没有考虑到泛化能力。
      解决方法:(1)减少特征维度;(2)正则化,降低参数值。

转载于:https://www.cnblogs.com/simpleDi/p/10582878.html

你可能感兴趣的:(机器学习中数据量多少与模型过拟合欠拟合之间的关系)