数据量多少与训练的过拟合和欠拟合 overfitting and underfitting

           过拟合和欠拟合的问题之前是理解了的,但是在看到一篇论文中 recent datasets such as ImageNet contain enough labeled examples to train such models without severe overfitting,对过拟合和欠拟合与数据多少有了困惑,下面针对数据量与过拟合欠拟合进行一下分析,可能存在一些问题,希望能相互交流。

    从模型方面考虑,举例说明,本身问题是二次的,用线性模型处理问题就是欠拟合,用三次及更高次处理问题就是过拟合。但是这里未考虑数据量的多少,只是针对本身模型阶次的考虑。而且现实问题,特别是深度模型处理的问题,并不是简单的就能确定模型复杂度的。

    我认为可以这么理解,处理相同的问题时,在数据量多的情况,可以用相对复杂的模型处理问题,在数据量少的情况下,可以用相对简单的模型处理问题。 在这个基础上理解论文中的这句话,有足够的数据的时候可以防止模型过度过拟合。过拟合,当数据量太少时,模型无法完成充分的训练,容易过度拟合的符合少量的训练数据特征,对测试数据效果不好;欠拟合,数据量太多,模型太简单没有充分的利用到数据。


你可能感兴趣的:(CNN学习)