街景字符编码识别_Task04模型训练与验证

1 欠拟合和过拟合

欠拟合:即模型没有很好地捕捉到数据特征,不能够很好地拟合数据;

过拟合:即模型把数据学习的太彻底,导致测试的时候不能够很好地识别数据,即不能正确的分类,模型泛化能力太差。

过拟合原因:常见是模型复杂度太高
解决过拟合:构建一个与测试集尽可能分布相似的样本,训练过程不断验证模型在验证集上的精度,来控制模型的训练。因此可以划分验证集来进行验证,

2 评估方法

留出法:把数据集D划分为两个互斥的集合,其中一个是训练集,一个是测试集。书中给出的参考划分比例是,训练集66.6%~80%

交叉验证法:把数据集D划分为k个大小相同的互斥的子集,然后用k-1个子集作为训练,剩下的一个子集作为测试,则需要训练k个模型,得到k个结果,再取平均即可。又称k折交叉验证。

自助法:对于m个样本的数据集D,每次随机挑选D中的一个样本放到D’中,挑m次,经过计算D中有大约36.8%(≈1/e)的样本未出现在D’中,这样用D’作为训练集,D\D’(“\”表示集合减法)作为测试集。自助法又称为可重复采样,有放回采样。

3 模型训练与验证

你可能感兴趣的:(CV,AI(人工智能))