过拟合原因和方法

过拟合的原因

  • 数据方面,比如数据不规范,数据量少,还有可能是数据穿越(统计特征用到了未来的信息或者标签信息);
  • 算法方面,模型过于复杂;

防止过拟合方法

  • 进行数据规范化,处理缺失值,减少特征,增加数据量,也可以添加噪声数据;
  • 模型的话,可以加正则化,交叉验证,模型融合。也可以设置一个参数,使得模型变得简单。
  • 线性回归,logistic回归:减少特征,设置正则项;
  • SVM:引入松弛变量,调节惩罚因子C(越大越容易过拟合);
  • xgboost(GBDT)的 early stoping(GBDT无),迭代次数,树的深度,增大学习率,限制叶子节点最少样本数,限制叶子节点数等;

你可能感兴趣的:(过拟合原因和方法)