正则化

理解

  • 结构风险最小化方法(基于VC维)
  • 模型选择方法(通过加入先验知识,即偏置,来达到增大模型泛化能力)
  • 可以从贝叶斯角度解释其常用方法

线性回归

  • 参数惩罚
    • 如:L1,L2(实现参考)
  • shrinkage,岭回归=线性回归+shrinkage

基于树的模型

  • 决策树中剪枝
  • 提升树种的shrinkage

SVM

  • 最大化margin

神经网络

  • CNN中权值共享
  • Weight decay
  • Early Stopping
  • Dropout

网络中的权重倾向于选择取值小的,因为这样可以使权重的变化范围相对小;良好正则化的神经网络倾向于选择参数少的模型,因为这种模型更加符合奥卡姆剃刀原理。关于这点的贝叶斯解释可以参考Theodoridis 2015,chapter 12.3

其他

  • 数据集中加入噪声,其实增加了有效的数据量
  • Early Stopping
    • 当验证集上的验证误差随着训练次数增加而增加时,说明产生了过拟合,所以验证误差最小时的参数应该是Early Stopping策略所返回的模型参数。

参考

神经网络
1.Bengio etc,Deep Learning,2015

Shrinkage
1.Tibshirani R. Regression shrinkage and selection via the lasso[J]. Journal of the Royal Statistical Society. Series B (Methodological), 1996: 267-288.
2.Hoerl A E, Kennard R W. Ridge regression: Biased estimation for nonorthogonal problems[J]. Technometrics, 1970, 12(1): 55-67.

贝叶斯效应函数和奥坎姆剃刀原理
1.Theodoridis S. Machine learning: a Bayesian and optimization perspective[M]. Academic Press, 2015.

你可能感兴趣的:(机器学习理论)