f(x)=∑j=1pwjxj=wTx阅读http://freemind.pluskid.org/machine-learning/sparsity-and-some-basics-of-l1-regularization/文章中的一些知识整理:
==============================================================
“因为如果用上所有变量的话, 越大,通常会导致模型越复杂,但是反过来 有很小,于是就会出现很严重的 overfitting 问题。”
解释:
overfitting是这样一种现象:一个假设在训练数据上能够获得比其他假设更好的拟合,但是在训练数据外的数据集上却不能很好的拟合数据。此时我们就叫这个假设出现了overfitting的现象。出现这种现象的主要原因是训练数据中存在噪音或者训练数据太少。而解决overfit的方法主要有两种:提前停止树的增长或者对已经生成的树按照一定的规则进行后剪枝。
百度中关于overfitting的标准定义:给定一个假设空间H,一个假设h属于H,如果存在其他的假设h’属于H,使得在训练样例上h的错误率比h’小,但在整个实例分布上h’比h的错误率小,那么就说假设h过度拟合训练数据。
具体可以见http://blog.csdn.net/abcjennifer/article/details/7716281(第二部分:The problem of overfitting and how to solve it)
===============================================================
”解决 overfitting 最常用的办法就是 regularization ,例如著名的 ridge regression 是添加一个 regularizer “
解释:
1、对于规则化可以详细参考:http://blog.csdn.net/zouxy09/article/details/24971995/
对于越小的参数说明模型越简单,越简单的模型则越不容易产生过拟合现象,作者说的有一定道理,我认为图中介绍的是系数少了两个然后模型相对简单了,可以参考一下:
http://blog.csdn.net/pakko/article/details/37878837
http://52opencourse.com/125/coursera%E5%85%AC%E5%BC%80%E8%AF%BE%E7%AC%94%E8%AE%B0-%E6%96%AF%E5%9D%A6%E7%A6%8F%E5%A4%A7%E5%AD%A6%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E7%AC%AC%E5%85%AD%E8%AF%BE-%E9%80%BB%E8%BE%91%E5%9B%9E%E5%BD%92-logistic-regression
http://www.cnblogs.com/biyeymyhjob/archive/2012/07/18/2595410.html
2、Ridge Regression岭回归:http://www.cnblogs.com/zhangchaoyang/articles/2802806.html
================================================================
”LASSO (least absolute shrinkage and selection operator),LASSO 仍然是一个 convex optimization 问题,不过不再具有解析解。它的优良性质是能产生稀疏性,导致 中许多项变成零。“
解释:http://cos.name/2011/04/modified-lars-and-lasso/
================================================================
感谢:http://freemind.pluskid.org/category/#machine-learning