岭回归、lasso回归

岭回归(ridge regression)和lasso(least absolute shrinkage and selection operator)都是OLS的改进,知乎上有关于三者异同的详细讨论:

https://www.zhihu.com/question/38121173

关于lasso:https://zhuanlan.zhihu.com/p/26766850

这里记录一下最近的学习心得。

岭回归的含义:

    

    岭回归的权值计算公式中有单位方阵I,就像岭一样,所以称为岭回归。

遗留的问题:

    岭回归和lasso都可以将参数控制在较小的范围中,lambda越大,系数就越小,优化过程中,他们的损失函数OLS项是w的函数,具有最小值,而正则化项的最小值都是0,显然,正则化项正常都不应该是0,OLS项和正则项是相互制约的,lambda控制着他们的“比例”,最后达到某种平衡状态。

    但大家都说,lasso具有缩减特征的作用,因为lasso能让某些具有线性关系的特征的系数趋于0,比如,x1和x2具有较强的相关性,lasso能随机让x1或x2的系数为0,进而我们可以剔除其中一个特征。

    问题是,lasso为什么可以,而岭回归不可以呢,就损失函数而言,两者本质上差不多。翻了几本书都没有提到这个问题,只是说能,网络上讨论这个问题的也不多。

    比对损失函数来看,岭回归正则化项的梯度是theta,是连续的,而lasso的梯度为[-1,1],theta小于0时候是-1,而大于0的时候是1,也就是在[-1,1]的值域中lasso的梯度要大,因而下降的快?

    https://zhuanlan.zhihu.com/p/26766850此知乎中有谈论这个问题,分别画出了两者正则项部分的轮廓图,然后根据他们轮廓图的不一样,得到的结论是lasso更加容易下降到0,不甚明白。

你可能感兴趣的:(机器学习)